16、JVM 实战 - 三色标记法与读写屏障-6ren

16、JVM 实战 - 三色标记法与读写屏障

转载作者：大佬之路更新时间：2024-01-23 21:38:51

26

4

1. 垃圾回收的简单回顾

关于垃圾回收算法，基本就是那么几种：标记-清除、标记-复制、标记-整理。在此基础上可以增加分代（新生代/老年代），每代采取不同的回收算法，以提高整体的分配和回收效率。

无论使用哪种算法，标记总是必要的一步。这是理算当然的，你不先找到垃圾，怎么进行回收？

垃圾回收器的工作流程大体如下：

1、标记出哪些对象是存活的，哪些是垃圾（可回收）；
2、进行回收（清除/复制/整理），如果有移动过对象（复制/整理），还需要更新引用；

2. 三色标记法

2.1 基本算法

要找出存活对象，根据可达性分析，从 GC Roots 开始进行遍历访问，可达的则为存活对象（最终结果：A/D/E/F/G 可达）：

我们把遍历对象图过程中遇到的对象，按“是否访问过”这个条件标记成以下三种颜色：

白色：尚未访问过。
黑色：本对象已访问过，而且本对象引用到的其他对象也全部访问过了。
灰色：本对象已访问过，但是本对象引用到的其他对象尚未全部访问完。全部访问后，会转换为黑色。

假设现在有白、灰、黑三个集合（表示当前对象的颜色），其遍历访问过程为：

1、初始时，所有对象都在【白色集合】中；
2、将GCRoots直接引用到的对象挪到【灰色集合】中；
3、从灰色集合中获取对象：；
3、 1.将本对象引用到的其他对象全部挪到【灰色集合】中；
3、 2.将本对象挪到【黑色集合】里面；
4、重复步骤3，直至【灰色集合】为空时结束；
5、结束后，仍在【白色集合】的对象即为GCRoots不可达，可以进行回收；

注：如果标记结束后对象仍为白色，意味着已经“找不到”该对象在哪了，不可能会再被重新引用。

当Stop The World （以下简称 STW）时，对象间的引用是不会发生变化的，可以轻松完成标记。

而当需要支持并发标记时，即标记期间应用线程还在继续跑，对象间的引用可能发生变化，多标和漏标的情况就有可能发生。

2.2 多标-浮动垃圾

假设已经遍历到 E（变为灰色了），此时应用执行了 objD.fieldE = null (D > E 的引用断开)：

此刻之后，对象 E/F/G 是“应该”被回收的。然而因为 E 已经变为灰色了，其仍会被当作存活对象继续遍历下去。最终的结果是：这部分对象仍会被标记为存活，即本轮 GC 不会回收这部分内存。

这部分本应该回收但是没有回收到的内存，被称之为“浮动垃圾”。浮动垃圾并不会影响应用程序的正确性，只是需要等到下一轮垃圾回收中才被清除。

另外，针对并发标记开始后的新对象，通常的做法是直接全部当成黑色，本轮不会进行清除。这部分对象期间可能会变为垃圾，这也算是浮动垃圾的一部分。

2.3 漏标-读写屏障

假设GC 线程已经遍历到 E（变为灰色了），此时应用线程先执行了：

var G = objE.fieldG; 
objE.fieldG = null;  // 灰色E 断开引用 白色G 
objD.fieldG = G;  // 黑色D 引用 白色G

此时切回 GC 线程继续跑，因为 E 已经没有对 G 的引用了，所以不会将 G 放到灰色集合；尽管因为 D 重新引用了 G，但因为 D 已经是黑色了，不会再重新做遍历处理。

最终导致的结果是：G 会一直停留在白色集合中，最后被当作垃圾进行清除。这直接影响到了应用程序的正确性，是不可接受的。

不难分析，漏标只有同时满足以下两个条件时才会发生：

1、灰色对象断开了白色对象的引用（直接或间接的引用）；即灰色对象原来成员变量的引用发生了变化；
2、黑色对象重新引用了该白色对象；即黑色对象成员变量增加了新的引用；

从代码的角度看：

var G = objE.fieldG; // 1.读
objE.fieldG = null;  // 2.写
objD.fieldG = G;     // 3.写

1、读取对象E的成员变量fieldG的引用值，即对象G；
2、对象E往其成员变量fieldG，写入null值；
3、对象D往其成员变量fieldG，写入对象G；

我们只要在上面这三步中的任意一步中做一些“手脚”，将对象 G 记录起来，然后作为灰色对象再进行遍历即可。比如放到一个特定的集合，等初始的 GC Roots 遍历完（并发标记），该集合的对象遍历即可（重新标记）。

重新标记是需要 STW 的，因为应用程序一直在跑的话，该集合可能会一直增加新的对象，导致永远都跑不完。当然，并发标记期间也可以将该集合中的大部分先跑了，从而缩短重新标记 STW 的时间，这个是优化问题了。

写屏障用于拦截第二和第三步；而读屏障则是拦截第一步。
它们的拦截的目的很简单：就是在读写前后，将对象 G 给记录下来。

3. 写屏障

给某个对象的成员变量赋值时，其底层代码大概长这样：

/**
* @param field 某对象的成员变量，如 D.fieldG
* @param new_value 新值，如 null
*/
void oop_field_store(oop* field, oop new_value) { 
    *field = new_value; // 赋值操作
}

所谓的写屏障，其实就是指在赋值操作前后，加入一些处理（可以参考AOP的概念），读屏障的含义也类似。

void oop_field_store(oop* field, oop new_value) {  
    pre_write_barrier(field); // 写屏障-写前操作
    *field = new_value; 
    post_write_barrier(field, value);  // 写屏障-写后操作
}

3.1 写屏障 + SATB

当对象E 的成员变量的引用发生变化时（objE.fieldG = null;），我们可以利用写屏障，将 E 原来成员变量的引用对象 G 记录下来：

void pre_write_barrier(oop* field) {
    oop old_value = *field; // 获取旧值
    remark_set.add(old_value); // 记录 原来的引用对象
}

当原来成员变量的引用发生变化之前，记录下原来的引用对象。

这种做法的思路是：尝试保留开始时的对象图，即原始快照（Snapshot At The Beginning，SATB），当某个时刻的 GC Roots 确定后，当时的对象图就已经确定了。
比如当时 D 是引用着 G 的，那后续的标记也应该是按照这个时刻的对象图走（D 引用着 G）。如果期间发生变化，则可以记录起来，保证标记依然按照原本的视图来。

SATB 破坏了条件一：【灰色对象断开了白色对象的引用】，从而保证了不会漏标。

3.1 写屏障 + 增量更新

当对象D 的成员变量的引用发生变化时（objD.fieldG = G;），我们可以利用写屏障，将 D 新的成员变量引用对象 G 记录下来：

void post_write_barrier(oop* field, oop new_value) {  
  if($gc_phase == GC_CONCURRENT_MARK && !isMarkd(field)) {
      remark_set.add(new_value); // 记录新引用的对象
  }
}

当有新引用插入进来时，记录下新的引用对象。

这种做法的思路是：不要求保留原始快照，而是针对新增的引用，将其记录下来等待遍历，即增量更新（Incremental Update）。

增量更新破坏了条件二：【黑色对象重新引用了该白色对象】，从而保证了不会漏标。

4. 读屏障

oop oop_field_load(oop* field) {
    pre_load_barrier(field); // 读屏障-读取前操作
    return *field;
}

读屏障是直接针对第一步：var G = objE.fieldG;，当读取成员变量时，一律记录下来：

void pre_load_barrier(oop* field, oop old_value) {  
  if($gc_phase == GC_CONCURRENT_MARK && !isMarkd(field)) {
      oop old_value = *field;
      remark_set.add(old_value); // 记录读取到的对象
  }
}

这种做法是保守的，但也是安全的。因为条件二中【黑色对象重新引用了该白色对象】，重新引用的前提是：得获取到该白色对象，此时已经读屏障就发挥作用了。

5. 三色标记法与现代垃圾回收器

现代追踪式（可达性分析）的垃圾回收器几乎都借鉴了三色标记的算法思想，尽管实现的方式不尽相同：比如白色/黑色集合一般都不会出现（但是有其他体现颜色的地方）、灰色集合可以通过栈/队列/缓存日志等方式进行实现、遍历方式可以是广度/深度遍历等等。

对于读写屏障，以Java HotSpot VM 为例，其并发标记时对漏标的处理方案如下：

CMS：写屏障 + 增量更新
G1：写屏障 + SATB
ZGC：读屏障

26

4

0

文章推荐： 08、JVM 实战 - 虚拟机性能监控命令

文章推荐： 05、JVM 实战 - 类的加载篇，双亲委派机制

文章推荐： 01、JVM 实战 - 初识 JVM

文章推荐： 02、JVM 实战 - 垃圾收集算法

MongoDB Catalina 读写
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
c++ - Qt和Arduino串行通信(读写)
我陷入了一个非常简单的问题。我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
C++ COM口的打开、读写
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档，但无论我做什么，我仍然收到错误代码 #2(端口不存在
c++ - 用c++读写
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
ios - Xcode中如何使用已有的数据库文件，读写？
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件，它已经有一些表和数据。我把它放在我的 mac 文件夹中，然后将它拖到“支持文件”下的 Xcode 项目中。
Python 读写 tty
背景:如果需要，请跳至问题部分我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。设备将使用 Prologix GPIB-USB Controller 进行
Python文件常见操作实例分析【读写、遍历】
本文实例讲述了python文件常见操作。分享给大家供大家参考，具体如下： 1.文件是什么？文件是存储在外部介质上的数据或信息集合，程序中源程序、数据中保存的数据、图像中的像素数据等等；文件
multithreading - 原子交换(读写)操作的用例是什么？
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
vba - 读写 .ini 文件的推荐方式
VBA 中是否有任何方法可以读取和写入 INI 文件？我知道我可以使用； Open "C:\test.ini" For Input As #1 ...并解析数据。相反，我试图查看已有哪些工具可用。我
architecture - 读写 API，它们是独立的服务吗？
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例，它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。它分离了读写API
delphi - 读写 DEVMODE.dmColor
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。我的默认打印机是彩色打印机，如果我通过控制面板将打印机属性的颜色默认输出为黑白，则 DEVMODE.dmColor 字段始终返回 D
java - 读写 COM 端口？
我知道套接字等如何与 java/android 配合使用，但是如何使用 java 或 python 连接到桌面上的 COM 端口？您想使用地址吗？或者查找您想要的端口是否可用或者什么？我不知道该怎么
amazon-dynamodb - DynamoDB 读写
什么构成 DynamoDB 中的实际读取？它是读取表格中的每一行还是返回什么数据？这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗？能否将 ElasticCache (Me
java - 文件(读写)无法正确检测到换行符
我想用Java编写一个程序来检查src是否存在（如果不抛出FileNoot的话）并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小输出为： src.txt is in
c++ - 读写 float 组到文件
我在 C++ 中有一个 float 数组，我想将它保存到一个二进制文件中(以节省空间)，以便以后能够再次读取它。为此，我编写了以下代码来编写数组: float *zbuffer = new float
javascript - websocket javascript 读写
我试图为 websocket 创建一个 Read\Write 函数，但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
c++ - 读写 QGraphicsScene 到二进制文件
在我的应用程序中是用 Qt 编写的，我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
c - 使用命名管道 C 读写
我正在编写一个程序，该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。这是我的变量管理器代码。 manager.c: #includ
c - 读写 C 系统调用是否使用缓冲区？
我和一位老师谈过，他告诉我读写系统调用使用缓冲区，因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on，系统在他等待写入设备时使用buffer来存储数据。我在另一篇 Stack
C# 读写 TextFile 在中间结束
我运行一个方法，有三个部分，第 1 部分和第 3 部分都是“读取文本文件”，第二部分是将字符串保存到文本文件， // The Save Path is the text file's Path, u

首页

博学

6Ren·AI

商城