Git Internal - 读取 Git 中的索引区
在我的上一篇 Blog 《Git Internal - Git 中的索引区 Index 的概念》 中已经提到,Git 并没有命令可以直接看到索引区的内容,因此给人不直观的感受,在这篇 Blog 中,我将给出读取 Git 索引区内容的方法。
在 Git 中,索引区的内容全部存储在 .git/index
中,但这个文件除了存储 Git 索引区之外,还有另外一个功能,就是充当当前 Git Repo 的文件锁。在 Git 中,对于所有会读取或写入 Index 的命令,都会在执行时先讲 .git/index
的内容全部读入内存,然后创建 .git/index.lock
,并将更新后的索引信息写入到这个文件中,直到命令结束前,才将 .git/index.lock
重命名为 .git/index
,覆盖原来的索引区内容。如果此时有另外一条命令也试图读取或修改索引区,就会检测到 .git/index.lock
的存在,然后拒绝执行,这样相当于保证了 Git Repo 不会出现因为竞争和冲突造成的错误。 在 Git 中,类似的机制也存在于其他一些文件,例如 object 文件,会用先创建临时文件,再移动临时文件到目标地址的方法来创建,但是只有 index 的锁才能锁住整个 Git Repo,因此格外重要。
打开 .git/index
文件,首先要做的就应该是检查文件的正确性,检查分为三步:
- 确定文件确实是一个索引文件
- 确定索引文件的版本是当前 Git 版本可以处理的
- 确定文件本身没有损坏
在 .git/index
中,开头的 12 个字节是索引文件的元信息,它们从前往后分别是索引文件的签名,版本以及索引中条目的数量,每项各占 4 个字节。由于 Git 被设计成了文件结构是跨平台的,因此所有数字在文件中都是以网络序存储,即 big endian 存储。对于 Intel x86 平台,必须记得用 ntohl
函数去将它转换为 little endian 的格式才能读取。
所有索引文件的签名都是统一的,换成 ASCII 字符的话内容是 DIRC,如果转成网络序数字的话就是 0x44495243。对于当前版本的 Git,能处理的索引文件版本都是 2~4,一般以 2 为主(版本 3 主要是为了一些 Git 新功能设计,例如 git add -N
,不过用的不多,版本 4 则可以更好的优化索引文件的空间,但是目前很多库,例如 libgit2 还没有支持这一格式)。本文也会以版本 2 作为案例来解释索引文件的结构。
检查文件本身完整性的方法是 Git 中随处可见的 SHA-1,方法是对整个索引文件,除了最后 20 字节之外的内容计算 SHA-1,并与最后 20 字节的内容相比较。Git 生成索引文件时会计算文件内容的 SHA-1 并追加在文件的最后部分。
在 Git 中,SHA-1 既有由 20 字节构成的二进制版本,也有由 40 字节的十六进制版本,二者完全等效,但是 Git 在不同的情况下会挑选不同版本的呈现方式来使用。索引文件由于是二进制文件,所以始终挑选 20 字节的二进制版本来存储,相对更加节省存储空间。
索引文件的主体部分是由一项项索引条目构成,每个条目代表一个文件的元信息,大小不定,但至少有 62 个字节,条目数量可以在索引文件的元信息中获取。
每个条目从前往后的内容是这样的(所有数字都以网络序存储):
- 4 个字节的 ctime 的时间戳的整数部分
- 4 个字节的 ctime 的时间戳的小数部分,精确到纳秒。
- 4 个字节的 mtime 的时间戳的整数部分,
- 4 个字节的 mtime 的时间戳的小数部分,精确到纳秒。
- 4 个字节的设备号
- 4 个字节的 inode 号
- 4 个字节的文件权限
- 4 个字节的 uid
- 4 个字节的 gid
- 4 个字节的文件大小
- 20 个字节的 SHA-1
- 2 个字节的标志符
- 2 个字节的扩展标志符[可选]
- 不定长字节的文件名
如果标志符的 0x4000 位置被标记,则之后的两个字节为扩展标志符,将添加到标志符的高位部分,这样标志符就有 4 个字节构成。 事实上,对于版本 2 的索引文件,扩展标志符并不会被用到,扩展标志符只对 3 以上的版本起效。
标志符的低 6 个字节表示条目中文件名的长度,这样每个条目可以记录最多 64 个字节的文件名,但是由于很多操作系统的文件名长度上限都不会这么短,当超过或等于 64 个字节后,Git 会改变方法,通过和 C 字符串一样的 \0
标志来标示文件名的结束,同时标志符的低 6 个字节全部置 1 (0x0fff)。
索引区文件的索引条目之间并不紧密连接,而是按照 8 个字节对齐。
此外,索引区还会包含一个或多个扩展区。一般情况下,Git 可能会用到两种扩展区,Cache Tree 和 Resolve Undo。每个扩展区的格式都是这样的(所有数字都以网络序存储):
- 4 个字节的扩展区签名
- 4 个字节的扩展区大小
- 扩展区内容
虽然 Git 可以通过读取索引文件的方法来了解当前 working tree 中每个 blob 的 SHA-1,但有时 Git 也会需要了解 tree 的 SHA-1,索引文件并不存储 tree 对象的 SHA-1,通过查询当前 commit 再逐个解析 tree 的方式在效率上过于低下,因此有时 Git 会将整个 working tree 中所有 tree 对象以扩展的形式直接缓存在索引文件中,这就是 Cache Tree。
Cache Tree 的签名是 TREE
,它将整个 working tree 中所有 tree 对象的元信息逐个存储在扩展区中,每个 tree 对象的存储格式是这样的:
- 不定长字节的文件名,以
\0
结尾,Git Repo 根目录的文件名为空字符串 - 该 tree 中文件的数量(包括文件夹在内),字符串格式,以空格结尾
- 该 tree 中子目录的数量,,字符串格式,以
\n
结尾 - 20 个字节的 SHA-1
每个 tree 对象的存储顺序严格遵守深度搜索的算法排序,第一个 tree 对象总是 Git 根目录(因此第一个 tree 对象总是没有文件名),之后对于每个 tree 对象,Git 总是执行如下的递归算法:
- 对于当前指针指向的 tree 对象,先读取该 tree 中子目录的数量
- 如果当前 tree 对象的子目录的数量为 0,返回,否则继续执行
- 将当前 tree 对象的子目录数减 1,指针移至下一个 tree 对象,调用 1,并将通过 1 读取的 tree 对象作为自身的子目录
通过这一算法,Git 就能在内存中还原整个 working tree 结构。
Resolve Undo 是 Git 在遭遇到冲突时用来临时记录冲突文件的三个版本(即 base,ours,theirs),一些 Git 命令需要用它们来查看或解决冲突。
Resolve Undo 的签名是 REUC,里面记录了每个处于冲突状态的文件的三个版本的元信息,对于每个文件,它的存储格式是这样的:
- 不定长字节的文件名,以
\0
结尾 - 文件在 base 版本时的模式,以八进制格式记录,以
\0
结尾 - 文件在 ours 版本时的模式,以八进制格式记录,以
\0
结尾 - 文件在 theirs 版本时的模式,以八进制格式记录,以
\0
结尾 - 文件在 base 版本时的 20 个字节的 SHA-1
- 文件在 ours 版本时的 20 个字节的 SHA-1
- 文件在 theirs 版本时的 20 个字节的 SHA-1
通过这种方法,就可以查看每个冲突文件在三种版本的内容以及相互之间的差异。
我已经在 GitCafe 上创建了一个项目 Play Git,里面的 read_index.rb
可以读取,解析并显示索引文件的内容,可以通过
1 ruby read_index.rb .git/index
来执行,有兴趣的话可以去试试看。