Git内部原理之Git对象存储

存储 存储软件
在Git内部原理之Git对象哈希中,讲解了Git对象hash的原理,接下来的这篇文章讲一讲Git对象如何存储。

在Git内部原理之Git对象哈希中,讲解了Git对象hash的原理,接下来的这篇文章讲一讲Git对象如何存储。

[[238127]]

原理

数据对象、树对象和提交对象都是存储在.git/objects目录下,目录的结构如下:

  1. .git 
  2. |-- objects 
  3.     |-- 01 
  4.     |   |-- 55eb4229851634a0f03eb265b69f5a2d56f341 
  5.     |-- 1f 
  6.     |   |-- 7a7a472abf3dd9643fd615f6da379c4acb3e3a 
  7.     |-- 83 
  8.         |-- baae61804e65cc73a7201a7252750c76066a30 

从上面的目录结构可以看出,Git对象的40位hash分为两部分:头两位作为文件夹,后38位作为对象文件名。所以一个Git对象的存储路径规则为:

  1. .git/objects/hash[0, 2]/hash[2, 40] 

这里就产生了一个疑问:为什么Git要这么设计目录结构,而不直接用Git对象的40位hash作为文件名?原因是有两点:

  • 有些文件系统对目录下的文件数量有限制。例如,FAT32限制单目录下的***文件数量是65535个,如果使用U盘拷贝Git文件就可能出现问题。
  • 有些文件系统访问文件是一个线性查找的过程,目录下的文件越多,访问越慢。

在Git内部原理之Git对象哈希中,我们知道Git对象会在原内容前加个一个头部:

  1. store = header + content 

Git对象在存储前,会使用zlib的deflate算法进行压缩,即简要描述为:

  1. zlib_store = zlib.deflate(store) 

压缩后的zlib_store按照Git对象的路径规则存储到.git/objects目录下。

总结下Git对象存储的算法步骤:

  1. 计算content长度,构造header;
  2. 将header添加到content前面,构造Git对象;
  3. 使用sha1算法计算Git对象的40位hash码;
  4. 使用zlib的deflate算法压缩Git对象;
  5. 将压缩后的Git对象存储到.git/objects/hash[0, 2]/hash[2, 40]路径下;

Nodejs实现

接下来,我们使用Nodejs来实现git hash-object -w的功能,即计算Git对象的hash值并存储到Git文件系统中:

  1. const fs = require('fs'
  2. const crypto = require('crypto'
  3. const zlib = require('zlib'
  4. function gitHashObject(content, type) { 
  5.   // 构造header 
  6.   const header = `${type} ${Buffer.from(content).length}\0` 
  7.   // 构造Git对象 
  8.   const store = Buffer.concat([Buffer.from(header), Buffer.from(content)]) 
  9.   // 计算hash 
  10.   const sha1 = crypto.createHash('sha1'
  11.   sha1.update(store) 
  12.   const hash = sha1.digest('hex'
  13.   // 压缩Git对象 
  14.   const zlib_store = zlib.deflateSync(store) 
  15.   // 存储Git对象 
  16.   fs.mkdirSync(`.git/objects/${hash.substring(0, 2)}`) 
  17.   fs.writeFileSync(`.git/objects/${hash.substring(0, 2)}/${hash.substring(2, 40)}`, zlib_store) 
  18.   console.log(hash) 
  19. // 调用入口 
  20. gitHashObject(process.argv[2], process.argv[3]) 

***,测试下能否正确存储Git对象:

  1. $ node index.js 'hello, world' blob 
  2. 8c01d89ae06311834ee4b1fab2f0414d35f01102 
  3. $ git cat-file -p 8c01d89ae06311834ee4b1fab2f0414d35f01102 
  4. hello, world 

由此可见,我们生成了一个合法的Git数据对象,证明算法是正确的。

责任编辑:武晓燕 来源: jingsam
相关推荐

2020-03-05 16:47:51

Git内部储存

2020-04-14 20:40:58

Git内部存储

2021-02-05 15:01:41

GitLinux命令

2020-08-20 07:41:52

Git原理版本

2015-08-20 10:42:17

2016-12-19 14:59:55

Git二进制管理

2011-10-08 14:09:27

JavaScript

2016-08-02 11:06:34

开源Linux版本控制

2016-08-03 15:32:50

GitLinux开源

2022-02-10 09:56:33

git revertgit resetGit

2015-08-07 09:36:25

git笔记

2020-01-18 18:41:13

GitGit服务器开源

2023-10-24 08:37:00

git工具开源

2022-06-08 07:34:02

持久化数据存储原理索引存储格式

2022-06-02 15:34:45

vmstorage监控

2020-11-23 07:27:22

Git Flow

2022-02-09 18:55:30

LazygitGit命令维护项目

2017-02-08 13:33:34

AndroidJavaPhp

2023-11-30 07:54:55

Gitstack

2023-09-17 17:31:20

Git文件
点赞
收藏

51CTO技术栈公众号