kafka文件的存储机制原理

发布时间：2021-08-17 12:35 来源：亿速云阅读：0 作者：chen 栏目：服务器欢迎投稿：712375056

这篇文章主要介绍“kafka文件的存储机制原理”，在日常操作中，相信很多人在kafka文件的存储机制原理问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”kafka文件的存储机制原理”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

每一个topic，分为多个partition，每一个partition在文件系统当中是一个文件夹。

而每一个partition当中，又分成了多个segment，每个segment，包括了2个文件，.index文件和.log文件，分别是消息的索引信息和消息内容。而文件的名字形如下面的格式

00000000000000000000.log

00000000000000000000.index

0000000000000999.log

0000000000000999.index

文件名的就是消息在本分区当中的序号，以上面的文件为例，第一个segment当中存储了0-999的消息，而第二个segment从1000开始。

需要注意的是segment的划分规则，目前据我的研究，是综合了2方面的因素，一个是设定的segment的大小，满了自然会再来一个segment；第二个因素是时间的因素，比如某个topic长时间没有消息写入，那么在有新消息进来的时候，很可能会重新建一个segment，这样做的目的是为了方便在消息失效的时候，针对整个segment进行删除。

index文件当中，包含了2部分内容，分别是消息的在本segment当中的编号和物理offset。这里需要注意的是，在index文件当中，并不是存储了每一条消息的的索引信息，而是采用了稀疏索引的策略，也就是隔几个存一个索引。

在查找一条消息的时候，首先是根据segment的名字和输入的消息编号，查找所在的segment，之后在根据index文件找到消息的具体位置。

写过程：

消息从java堆转入page cache(即物理内存)

由异步线程刷盘,消息从page cache刷入磁盘

读过程：

消息直接从page cache转入socket发送出去

当从page cache没有找到相应数据时，此时会产生磁盘IO,从磁盘Load消息到page cache,然后直接从socket发出去

存储设计的优点：

Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。

通过索引信息可以快速定位message

通过index元数据全部映射到memory，可以避免segment file的IO磁盘操作

通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小

免责声明：本站发布的内容（图片、视频和文字）以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主，内容观点不代表本网站立场，如侵犯了原作者的版权，请告知一经查实，将立刻删除涉嫌侵权内容，联系我们QQ:712375056，同时欢迎投稿传递力量。

上一篇新闻：
上一篇：ram有什么特点
下一篇新闻：
下一篇：Linux下的链接文件是什么

云主机8折虚拟主机6折

红包可用于（云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速）购买和续费

kafka文件的存储机制原理

特网科技产品

解决方案

帮助与支持

其他链接

联系我们

kafka文件的存储机制原理

最新资讯

相关推荐

相关标签

特网科技产品

解决方案

帮助与支持

其他链接

联系我们