这篇文章主要介绍“kafka文件的存储机制原理”,在日常操作中,相信很多人在kafka文件的存储机制原理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”kafka文件的存储机制原理”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
每一个topic,分为多个partition,每一个partition在文件系统当中是一个文件夹。
而每一个partition当中,又分成了多个segment,每个segment,包括了2个文件,.index文件和.log文件,分别是消息的索引信息和消息内容。而文件的名字形如下面的格式
00000000000000000000.log
00000000000000000000.index
0000000000000999.log
0000000000000999.index
文件名的就是消息在本分区当中的序号,以上面的文件为例,第一个segment当中存储了0-999的消息,而第二个segment从1000开始。
需要注意的是segment的划分规则,目前据我的研究,是综合了2方面的因素,一个是设定的segment的大小,满了自然会再来一个segment;第二个因素是时间的因素,比如某个topic长时间没有消息写入,那么在有新消息进来的时候,很可能会重新建一个segment,这样做的目的是为了方便在消息失效的时候,针对整个segment进行删除。
index文件当中,包含了2部分内容,分别是消息的在本segment当中的编号和物理offset。这里需要注意的是,在index文件当中,并不是存储了每一条消息的的索引信息,而是采用了 稀疏索引的策略,也就是隔几个存一个索引。
在查找一条消息的时候,首先是根据segment的名字和输入的消息编号,查找所在的segment,之后在根据index文件找到消息的具体位置。
写过程:
消息从java堆转入page cache(即物理内存)
由异步线程刷盘,消息从page cache刷入磁盘
读过程:
消息直接从page cache转入socket发送出去
当从page cache没有找到相应数据时,此时会产生磁盘IO,从磁 盘Load消息到page cache,然后直接从socket发出去
存储设计的优点:
Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。
通过索引信息可以快速定位message
通过index元数据全部映射到memory,可以避免segment file的IO磁盘操作
通过索引文件稀疏存储,可以大幅降低index文件元数据占用空间大小
免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。
Copyright © 2009-2022 56dr.com. All Rights Reserved. 特网科技 特网云 版权所有 特网科技 粤ICP备16109289号
域名注册服务机构:阿里云计算有限公司(万网) 域名服务机构:烟台帝思普网络科技有限公司(DNSPod) CDN服务:阿里云计算有限公司 百度云 中国互联网举报中心 增值电信业务经营许可证B2
建议您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流浏览器浏览本网站