hadoop下怎么计算MapReduce过程中需要的缓冲区大小

发布时间：2021-09-14 18:13 来源：亿速云阅读：0 作者：chen 栏目：服务器欢迎投稿：712375056

本篇内容介绍了“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

在Map阶段，map函数会产生中间数据输出并保存在内存缓冲区中（缓冲区大小由io.sort.mb参数指定）。一旦达到占用阈值（默认是80%），缓冲区的内容就会写入本地磁盘，这也就是所谓的溢写（spill）。

缓冲区内会存储溢写记录的元数据（每条数据元数据长度为16字节）和溢写记录。

分配给元数据的空间由参数io.sort.record.percent指定，默认5%，其余分配给溢写记录使用。

要确定缓冲区所需的内存空间，需要计算溢写记录和元数据分别所占空间大小。

具体计算方法如下：

Record length = Map output bytes / Map output records = 68022178 / 472293 = 144bytes
Spilled Records Size = Spilled Records * Record length = 144 * 472293 = 68022178 = 64M
Metadata Size = Metadata length * Spilled Records = 16 * 472293 = 7556688 = 7M

io.sort.record.percent = 16 / (16 + 144) = 0.1

io.sort.mb = Metadata size + Spilled Records size = 64 + 7 = 71M

免责声明：本站发布的内容（图片、视频和文字）以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主，内容观点不代表本网站立场，如侵犯了原作者的版权，请告知一经查实，将立刻删除涉嫌侵权内容，联系我们QQ:712375056，同时欢迎投稿传递力量。

红包可用于（云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速）购买和续费

相关标签