腾讯大规模Hadoop集群实践

发布时间：2021-08-02 23:30 来源：网络整理阅读：197 作者：我不是九爷栏目：云计算欢迎投稿：712375056

3. 减轻运营负担和成本。十几个集群同时需要稳定运营，而且当一个集群的问题解决时，也需要解决其他集群已经出现的或者潜在的问题。一个Hadoop版本要在十几个集群逐一变更，监控系统也要在十几个集群上部署。这些都给运营带来了很大负担。此外，分散的多个小集群，资源利用率不高，机器成本较大。

1. 单点NameNode的问题

3. Job提交过程

TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

2. 计算资源共享。当一个集群的计算资源由于某些原因变得紧张时，例如需要数据补录时，这个集群的计算资源就捉襟见肘，而同时，另一个集群的计算资源可能空闲，但这两者之间没有做到互通有无。

（2）JobTracker如果发生故障，只会影响单个Job，对其他Job不会造成影响。

ID lishilong404740787

（1）ClusterManager如果发生故障，不会造成Job状态丢失而且在短时间内即可恢复。它只存储资源情况，不存储状态，ClusterManager在很短的时间内可以重启完成。重启之后，TaskTracker重新向ClusterManager汇报资源，ClusterManager从重启至完全获得集群的资源情况整个阶段可以在10秒内完成。

4. 存在的问题及应对措施

JobTracker分散化

TDW在实施大集群过程中，除了主要实施JobTracker分散化和NameNode高可用两个方案，还进行了一些其他优化。

1.单点JobTracker的瓶颈

（6）引入ZooKeeper。主要用来做主节点选举和记录相关日志：NameNode节点状态、安全日志序号、必要时记录edit log。

图1 TDW的功能模块

其他优化

NameNode高可用

TDW设计了一种一主两热备的NameNode高可用方案。新架构下NameNode角色有三个：一主（ActiveNameNode）两热备（BackupNameNode）。ActiveNameNode保存namespace和block信息，对DataNode下发命令，并且对客户端提供服务。BackupNameNode包括standby和newbie两种状态：standby提供对ActiveNameNode元数据的热备，在ActiveNameNode失效后接替其对外提供服务，newbie状态是正处于学习阶段，学习完毕之后成为standby。

免责声明：本站发布的内容（图片、视频和文字）以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主，内容观点不代表本网站立场，如侵犯了原作者的版权，请告知一经查实，将立刻删除涉嫌侵权内容，联系我们QQ:712375056，同时欢迎投稿传递力量。

上一篇新闻：
上一篇：我是如何双满通过RHCE的
下一篇新闻：
下一篇：负载均衡Array的nat port命令

云主机8折虚拟主机6折

红包可用于（云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速）购买和续费

腾讯大规模Hadoop集群实践

特网科技产品

解决方案

帮助与支持

其他链接

联系我们

腾讯大规模Hadoop集群实践

最新资讯

相关推荐

相关标签

特网科技产品

解决方案

帮助与支持

其他链接

联系我们