腾讯大规模Hadoop集群实践

发布时间:2021-08-02 23:30 来源:网络整理 阅读:197 作者:我不是九爷 栏目: 云计算 欢迎投稿:712375056

3. 减轻运营负担和成本。十几个集群同时需要稳定运营,而且当一个集群的问题解决时,也需要解决其他集群已经出现的或者潜在的问题。一个Hadoop版本要在十几个集群逐一变更,监控系统也要在十几个集群上部署。这些都给运营带来了很大负担。此外,分散的多个小集群,资源利用率不高,机器成本较大。

1. 单点NameNode的问题

3. Job提交过程

TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

2. 计算资源共享。当一个集群的计算资源由于某些原因变得紧张时,例如需要数据补录时,这个集群的计算资源就捉襟见肘,而同时,另一个集群的计算资源可能空闲,但这两者之间没有做到互通有无。

(2)JobTracker如果发生故障,只会影响单个Job,对其他Job不会造成影响。

ID lishilong404740787

(1)ClusterManager如果发生故障,不会造成Job状态丢失而且在短时间内即可恢复。它只存储资源情况,不存储状态,ClusterManager在很短的时间内可以重启完成。重启之后,TaskTracker重新向ClusterManager汇报资源,ClusterManager从重启至完全获得集群的资源情况整个阶段可以在10秒内完成。


4. 存在的问题及应对措施

JobTracker分散化

TDW在实施大集群过程中,除了主要实施JobTracker分散化和NameNode高可用两个方案,还进行了一些其他优化。

1.单点JobTracker的瓶颈

(6)引入ZooKeeper。主要用来做主节点选举和记录相关日志:NameNode节点状态、安全日志序号、必要时记录edit log。

图1 TDW的功能模块 

其他优化

NameNode高可用

TDW设计了一种一主两热备的NameNode高可用方案。新架构下NameNode角色有三个:一主(ActiveNameNode)两热备(BackupNameNode)。ActiveNameNode保存namespace和block信息,对DataNode下发命令,并且对客户端提供服务。BackupNameNode包括standby和newbie两种状态:standby提供对ActiveNameNode元数据的热备,在ActiveNameNode失效后接替其对外提供服务,newbie状态是正处于学习阶段,学习完毕之后成为standby。

免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。