3. 减轻运营负担和成本。十几个集群同时需要稳定运营,而且当一个集群的问题解决时,也需要解决其他集群已经出现的或者潜在的问题。一个Hadoop版本要在十几个集群逐一变更,监控系统也要在十几个集群上部署。这些都给运营带来了很大负担。此外,分散的多个小集群,资源利用率不高,机器成本较大。
1. 单点NameNode的问题
3. Job提交过程
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。
2. 计算资源共享。当一个集群的计算资源由于某些原因变得紧张时,例如需要数据补录时,这个集群的计算资源就捉襟见肘,而同时,另一个集群的计算资源可能空闲,但这两者之间没有做到互通有无。
(2)JobTracker如果发生故障,只会影响单个Job,对其他Job不会造成影响。
ID lishilong404740787
(1)ClusterManager如果发生故障,不会造成Job状态丢失而且在短时间内即可恢复。它只存储资源情况,不存储状态,ClusterManager在很短的时间内可以重启完成。重启之后,TaskTracker重新向ClusterManager汇报资源,ClusterManager从重启至完全获得集群的资源情况整个阶段可以在10秒内完成。
4. 存在的问题及应对措施 JobTracker分散化 TDW在实施大集群过程中,除了主要实施JobTracker分散化和NameNode高可用两个方案,还进行了一些其他优化。 1.单点JobTracker的瓶颈 (6)引入ZooKeeper。主要用来做主节点选举和记录相关日志:NameNode节点状态、安全日志序号、必要时记录edit log。
图1 TDW的功能模块
其他优化
NameNode高可用
TDW设计了一种一主两热备的NameNode高可用方案。新架构下NameNode角色有三个:一主(ActiveNameNode)两热备(BackupNameNode)。ActiveNameNode保存namespace和block信息,对DataNode下发命令,并且对客户端提供服务。BackupNameNode包括standby和newbie两种状态:standby提供对ActiveNameNode元数据的热备,在ActiveNameNode失效后接替其对外提供服务,newbie状态是正处于学习阶段,学习完毕之后成为standby。
免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。
Copyright © 2009-2022 56dr.com. All Rights Reserved. 特网科技 特网云 版权所有 特网科技 粤ICP备16109289号
域名注册服务机构:阿里云计算有限公司(万网) 域名服务机构:烟台帝思普网络科技有限公司(DNSPod) CDN服务:阿里云计算有限公司 百度云 中国互联网举报中心 增值电信业务经营许可证B2
建议您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流浏览器浏览本网站