2020云巨头宕机事件频发,云技术面临新的挑战

发布时间:2022-05-20 11:22 来源:好主机 阅读:133 作者:新网知识社区 栏目: 服务器 欢迎投稿:712375056

疫情之下,万物皆可“云”。上班族“云办公”、学生党“云上课”,各种在线教育、远程办公、云招聘、云看病等需求得到集中爆发,企业数字化转型进程被按下了加速键,企业上云劲头十足,云计算产业得到了前所未有的发展契机。
目前,云计算已被很多企业采用,但是,在此过程中也出现了许多问题。仅2020年一年,全球主流云计算厂商曾发生数十起宕机事故。以下是2020年规模巨大的十大宕机事件,随着这些问题的出现和解决,云计算技术正面临着新的挑战和机遇。
1、3月,微软发生两次大规模宕机
3月3日,微软位于美国东部的数据中心发生了服务中断,持续六小时,导致美国北部的客户无法使用Azure云服务。
微软称,这次故障应归咎于冷却系统故障。发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度达到峰值,影响了网络设备的性能,使得计算和存储都无法继续使用。
3月24日-26日,Azure Pipelines发生故障,这是DevOps团队使用的持续交付服务,接下来的几天,软件开发管道遇到了严重的延迟,开发人员受到的影响特别大。
微软证实,由于全球疫情爆发,需求激增,容量受限使得设备重新映像的时间增加,导致可用代理的等待时间也随之增加。
2、3月,Google多个云服务出现无法访问
3月26日,Google多个云服务出现无法访问的问题。Google用户发Twitter称,他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败;502代码则代表网关出现故障。
Google最终将这次故障归咎于“基础设施组件”问题。据Downdetector称,美国东部沿海地区的Google客户受到的影响最大。
3、4月,GitHub多次宕机
微软旗下的源代码存储库GitHub在4月底发生了多次宕机。
4月21日,多个GitHub服务出现访问异常,持续了一个半小时。4月22日,服务再次出现中断,持续时间至少两小时。4月23日,多个GitHub服务也遇到了各种问题的影响,持续了近三小时。软件工程师经常使用的API请求、Webhooks等服务被标注为 '已降级'。
官方没有提供任何原因,也没有公布恢复过程的信息。虽然GitHub网站上更新了微软试图修复各种故障的情况,但并没有提供任何关于问题的细节,开发者们在Twitter上抨击微软缺乏透明度。
4、6月,IBM Cloud遭遇了重大宕机故障
6月9日,IBM Cloud 遭遇了重大宕机故障,平台上托管的多项服务也因此中断,其中就包括知名科技新闻聚合网站 Techmeme。本次宕机事件从下午2点30分左右开始,并快速蔓延至全球。
IBM Cloud页面也在故障发生期间短暂关闭,然后在下午6:30之后报告称一系列问题已经得以解决。
IBM网站解释到,INM网络运营团队调整了路由策略,处理了第三方提供商引入的问题,这次故障也得以解决。
5、8月,Zoom发生了部分中断
8月24日,Zoom发生了部分中断,导致用户无法访问其离线会议和在线视频会议,本次中断持续了3小时。Zoom并未解释造成中断的原因,他只是在状态页面上说找到并解决了问题。
6、9月,Microsoft 365和Azure出现故障
9月29日,Microsoft Office 365办公软件和Azure云产品出现故障,导致部分用户服务中断数小时。
微软表示,故障涉及Outlook电邮服务和Teams办公协作工具的部分用户,其中Teams具备聊天和视频会议功能,在新冠疫情期间其用户增长迅速。微软表示,一些用户无法登录这些服务,但已经登录上去的不受影响。
当天,Azure云计算用户也遭遇了与Office365套件类似的问题。Azure是微软的大规模云计算系统,许多企业都依靠其存储和分析数据。
7、11月,亚马逊云服务出现中断
11月25日,亚马逊云服务出现中断,大量网站和服务受到影响。本次宕机持续约5小时。
AWS发布通知称,处理流媒体数据的Kinesis服务出现问题,大量网站受到影响,错误率上升。并且,宕机还影响了它向状态页发布更新的能力。
据了解,此次宕机导致亚马逊智能安全子公司Ring、Roku、软件开发商Autodesk纽约大都会运输署的地铁网站,论坛出版集团旗下的《芝加哥论坛报》和《巴尔的摩太阳报》等一些公司或机构的服务受到了影响,网站频频出现错误。
8、12月,Google Cloud全球宕机
12月14日晚间,Google服务器又一次全球宕机。这是近5个月来第3次全球宕机。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服务出现死机,用户无法正常使用,全球多个国家及地区用户均受到影响。
Google随后发推文确认,由于内部存储配额问题,Google身份验证系统中断。宕机45分后问题得以解决,现在所有服务都已恢复。

互联网时代对系统的可靠性提出了更高的要求。为了妥善解决停机和计划外的中断问题,服务器托提供商必须先了解此类事件的主要原因。除了人为的错误之外,其他主要停机原因还包括维护措施和生命周期策略不佳,以及数据中心选址,风险缓解措施不足等。
随着云计算技术和应用的快速发展,云端存储已经变得越来越方便了。可是,为了防止意外的发生,对重要数据进行备份还是非常重要的。除此之外,由于宕机事故无法杜绝,应该提前做好宕机应急方案,以将事故危害降到最低。同时,日常维护检查也是必不可少的一项:https://www.56dr.com/


免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。