首頁(yè)>資訊 >
盤(pán)點(diǎn)2021那些令云服務(wù)商痛心疾首的宕機(jī),AWS、IBM多次上榜 2021-12-30 20:18:45  來(lái)源:36氪

初期成本低、彈性擴(kuò)展、安全、穩(wěn)定可靠,這是十余年以來(lái),云服務(wù)越來(lái)越受歡迎的主要原因。

其中,對(duì)講究實(shí)時(shí)在線、實(shí)時(shí)響應(yīng)的To B服務(wù)而言,云服務(wù)的可靠性是對(duì)企業(yè)最迷人的吸引力。能提供99.99%甚至99.999%可靠性的云服務(wù),幫助企業(yè)每年減少了太多宕機(jī)時(shí)間,間接賺取了更多收益。

以99.999%可靠性為例,其代表著企業(yè)每年只有5分鐘的停機(jī)時(shí)間,而99.99%可靠性意味著企業(yè)每年停機(jī)時(shí)間為1小時(shí)。相關(guān)數(shù)據(jù)顯示,企業(yè)IT系統(tǒng)停機(jī)1小時(shí)的平均成本為26萬(wàn)美元,而停機(jī)5分鐘,平均成本僅為2600美元。

盡管云服務(wù)商已經(jīng)盡力將云服務(wù)的可靠性做到99.99%甚至99.999%,但仍然有宕機(jī)的可能性。而承載全球各地企業(yè)海量業(yè)務(wù)的云服務(wù)商一旦宕機(jī),其導(dǎo)致的后果不堪想象。

云服務(wù)商的宕機(jī),既是企業(yè)所擔(dān)心的,畢竟自身的業(yè)務(wù)受到影響;更是云服務(wù)商們自己痛心疾首的事。因?yàn)殄礄C(jī),云服務(wù)商們提供服務(wù)的可靠性將遭到質(zhì)疑,影響新客戶的簽約,也影響老客戶的續(xù)約。

回顧即將劃上句號(hào)的2021年,在全球范圍內(nèi),令云服務(wù)商們痛心疾首的宕機(jī)事件,也在多家云服務(wù)商身上發(fā)生了多次。

01AWS:不太平的12月3次宕機(jī)

一組有趣的數(shù)據(jù)顯示:2010年至2019年間,AWS平均每年宕機(jī)次數(shù)達(dá)2.4次。而僅僅在2021年的最后一個(gè)月,AWS便發(fā)生了3次宕機(jī)。

12月第一次宕機(jī)發(fā)生美國(guó)東部時(shí)間7日,位于弗吉尼亞州北部 (US-EAST-1)區(qū)域,本次宕機(jī)從上午10點(diǎn)45分持續(xù)到下午2點(diǎn)22分,包括迪斯尼+、奈飛、Robinhood、Roku等大量熱門(mén)網(wǎng)站和應(yīng)用都發(fā)生嚴(yán)重的網(wǎng)絡(luò)中斷。同時(shí),亞馬遜自身的Alexa AI助理、Kindle電子書(shū)、亞馬遜音樂(lè)、Ring安全攝像頭等業(yè)務(wù)也受到影響。

12月10日,AWS公布了本次宕機(jī)的原因:用于擴(kuò)展主 AWS 網(wǎng)絡(luò)中托管的某個(gè) AWS 服務(wù)的容量的自動(dòng)活動(dòng)觸發(fā)了來(lái)自?xún)?nèi)部網(wǎng)絡(luò)內(nèi)大量客戶端的意外行為導(dǎo)致連接活動(dòng)激增,使內(nèi)部網(wǎng)絡(luò)和主 AWS 網(wǎng)絡(luò)之間的聯(lián)網(wǎng)設(shè)備不堪重負(fù),從而導(dǎo)致這些網(wǎng)絡(luò)之間的通信延遲。這些延遲增加了在網(wǎng)絡(luò)之間通信的服務(wù)延遲和錯(cuò)誤,從而導(dǎo)致更多的連接嘗試和重試,最終引發(fā)持續(xù)的堵塞和性能問(wèn)題。

12月第二次宕機(jī)發(fā)生在16日太平洋標(biāo)準(zhǔn)時(shí)間上午7點(diǎn)43分左右,本次宕機(jī)波及US-WEST-1和US-WEST-2兩個(gè)區(qū)域,包括Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等在線服務(wù)均受到影響。

AWS隨后公布了故障原因:由于主網(wǎng)絡(luò)中某自動(dòng)化軟件原因,錯(cuò)誤得將一些流量轉(zhuǎn)移到主干網(wǎng),結(jié)果影響了一些互聯(lián)網(wǎng)應(yīng)用的連接。

12月第三次宕機(jī)發(fā)生在23日美國(guó)東部時(shí)間7點(diǎn)30分左右,位于弗吉尼亞州北部的US-East-Region 1中斷影響了許多服務(wù),包括Slack、Epic Games、加密貨幣交易所Coinbase Global、游戲公司Fortnite 、約會(huì)應(yīng)用程序Grindr和交付公司Instacart。對(duì)于此次中斷,AWS初步調(diào)查稱(chēng)是數(shù)據(jù)中心供電的問(wèn)題。

02 Azure:Windows虛擬機(jī)全球性故障

今年10月23日,Azure Virtual Machines發(fā)生了一起長(zhǎng)達(dá)6小時(shí)的中斷,使得包括美洲、歐洲、中東及非洲到亞太地區(qū)在內(nèi)全球用戶無(wú)法啟動(dòng)基于Windows的新系統(tǒng)。

據(jù)悉,故障發(fā)生了05:12 UTC(世界標(biāo)準(zhǔn)時(shí)間)到 11:45 UTC 之間,使用 Windows 虛擬機(jī)的 Azure 客戶子集在執(zhí)行服務(wù)管理操作時(shí)面臨問(wèn)題,包括啟動(dòng)、創(chuàng)建、更新、刪除,新虛擬機(jī)的部署和更新也失敗了。

基于Linux的虛擬機(jī)和現(xiàn)有運(yùn)行的 Windows 虛擬機(jī)沒(méi)有受到該問(wèn)題影響。此外,在創(chuàng)建資源時(shí),對(duì)Windows 虛擬機(jī)有依賴(lài)的服務(wù)也可能遇到類(lèi)似故障。

事后,微軟公布的中斷原因?yàn)椋涸诜?wù)管理操作期間的調(diào)用故障,原因是所需的工件版本在查詢(xún)期間未按預(yù)期返回。

此外,在今年3月16日,Azure也發(fā)生了一次中斷。其Active Directory出現(xiàn)故障,用戶無(wú)法登錄到Microsoft 365、Microsoft Teams、Exchange Online、Forms、Xbox Live和Yammer。同時(shí),這起中斷也影響了微軟旗下多個(gè)網(wǎng)站,如用戶無(wú)法登陸其技術(shù)社區(qū)。

后續(xù)微軟證實(shí),本次故障是由于Azure Active Directory配置問(wèn)題所致,使得用戶們無(wú)法完成身份驗(yàn)證以登錄到Microsoft 365、Exchange、Online、Microsoft Teams或其他依賴(lài)AAD的服務(wù)。

03 IBM Cloud:5天2次宕機(jī)

今年5月22到26日,藍(lán)色巨人在短短5天里接連發(fā)生兩次嚴(yán)重中斷事件,其中5月25日的中斷為一級(jí)嚴(yán)重問(wèn)題(Severity One),這是IBM來(lái)描述關(guān)鍵業(yè)務(wù)系統(tǒng)無(wú)法正常運(yùn)行的評(píng)級(jí)。

據(jù)悉,該中斷發(fā)生了5月25日UTC 14點(diǎn)54分 ,華盛頓特區(qū)、大阪、倫敦、達(dá)拉斯、悉尼、東京和法蘭克福等地云服務(wù)統(tǒng)統(tǒng)受到影響。

具體到受影響的服務(wù),包括Cloudant NoSQL DB、Code Engine、Continuous Delivery-Toolchain、 DNS Services、Event Streams、 Hyper Protect Crypto Services、Hyper Protect Virtual Server、Hyper Protect DBaaS、 IBM Cloud Shell、 IBM Watson Machine Learning、Mobile Foundation以及 IBM MQ。從UTC 20點(diǎn)10分開(kāi)始,服務(wù)陸續(xù)恢復(fù)。

除此之外,在今年6月10日,IBM Cloud也發(fā)生了一起全球性的中斷。此次中斷涉及IBM AoC 托管存儲(chǔ)服務(wù),進(jìn)而影響了IBM位于阿姆斯特丹、金奈、達(dá)拉斯、法蘭克福、香港、倫敦、墨爾本、墨西哥、米蘭、蒙特利爾、奧斯陸、圣何塞、圣保羅、首爾、悉尼、東京、多倫多、華盛頓特區(qū)、巴黎和新加坡等多地的用戶。

04Google Cloud:新區(qū)域上線便癱瘓

Google Cloud今年也發(fā)生了兩次宕機(jī),其中一次為今年11月16日:谷歌云表示,網(wǎng)絡(luò)配置中的潛在錯(cuò)誤影響了Google Cloud Networking、Google Cloud Functions、Google Cloud Run、Google App Engine、Google App Engine Flex、Apigee 和 Firebase,進(jìn)而引起中斷,Spotify、Discord、Etsy、Pokémon Go等客戶受到影響。

具體而言:Google Cloud Networking :用戶無(wú)法更改網(wǎng)站上的負(fù)載平衡,導(dǎo)致出現(xiàn) 404 錯(cuò)誤頁(yè)面;Google Cloud Functions :使用 Google Cloud Load Balancing (GCLB) 的用戶站點(diǎn)顯示 404 錯(cuò)誤;Google Cloud Run :美國(guó)中部的流量下降了 25%,使用 GCLB 的用戶站點(diǎn)顯示 404 錯(cuò)誤。Google App Engine :美國(guó)中部和西歐的流量下降 80%,使用 GCLB 的客戶網(wǎng)站出現(xiàn) 404 錯(cuò)誤;Google App Engine Flex :使用 GCLB 的客戶站點(diǎn)上出現(xiàn) 404 錯(cuò)誤以及部署該工具的問(wèn)題;Apigee :使用 GCLB 向用戶發(fā)出請(qǐng)求時(shí)出現(xiàn) 404 錯(cuò)誤;Google Firebase :使用 GCLB 的用戶站點(diǎn)上出現(xiàn) 404 錯(cuò)誤。

今年8月24日,Google Cloud在澳大利亞墨爾本上線一個(gè)月的新區(qū)域發(fā)生了中斷,該區(qū)域用戶無(wú)法正常使用虛擬機(jī)、負(fù)載均衡系統(tǒng)、存儲(chǔ)等服務(wù)。

05 國(guó)內(nèi):一片祥和

或許是國(guó)內(nèi)云服務(wù)商的技術(shù)太好,也或許是公關(guān)能力更強(qiáng),國(guó)內(nèi)的云服務(wù)商在2021年并未出現(xiàn)過(guò)于嚴(yán)重的宕機(jī)事件,一方面表現(xiàn)在宕機(jī)次數(shù)少,另一方面表現(xiàn)在宕機(jī)引起的后果并未太多嚴(yán)重。分別來(lái)看:

阿里云在12月7日早上部分CDN域名解析發(fā)生了異常。同時(shí)當(dāng)天,由阿里云支撐的淘寶也發(fā)生了短暫崩潰事件。而在今年3月,淘寶同樣也崩潰過(guò)一次。

騰訊云12月24日北京二區(qū)發(fā)生了部分云服務(wù)故障,后續(xù),騰訊云表示是因?yàn)殡娏ο到y(tǒng)問(wèn)題;除此之外,由騰訊云支撐的QQ、王者榮耀、微信在10月、11月均出現(xiàn)了短暫崩潰事件;8月31日,由于運(yùn)營(yíng)商網(wǎng)絡(luò)原因,騰訊云故障7分鐘。

華為云自2020年4月10日出現(xiàn)大規(guī)模崩潰后,在2021年對(duì)宕機(jī)相當(dāng)謹(jǐn)慎,并未傳出其宕機(jī)的事,在7月份B站的一次崩潰被傳出是因?yàn)槿A為云的服務(wù)原因,后續(xù)華為云迅速辟謠與自己無(wú)關(guān)。

京東云2021年對(duì)外服務(wù)并未出現(xiàn)宕機(jī)事件,但由于支撐自家京東商城,所以還是會(huì)短暫出現(xiàn)中斷事件。

國(guó)內(nèi)其他云服務(wù)商暫未發(fā)現(xiàn)其在2021年發(fā)生宕機(jī)事件,如有遺漏,歡迎評(píng)論區(qū)留言~

本文來(lái)自微信公眾號(hào)“中智觀察”(ID:Hapiweb-soft6),作者:木易,編輯:蘇蘇,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 痛心疾首 服務(wù)商 上榜

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片