首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 云計算 >> 正文

持續(xù)近87分鐘1957個客戶報障 騰訊云回應事故原因

2024年4月15日 07:39  第一財經  

2024年4月8日下午,騰訊云出現(xiàn)服務故障,接口響應報錯、內部服務錯誤,網(wǎng)頁顯示504錯誤。504錯誤代表網(wǎng)關超時(Gateway timeout),是指服務器作為網(wǎng)關或代理,但沒有及時從上游服務器收到請求。

4月8日傍晚,騰訊云公告,騰訊云官網(wǎng)控制臺相關服務出現(xiàn)異常,工程師正在緊急修復中。部分地區(qū)已恢復,其他地區(qū)也正在繼續(xù)搶修當中。

4月14日,騰訊云官方對4月8日故障情況進行說明:4月8日15點23分,騰訊云團隊收到告警信息,云API服務處于異常狀態(tài);隨即在騰訊云工單、售后服務群以及微博等渠道開始大量出現(xiàn)騰訊云控制臺登錄不上的客戶反饋。

經過故障定位發(fā)現(xiàn),客戶登錄不上控制臺正是由云API異常所導致。云API是云上統(tǒng)一的開放接口集合,客戶可以通過API以編程方式管理和操控云端資源,云控制臺通過組合云API提供交互式的網(wǎng)頁功能。事故根本原因在于騰訊云版本變更過程中,沒有有效執(zhí)行沙箱驗證和預案演練,暴露了在變更管理上的不足,最終導致云API服務新版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機制不足的問題。

故障發(fā)生后,騰訊云方面表示,依賴云API提供產品能力的部分公有云服務,也因為云API的異常出現(xiàn)了無法使用的情況,比如云函數(shù)、文字識別、微服務平臺、音頻內容安全、驗證碼等。此次故障一共持續(xù)了近87分鐘,期間共有1957個客戶報障。

從客戶的視角來看,云服務可以分為數(shù)據(jù)面和控制面,數(shù)據(jù)面承載客戶自身的業(yè)務,控制面負責操作云上不同產品。比如目前使用最廣泛的IaaS服務基本上都是以直接面向數(shù)據(jù)面為主,控制面僅在客戶購買或需要對資源層面進行調整操作時會涉及。此次發(fā)生故障的控制臺和云API是對控制面的影響。通俗來講,如果把云服務類比為酒店,控制臺相當于酒店的前臺,是一個統(tǒng)一的服務入口。一旦酒店前臺發(fā)生故障,會導致入住、續(xù)住等管理能力不可用,但已入住的客房不受影響。

騰訊云方面稱,這次故障中客戶已經配置好的服務器等IaaS資源,包括已經部署運行的業(yè)務,沒有受到云API異常的影響。其他以非云API方式提供服務的PaaS和SaaS服務,處于正常服務的狀態(tài)。但用API提供的服務類產品(需要“酒店前臺服務“)有不同程度的影響,比如騰訊云存儲服務調用當天有明顯下滑。期間售后團隊協(xié)助部分客戶做了業(yè)務容災預案的實施,將受影響服務做調度以快速恢復客戶的業(yè)務服務。

騰訊云方面表示將從提升系統(tǒng)韌性、強化變更管理與保護措施、增強故障響應與溝通能力三方面進行改進。

近年來,因云服務問題導致應用程序“崩了”的現(xiàn)象頻繁發(fā)生。今年4月9日,支付寶崩了登上熱搜,用戶反映在使用支付寶APP時出現(xiàn)“已經停止訪問”的頁面。隨后支付寶方面回應稱:少量用戶訪問部分頁面時出現(xiàn)了短暫性的訪問不暢。這一情況已經快速恢復,用戶的資金和信息安全都不受影響,各項功能也都可以正常使用。但具體事故原因并未進一步說明。

2023年12月3日晚,騰訊視頻“崩了”登上微博熱搜。騰訊視頻方面回應稱,出現(xiàn)了短暫技術問題,正在加緊修復,各項功能在逐步恢復中。

2023年11月27日晚間,滴滴App系統(tǒng)發(fā)生故障,全國大面積崩潰,服務無法正常使用。11月29日,滴滴方面發(fā)表聲明稱,各項服務已經恢復,初步確定,這起事故的起因是底層系統(tǒng)軟件發(fā)生故障。

2023年3月5日20:20左右,在B站用戶活躍的高峰期,許多網(wǎng)友發(fā)現(xiàn)B站手機和電腦端均無法訪問視頻詳情頁,當晚B站團隊在出現(xiàn)故障20分鐘后解決了問題。多位行業(yè)人士傾向于原因是“迭代更新出現(xiàn)代碼故障”,這是2021年7月B站大規(guī)模服務器崩潰后的官方解釋。

如果不是滴滴全國范圍的長時間崩潰造成大規(guī)模的負面影響與討論度,非行業(yè)人士不會將某款軟件的暫時“崩了”作為熱點討論。萬博智云CTO孫琦對第一財經表示,滴滴事件僅是一個個案,但該事件故障級別較大,確實影響到了一定規(guī)模普通群眾的生活。實際上,很多用戶看不到的軟件故障正在每天發(fā)生,這在行業(yè)內是一個較為常見的問題。

此次騰訊云發(fā)生大范圍故障,有行業(yè)人士將其與2023年11月阿里云史詩級故障并稱。2023年11月12日晚間,阿里云發(fā)生故障,“阿里云盤崩了” “淘寶又崩了” “閑魚崩了” “釘釘崩了” 等話題相繼登上熱搜,阿里系諸多產品受到影響。阿里云對此公告稱,2023年11月12日17:44起,阿里云監(jiān)控發(fā)現(xiàn)云產品控制臺訪問及API調用出現(xiàn)異常,阿里云工程師正在緊急介入排查。18:54阿里云再度公告稱,經過工程師處理,杭州、北京等地域控制臺已恢復,其他地域控制臺服務逐步恢復中。

近期國內云平臺密集降價,阿里云甚至直接將云產品以折扣形式搬進羅永浩淘寶直播間,傳統(tǒng)IaaS產品逐漸同質化,云廠商競爭逐漸轉為價格競爭。但在追求銷量與市場規(guī)模的同時,客戶的基礎運維與數(shù)據(jù)安全工作,不應因“降本增效”而被忽視。

編 輯:高靖宇
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構成任何投資及應用建議。如網(wǎng)站內容涉及作品版權和其它問題,請在30日內與本網(wǎng)聯(lián)系,我們將在第一時間刪除內容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
陳忠岳:中國聯(lián)通正在開展6G技術指標制定等工作
精彩專題
CES 2024國際消費電子展
2023年信息通信產業(yè)盤點暨頒獎禮
飛象網(wǎng)2023年手機評選
第24屆中國國際光電博覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像