Coinbase向人工智能驅動運營的轉型進展並不順利。
Coinbase(納斯達克股票代碼:COIN)再次向加密貨幣交易者展示了緩慢的雲硬件會如何拖垮即使是速度很快的交易平臺。看來,該公司以人工智能驅動的運營轉型戰略可能是其迄今爲止最糟糕的舉措。.
該公司週五表示,亞馬遜網絡服務(納斯達克股票代碼:AMZN)內部的冷卻系統故障引發了長達數小時的停機,影響了其平臺上的交易、交易所訪問和餘額更新。.
問題始於 5 月 7 日 23:50 UTC 左右,當時內部監控人員檢測到公司系統內報價出現大範圍故障。.
當時,工程師們製造了多起 Sev1dent,客戶的服務(如現貨交易、Coinbase Prime、國際交易、衍生品交易、零售交易、高級交易和機構交易)已經受到影響。.
CoinbasetronBrian Arms 在 X 上發文稱,他的公司“遭遇了服務中斷”,並表示這種情況“絕不可接受”。據他所說,中斷的原因是“AWS 數據中心的一個房間由於多個冷卻器故障而過熱”。
據布萊恩介紹,公司確保所有服務的設計都能保證即使某個 AWS 可用區發生故障,其他服務也不會中斷。大多數服務都採用這種架構,但交易所除外,由於其對延遲的要求很高,因此使用了不同的基礎設施。.
Coinbase 將報價系統在 UTC 時間午夜前開始崩潰歸咎於 AWS 冷卻器故障。
報道 , 據 Cryptopolitan Coinbase 計劃裁員 700 人,約佔其員工總數的 14%。此舉旨在用人工智能取代人工操作流程。
Coinbase平臺負責人羅伯·維托夫(Rob Witoff)提供了此次事件的技術細節。據他介紹,此次故障持續了很長時間,影響了“交易、交易所訪問和餘額更新”。
最初的警告於世界協調時 23:50 發出,原因是內部系統報價出現故障。隨後立即進行了 Sev1 分析。據 Rob 稱,此次故障的原因是 AWS us-east-1 數據中心某處一小部分機架發生了“熱事件”。.
這種交易基礎設施架構非常實用。羅布表示,Coinbase 將其交易基礎設施維護在一個可用區內,因爲業內非常重視速度。.
此外,該公司還爲應對此類情況準備了該交易基礎設施的分佈式備份副本。但此次故障導致部分交易基礎設施出現問題,影響範圍超出了備份範圍,延長了修復進程。.
兩個組件發生故障。匹配引擎下方的硬件出現故障。因此,首要任務是執行恢復和故障轉移操作。.
此外,負責在組織內所有系統間共享信息的分佈式 Kafka 集羣也宕機了。這需要將 Kafka 分區恢復到一個新的硬件代理上,涉及數 TiB 的數據。.
工程師們重建了法定人數,並通過僅取消交易和拍賣模式恢復了 Coinbase 市場。
撮合引擎負責處理最大的交易攤位。撮合引擎處理訂單並維護訂單簿。該系統運行在分佈式集羣中,需要達到法定人數才能選出領導者並安全地進行交易。.
由於數據中心在故障期間受到限制,並非所有節點都保持健康,因此無法達到法定人數,從而阻止了零售、高級和機構交易所的交易活動。.
Rob提到,值班支持和工程團隊必須在困難的基礎設施條件下執行公司的災難恢復程序、建立法定人數並評估系統健康狀況。.
據 他所說,團隊必須在應對大範圍故障的同時,開發、測試、部署和驗證解決方案。由於 Kafka 採用分區架構,每天要處理數千 TB 的數據,因此需要大量的手動恢復工作。
由於 Kafka 數據延遲,餘額流出現了一些延遲問題。Rob 表示,在數據複製同步後,這些餘額問題就消失了。Coinbase 方面稱,沒有數據丟失。.
撮合引擎恢復運行後,市場並未同時重新啓用。Coinbase 首先將所有產品切換爲僅可取消模式,檢查產品狀態,然後將所有市場切換爲拍賣模式,最後纔在 Coinbase 交易所啓用交易。.
此外,羅布強調,不應暫時鎖定客戶的賬戶。Coinbase 向所有人保證,公司將在幾周內就dent 提供詳細解釋。.
然而,Josh Ellithorpe 在閱讀了 Rob 的 Twitter 帖子後駁斥了這些傳言。他寫道:“沒有人 vibe 寫出導致故障的代碼。也不是一個‘非工程師’把生產代碼推送上去導致交易引擎崩潰。這不是故意的。也不是 Coinbase 沒有設計故障轉移系統。規模越大,出錯在所難免,別讓那些事後諸葛亮編造的故事矇蔽了你。”













