亞馬遜網絡服務公司週五表示,將在其數據中心部署來自 Cerebras 的處理器,這是一項爲期多年的合作計劃,重點是人工智能推理。.
這項交易爲亞馬遜提供了一種新途徑,可以加快人工智能模型響應提示、編寫代碼和處理實時用戶請求的速度。AWS 表示,它將使用 Cerebras 的技術,包括晶圓級引擎,來進行推理任務。.
雙方並未透露具體的財務條款。該項目計劃在AWS數據中心內的Amazon Bedrock平臺上進行部署,這意味着此次合作將直接融入亞馬遜的核心人工智能產品之一。.
AWS 表示,該系統將結合 Amazon Trainium 服務器、Cerebras CS-3 系統和 Amazon 的 Elastic Fabric Adapter 網絡。.
今年晚些時候,AWS 還計劃在 Cerebras 硬件上提供領先的開源大型語言模型和 Amazon Nova。AWS 計算和機器學習服務副dent David Brown 表示,速度仍然是人工智能推理的一個主要問題,尤其是在實時編碼輔助和交互式應用程序方面。.
David 表示:“推理是人工智能爲客戶帶來真正價值的地方,但速度仍然是實時編碼輔助和交互式應用程序等高要求工作負載的關鍵瓶頸。”
AWS 表示,該設計採用了一種名爲推理分解的方法。這意味着將 AI 推理過程拆分爲兩部分。第一部分是提示處理,也稱爲預填充。第二部分是輸出生成,也稱爲解碼。.
AWS 表示,這兩個作業的運行方式截然不同。預填充是並行的,計算量大,需要中等內存帶寬。解碼是串行的,計算量較小,但對內存帶寬的dent 更高。在這些情況下,解碼也耗時更長,因爲每個輸出標記都必須逐個生成。.
因此,AWS 爲每個階段分配了不同的硬件。Trainium 將負責預填充,Cerebras CS-3 將負責解碼。.
AWS 表示,低延遲、高帶寬的 EFA 網絡將連接兩端,使系統能夠作爲一個整體服務運行,而每個處理器則專注於單獨的任務。.
David 說:“我們利用 Cerebras 構建的方案解決了這個問題:通過將推理工作負載分配到 Trainium 和 CS-3 上,並使用亞馬遜的 Elastic Fabric Adapter 將它們連接起來,每個系統都能發揮其最擅長的作用。最終的推理速度將比現有方案快一個數量級,性能也將更高。”
AWS 還表示,該服務將在 AWS Nitro 系統上運行,該系統是其雲基礎設施的基礎層。.
這意味着 Cerebras CS-3 系統和 Trainium 實例有望以與 AWS 客戶已使用的相同的安全性、隔離性和一致性運行。.
此次公告也爲亞馬遜提供了一個新的契機,使其能夠利用 Trainium 芯片與英偉達、AMD 和其他大型芯片公司的芯片展開競爭。AWS 將 Trainium 描述爲其自主研發的 AI 芯片,旨在實現訓練和推理過程中可擴展的性能和成本效益。
AWS表示,已有兩家大型人工智能實驗室承諾採用Trainium。Anthropic已指定AWS爲其主要訓練合作伙伴,並使用Trainium進行模型訓練和部署。OpenAI將通過AWS基礎設施使用2吉瓦的Trainium容量,用於有狀態運行時環境、前沿模型和其他高級工作負載。.
AWS 還表示,Trainium3 自發布以來得到了tron應用,各行各業的客戶都投入了大量資源。.
Cerebras 負責處理解碼部分。AWS 表示,CS-3 專用於解碼加速,這使其能夠處理更多快速輸出的令牌。Cerebras 稱,CS-3 是世界上速度最快的 AI 推理系統,其內存帶寬比最快的 GPU 高出數千倍。.
該公司表示,推理模型目前在推理工作中佔比越來越大,並且在解決問題的過程中,每次請求都會生成更多令牌。Cerebras 還表示,OpenAI、Cognition、Mistral 等公司都在使用其系統來處理高負載任務,尤其是智能體編碼。.
Cerebras Systems 的創始人兼首席執行官 Andrew Feldman 表示:“與 AWS 合作構建分散式推理解決方案,將爲全球客戶羣帶來最快的推理速度。”
Andrew補充道:“世界各地的企業都將能夠從其現有AWS環境中極快的推理速度中受益。”
該交易給英偉達帶來了更大的壓力,英偉達在去年 12 月與 Groq 簽署了一項價值 200 億美元的許可協議,並計劃下週推出一款使用 Groq 技術的新推理系統。.
你的錢在銀行手裏,你卻只能拿到殘羹剩飯。觀看我們的免費視頻,瞭解如何成爲自己的銀行