AmazonはCerebrasのウェハースケールチップを活用し、AWS上のAIモデルを高速化

CryptopolitanMar 14, 2026 12:32 AM

すべてのコメントを見る（0）



アマゾンウェブサービスは金曜日、AI推論に重点を置いた複数年にわたるパートナーシップに基づき、Cerebras社のプロセッサを自社のデータセンターに導入すると発表した。.

この契約により、AmazonはAIモデルがプロンプトに応答したり、コードを記述したり、ユーザーからのリアルタイムのリクエストを処理したりする速度を向上させる新たな手段を得ることになる。AWSは、推論タスクにCerebrasの技術（Wafer-Scale Engineを含む）を使用すると発表した。.

両社は契約条件を明らかにしていない。このシステムはAWSデータセンター内のAmazon Bedrockに設置される予定で、これにより両社の提携はAmazonの主要AI製品の一つに組み込まれることになる。.

AWSによると、このシステムはAmazon Trainium搭載サーバー、Cerebras CS-3システム、およびAmazonのElastic Fabric Adapterネットワークを組み合わせたものになるという。.

AWSは今年後半に、主要なオープンソースの大規模言語モデルとAmazon NovaをCerebrasハードウェア上で提供する予定です。AWSのコンピューティングおよび機械学習サービス担当副dent あるデビッド・ブラウン氏は、特にリアルタイムのコーディング支援やインタラクティブなアプリケーションにおいては、AI推論の速度が依然として大きな課題であると述べています。.

デイビッド氏は、「推論こそがAIが顧客に真の価値を提供する分野だが、リアルタイムのコーディング支援やインタラクティブなアプリケーションといった要求の厳しいワークロードにおいては、速度が依然として重大なボトルネックとなっている」と述べた。

Amazonはプリフィルとデコードを別々のチップに分割

AWSによると、この設計では推論分解と呼ばれる手法が用いられている。これは、AI推論を2つの部分に分割することを意味する。1つ目はプロンプト処理（プリフィルとも呼ばれる）で、2つ目は出力生成（デコードとも呼ばれる）である。.

AWSによると、この2つのジョブは動作が大きく異なるとのことです。プリフィルは並列処理で計算負荷が高く、中程度のメモリ帯域dent はるかに高くなります。また、出力トークンを1つずつ生成する必要があるため、これらのケースではデコードにほとんどの時間がかかります。.

そのため、AWSは各ステージに異なるハードウェアを割り当てています。Trainiumがプリフィル処理を担当し、Cerebras CS-3がデコード処理を担当します。.

AWSによると、低遅延・高帯域幅のEFAネットワークにより両側が接続され、各プロセッサが個別のタスクに集中しながら、システム全体が1つのサービスとして機能できるようになるという。.

デイビッド氏は、「Cerebrasで構築しているシステムは、この問題を解決します。推論ワークロードをTrainiumとCS-3に分割し、AmazonのElastic Fabric Adapterで接続することで、各システムがそれぞれの得意分野に集中できるようになります。その結果、現在利用可能なものよりも桁違いに高速で高性能な推論が可能になります。」と述べています。

AWSはまた、このサービスは同社のクラウドインフラストラクチャの基盤となるAWS Nitroシステム上で稼働すると述べた。.

つまり、Cerebras CS-3システムとTrainiumを搭載したインスタンスは、AWSの顧客が既に利用しているのと同等のセキュリティ、分離性、一貫性を備えて動作することが期待されるということです。.

AmazonがTrainiumへの圧力を強める一方、Nvidiaは新たな脅威に直面する。

今回の発表は、アマゾンにとって、Nvidia、AMD、その他の大手チップメーカーのチップに対抗するTrainiumを売り込む新たな機会となる。AWSはTrainiumを、トレーニングと推論の両方において拡張性の高いパフォーマンスとコスト効率を実現するために開発された自社開発のAIチップだと説明している。

AWSによると、主要なAI研究所2社が既にTrainiumの導入を決定している。AnthropicはAWSを主要なトレーニングパートナーに指定し、Trainiumを使用してモデルのトレーニングとデプロイを行っている。OpenAIは、ステートフルランタイム環境、最先端モデル、その他の高度なワークロードのために、AWSインフラストラクチャを通じてTrainiumの容量2ギガワットを使用する予定だ。.

AWSは、Trainium3は最近のリリース以来、tronに普及しており、様々な業界の顧客が大規模なキャパシティを投入していると付け加えた。.

Cerebrasは、このシステムのデコード処理を担当しています。AWSによると、CS-3はデコード高速化に特化しており、高速な出力トークンに対応できる余裕があるとのことです。Cerebrasは、CS-3は世界最速のAI推論システムであり、最速のGPUよりも数千倍も広いメモリ帯域幅を提供すると述べています。.

同社によると、推論モデルは現在、推論処理においてより大きな割合を占めるようになり、問題解決の過程でリクエストごとに生成されるトークン数も増加しているという。また、Cerebrasは、OpenAI、Cognition、Mistralなどが、特にエージェントコーディングといった負荷の高いワークロードに同社のシステムを使用していると述べている。.

Cerebras Systemsの創業者兼最高経営責任者であるアンドリュー・フェルドマン氏は、「AWSと提携して分散型推論ソリューションを構築することで、世界中の顧客に最速の推論を提供できるようになります」と述べた。

アンドリュー氏はさらに、「世界中のあらゆる企業が、既存のAWS環境内で驚異的な高速推論の恩恵を受けることができるようになるでしょう」と付け加えた。

この契約は、昨年12月にGroqと200億ドルのライセンス契約を締結し、来週にはGroqの技術を用いた新しい推論システムを発表する予定のNvidiaにとって、さらなるプレッシャーとなるだろう。.

銀行はあなたのお金を使っています。あなたは残り物を受け取っているのです。自分の銀行になる

免責事項：本サイトで提供する情報は教育・情報提供を目的としたものであり、金融・投資アドバイスとして解釈されるべきではありません。