검색





검색





뉴스암호화폐

아마존, AWS에서 AI 모델 성능 과급을 위해 세레브라스 웨이퍼 스케일 칩 활용

CryptopolitanMar 14, 2026 12:32 AM

모든 코멘트 보기（0）



아마존 웹 서비스(AWS)는 금요일, 인공지능 추론에 초점을 맞춘 다년간의 파트너십의 일환으로 세레브라(Cerebra)의 프로세서를 자사 데이터 센터에 도입할 것이라고 발표했습니다.

이번 계약을 통해 아마존은 AI 모델이 질문에 답변하고, 코드를 작성하고, 실시간 사용자 요청을 처리하는 속도를 높일 수 있는 새로운 방법을 확보하게 되었습니다. AWS는 추론 작업에 웨이퍼 스케일 엔진을 포함한 세레브라 기술을 사용할 것이라고 밝혔습니다.

양사는 재정적 조건을 공개하지 않았습니다. 이번 계약은 AWS 데이터 센터 내 아마존 베드락(Amazon Bedrock) 플랫폼에 구축될 예정이며, 이를 통해 아마존의 주요 AI 제품 중 하나에 파트너십이 직접적으로 통합될 것입니다.

AWS는 해당 시스템이 아마존 트레이니움 기반 서버, 세레브라스 CS-3 시스템, 그리고 아마존의 엘라스틱 패브릭 어댑터 네트워킹을 결합할 것이라고 밝혔습니다.

올해 말, AWS는 주요 오픈 소스 대규모 언어 모델과 아마존 노바를 세레브라 하드웨어에서 제공할 계획입니다. AWS의 컴퓨팅 및 머신러닝 서비스 부문dent 인 데이비드 브라운은 특히 실시간 코딩 지원 및 대화형 앱의 경우, AI 추론에서 속도가 여전히 주요 문제라고 말했습니다.

데이비드는 "추론은 AI가 고객에게 실질적인 가치를 제공하는 부분이지만, 실시간 코딩 지원이나 대화형 애플리케이션과 같은 까다로운 작업 부하에서는 속도가 여전히 중요한 병목 현상입니다."라고 말했습니다

아마존은 사전 입력과 디코딩을 별도의 칩으로 분리합니다

AWS는 이 설계가 추론 분해라는 방식을 사용한다고 밝혔습니다. 즉, AI 추론을 두 부분으로 나누는 것입니다. 첫 번째 부분은 프롬프트 처리(사전 입력이라고도 함)이고, 두 번째 부분은 출력 생성(디코딩이라고도 함)입니다.

AWS는 두 작업의 동작 방식이 매우 다르다고 설명했습니다. 사전 채우기(Prefill)는 병렬 처리 방식이며 연산량이 많고 중간 정도의 메모리 대역폭이 필요합니다. 디코딩(Decode)은 직렬 처리 방식이며dent 적지만 메모리 대역폭에 훨씬 더 의존적입니다. 또한 모든 출력 토큰을 하나씩 생성해야 하므로 디코딩 작업이 대부분의 시간을 차지합니다.

이것이 바로 AWS가 각 단계에 서로 다른 하드웨어를 할당하는 이유입니다. Trainium은 사전 데이터 입력을 처리하고, Cerebras CS-3는 디코딩을 처리합니다.

AWS는 저지연, 고대역폭 EFA 네트워킹을 통해 양측을 연결하여 각 프로세서가 별도의 작업에 집중하는 동안 시스템이 하나의 서비스처럼 작동할 수 있도록 할 것이라고 밝혔습니다.

데이비드는 "우리가 세레브라를 이용해 구축하고 있는 것은 바로 그 문제를 해결합니다. 추론 워크로드를 트레이니움과 CS-3에 분산시키고 아마존의 엘라스틱 패브릭 어댑터로 연결함으로써 각 시스템이 가장 잘하는 일을 할 수 있게 됩니다. 그 결과, 현재보다 훨씬 빠르고 성능이 뛰어난 추론이 가능해질 것입니다."라고 말했습니다

AWS는 또한 해당 서비스가 AWS 클라우드 인프라의 기반 계층인 AWS Nitro 시스템에서 실행될 것이라고 밝혔습니다.

즉, Cerebras CS-3 시스템과 Trainium 기반 인스턴스는 AWS 고객이 이미 사용하고 있는 것과 동일한 보안, 격리 및 일관성을 유지하며 작동할 것으로 예상됩니다.

엔비디아가 또 다른 위협에 직면하자 아마존은 트레이늄(Trainium)을 더욱 적극적으로 활용하고 있다

이번 발표는 아마존이 엔비디아, AMD 및 기타 주요 칩 회사들의 칩과 경쟁하기 위해 트레이니움(Trainium)을 더욱 적극적으로 홍보할 수 있는 또 다른 기회를 제공합니다. AWS는 트레이니움을 학습 및 추론 전반에 걸쳐 확장 가능한 성능과 비용 효율성을 제공하도록 설계된 자체 개발 AI 칩이라고 설명합니다.

AWS는 두 곳의 주요 AI 연구소가 이미 Trainium 도입을 확정했다고 밝혔습니다. Anthropic은 AWS를 주요 학습 파트너로 지정하고 Trainium을 사용하여 모델을 학습하고 배포합니다. OpenAI는 상태 저장 런타임 환경(Stateful Runtime Environment), 최첨단 모델 및 기타 고급 워크로드를 위해 AWS 인프라를 통해 2기가와트(GW)의 Trainium 용량을 사용할 예정입니다.

AWS는 Trainium3가 최근 출시 이후tron도입세를 보였으며, 다양한 산업 분야의 고객들이 상당한 용량을 투자하고 있다고 덧붙였습니다.

세레브라스는 디코딩 부분을 담당합니다. AWS는 CS-3가 디코딩 가속에 특화되어 있어 빠른 출력 토큰을 처리할 수 있는 여유 공간이 더 많다고 밝혔습니다. 세레브라스는 CS-3가 세계에서 가장 빠른 AI 추론 시스템이며 가장 빠른 GPU보다 수천 배 더 높은 메모리 대역폭을 제공한다고 주장합니다.

회사 측은 추론 모델이 이제 추론 작업에서 더 큰 비중을 차지하고 문제를 처리하면서 요청당 더 많은 토큰을 생성한다고 밝혔습니다. 또한 Cerebras는 OpenAI, Cognition, Mistral 등이 자사 시스템을 특히 에이전트 코딩과 같은 까다로운 작업 부하에 사용하고 있다고 덧붙였습니다.

세레브라스 시스템즈의 창립자 겸 최고경영자인 앤드류 펠드먼은 "AWS와 협력하여 분산형 추론 솔루션을 구축함으로써 전 세계 고객에게 가장 빠른 추론 속도를 제공할 수 있게 될 것"이라고 말했다

앤드류는 "전 세계 모든 기업은 기존 AWS 환경 내에서 매우 빠른 추론 속도의 이점을 누릴 수 있을 것입니다."라고 덧붙였습니다

이번 계약으로 엔비디아는 더욱 압박을 받게 되었습니다. 엔비디아는 지난 12월 Groq와 200억 달러 규모의 라이선스 계약을 체결했으며, 다음 주에는 Groq 기술을 활용한 새로운 추론 시스템을 공개할 예정입니다.

나만의 은행이 되는 방법 에 대한 무료 영상을 시청하세요.

면책 조항: 이 웹사이트에서 제공되는 정보는 교육적이고 정보 제공을 위한 목적으로만 사용되며, 금융 또는 투자 조언으로 간주되어서는 안 됩니다.

코멘트 (0)

$ 버튼을 클릭하고, 종목 코드를 입력한 후 주식, ETF 또는 기타 티커를 연결합니다.

코멘트 가이드라인

로딩 중...

추천 기사

아마존, AWS에서 AI 모델 성능 과급을 위해 세레브라스 웨이퍼 스케일 칩 활용

아마존은 사전 입력과 디코딩을 별도의 칩으로 분리합니다

엔비디아가 또 다른 위협에 직면하자 아마존은 트레이늄(Trainium)을 더욱 적극적으로 활용하고 있다

코멘트 (0)

추천 기사

오늘의 시장 요약: 양자 관련주 급등, 트럼프 이란 경고 발령, 그리고 S&P 소폭 상승

양자 관련주 급등. ‘인텔 스타일’ 모델 추가 확장, 트럼프 행정부, 양자 기업 배치를 위해 움직임.

스페이스X의 2조 달러 IPO가 테슬라 주주들에게 미칠 잠재적 영향: 사실, 추측 및 세 가지 검증 가능한 관찰 신호

TradingKey의 이번 주 월스트리트: 인플레이션 및 지정학적 역풍 속 AI가 주도하는 사상 최고치

SK하이닉스 2026년 1분기 실적 전망: 메모리 반도체 가격 급등, 이익 두 배 증가 전망