아마존 웹 서비스(AWS)는 금요일, 인공지능 추론에 초점을 맞춘 다년간의 파트너십의 일환으로 세레브라(Cerebra)의 프로세서를 자사 데이터 센터에 도입할 것이라고 발표했습니다.
이번 계약을 통해 아마존은 AI 모델이 질문에 답변하고, 코드를 작성하고, 실시간 사용자 요청을 처리하는 속도를 높일 수 있는 새로운 방법을 확보하게 되었습니다. AWS는 추론 작업에 웨이퍼 스케일 엔진을 포함한 세레브라 기술을 사용할 것이라고 밝혔습니다.
양사는 재정적 조건을 공개하지 않았습니다. 이번 계약은 AWS 데이터 센터 내 아마존 베드락(Amazon Bedrock) 플랫폼에 구축될 예정이며, 이를 통해 아마존의 주요 AI 제품 중 하나에 파트너십이 직접적으로 통합될 것입니다.
AWS는 해당 시스템이 아마존 트레이니움 기반 서버, 세레브라스 CS-3 시스템, 그리고 아마존의 엘라스틱 패브릭 어댑터 네트워킹을 결합할 것이라고 밝혔습니다.
올해 말, AWS는 주요 오픈 소스 대규모 언어 모델과 아마존 노바를 세레브라 하드웨어에서 제공할 계획입니다. AWS의 컴퓨팅 및 머신러닝 서비스 부문dent 인 데이비드 브라운은 특히 실시간 코딩 지원 및 대화형 앱의 경우, AI 추론에서 속도가 여전히 주요 문제라고 말했습니다.
데이비드는 "추론은 AI가 고객에게 실질적인 가치를 제공하는 부분이지만, 실시간 코딩 지원이나 대화형 애플리케이션과 같은 까다로운 작업 부하에서는 속도가 여전히 중요한 병목 현상입니다."라고 말했습니다
AWS는 이 설계가 추론 분해라는 방식을 사용한다고 밝혔습니다. 즉, AI 추론을 두 부분으로 나누는 것입니다. 첫 번째 부분은 프롬프트 처리(사전 입력이라고도 함)이고, 두 번째 부분은 출력 생성(디코딩이라고도 함)입니다.
AWS는 두 작업의 동작 방식이 매우 다르다고 설명했습니다. 사전 채우기(Prefill)는 병렬 처리 방식이며 연산량이 많고 중간 정도의 메모리 대역폭이 필요합니다. 디코딩(Decode)은 직렬 처리 방식이며dent 적지만 메모리 대역폭에 훨씬 더 의존적입니다. 또한 모든 출력 토큰을 하나씩 생성해야 하므로 디코딩 작업이 대부분의 시간을 차지합니다.
이것이 바로 AWS가 각 단계에 서로 다른 하드웨어를 할당하는 이유입니다. Trainium은 사전 데이터 입력을 처리하고, Cerebras CS-3는 디코딩을 처리합니다.
AWS는 저지연, 고대역폭 EFA 네트워킹을 통해 양측을 연결하여 각 프로세서가 별도의 작업에 집중하는 동안 시스템이 하나의 서비스처럼 작동할 수 있도록 할 것이라고 밝혔습니다.
데이비드는 "우리가 세레브라를 이용해 구축하고 있는 것은 바로 그 문제를 해결합니다. 추론 워크로드를 트레이니움과 CS-3에 분산시키고 아마존의 엘라스틱 패브릭 어댑터로 연결함으로써 각 시스템이 가장 잘하는 일을 할 수 있게 됩니다. 그 결과, 현재보다 훨씬 빠르고 성능이 뛰어난 추론이 가능해질 것입니다."라고 말했습니다
AWS는 또한 해당 서비스가 AWS 클라우드 인프라의 기반 계층인 AWS Nitro 시스템에서 실행될 것이라고 밝혔습니다.
즉, Cerebras CS-3 시스템과 Trainium 기반 인스턴스는 AWS 고객이 이미 사용하고 있는 것과 동일한 보안, 격리 및 일관성을 유지하며 작동할 것으로 예상됩니다.
이번 발표는 아마존이 엔비디아, AMD 및 기타 주요 칩 회사들의 칩과 경쟁하기 위해 트레이니움(Trainium)을 더욱 적극적으로 홍보할 수 있는 또 다른 기회를 제공합니다. AWS는 트레이니움을 학습 및 추론 전반에 걸쳐 확장 가능한 성능과 비용 효율성을 제공하도록 설계된 자체 개발 AI 칩이라고 설명합니다.
AWS는 두 곳의 주요 AI 연구소가 이미 Trainium 도입을 확정했다고 밝혔습니다. Anthropic은 AWS를 주요 학습 파트너로 지정하고 Trainium을 사용하여 모델을 학습하고 배포합니다. OpenAI는 상태 저장 런타임 환경(Stateful Runtime Environment), 최첨단 모델 및 기타 고급 워크로드를 위해 AWS 인프라를 통해 2기가와트(GW)의 Trainium 용량을 사용할 예정입니다.
AWS는 Trainium3가 최근 출시 이후tron도입세를 보였으며, 다양한 산업 분야의 고객들이 상당한 용량을 투자하고 있다고 덧붙였습니다.
세레브라스는 디코딩 부분을 담당합니다. AWS는 CS-3가 디코딩 가속에 특화되어 있어 빠른 출력 토큰을 처리할 수 있는 여유 공간이 더 많다고 밝혔습니다. 세레브라스는 CS-3가 세계에서 가장 빠른 AI 추론 시스템이며 가장 빠른 GPU보다 수천 배 더 높은 메모리 대역폭을 제공한다고 주장합니다.
회사 측은 추론 모델이 이제 추론 작업에서 더 큰 비중을 차지하고 문제를 처리하면서 요청당 더 많은 토큰을 생성한다고 밝혔습니다. 또한 Cerebras는 OpenAI, Cognition, Mistral 등이 자사 시스템을 특히 에이전트 코딩과 같은 까다로운 작업 부하에 사용하고 있다고 덧붙였습니다.
세레브라스 시스템즈의 창립자 겸 최고경영자인 앤드류 펠드먼은 "AWS와 협력하여 분산형 추론 솔루션을 구축함으로써 전 세계 고객에게 가장 빠른 추론 속도를 제공할 수 있게 될 것"이라고 말했다
앤드류는 "전 세계 모든 기업은 기존 AWS 환경 내에서 매우 빠른 추론 속도의 이점을 누릴 수 있을 것입니다."라고 덧붙였습니다
이번 계약으로 엔비디아는 더욱 압박을 받게 되었습니다. 엔비디아는 지난 12월 Groq와 200억 달러 규모의 라이선스 계약을 체결했으며, 다음 주에는 Groq 기술을 활용한 새로운 추론 시스템을 공개할 예정입니다.
나만의 은행이 되는 방법 에 대한 무료 영상을 시청하세요.