
칭화대학교와 마이크로소프트 리서치 아시아는 실제 데이터 샘플은 전혀 사용하지 않고 오직 가짜 데이터만으로 완전한 AI 모델을 학습시켰습니다.
전체 데이터 세트는 SynthSmith라는 새로운 파이프라인을 통해 인위적으로 생성되었으며, 시스템은 처음부터 끝까지 엔비디아 칩에서 실행되었습니다. 연구팀은 단순히 신기함을 시험해 본 것이 아니라, 70억 개의 매개변수를 가진 실제 작동하는 모델을 구축하여 인간 데이터로 학습된 훨씬 더 큰 모델들을 능가하는 성능을 보여주었습니다.
1월 11일 arXiv에 게시된 그들의 논문은 실제 텍스트를 전혀 접하지 않았음에도 불구하고 그들이 훈련시킨 X-Coder가 140억 개의 매개변수를 가진 코딩 모델보다 뛰어난 성능을 보였다고 주장합니다.
"심층 분석 결과, 합성 데이터 세트에서도 스케일링 법칙이 성립하는 것으로 나타났습니다."라고 연구진은 밝혔습니다. 이 연구팀에는 칭화대학교, 마이크로소프트 리서치 아시아, 우한대학교의 연구원들이 포함되었습니다.
훈련 환경은 엔비디아 하드웨어에 크게 의존했습니다. 지도 학습 미세 조정을 위해 128개의 엔비디아 H20 칩을 220시간 동안 연속으로 사용했습니다. 그 후, 강화 학습 단계를 처리하기 위해 32개의 H200 칩으로 전환하여 7일 동안 사용했습니다. 이러한 선택은 우연이 아니었습니다. H20은 추론에 최적화되어 있고, H200은 고성능 훈련에 적합하게 설계되었습니다. 이 칩들은 엔비디아가 중국 시장 진출을 위해 강력한 로비를 펼친 끝에 트럼프 행정부가 수출 통제 면제를 승인한 덕분에 현재 중국 기업들이 구할 수 있는 가장 강력한 칩입니다.
연구진은 확장성 측면에서 파이프라인 자체는 문제가 아니라고 말했습니다. 문제는 컴퓨팅 성능에 있었습니다.
주저자이자 칭화대 석사dent 우제는 파이프라인을 1000억 또는 수조 개의 매개변수를 가진 모델까지 확장하지 못한 진짜 이유는 "파이프라인 자체의 한계가 아니라 단순히 계산상의 제약 때문"이라고 말했다
코드를 공개함으로써, 그들은 다른 사람들이 막대한 훈련 비용을 지불하지 않고도 프로젝트를 기반으로 발전시킬 수 있기를 기대합니다. 이 논문은 또한 인공지능 분야의 한 추세를 지적합니다.
이제 모델은 더 긴 시간 프레임에 걸쳐 "생각"하고 복잡한 추론을 처리해야 하므로, 학습뿐 아니라 추론 과정에서도 훨씬 더 많은 컴퓨팅 성능이 요구됩니다.
All-Analogue Chip Combining Electronics tron Light 의 약자 실험실 테스트에서 4.6 PFLOPS의 성능을 달성했습니다.
이는 엔비디아의 A100보다 3,000배 빠른 속도이며, 중국산 칩은 에너지 소비량은 400만 배나 적습니다. 따라서 이 칩은 이미지 인식이나 자율 주행과 같은 특정 작업에 최적화된, 지금까지 만들어진 칩 중 가장 효율적인 칩
이 기술은 아직 CPU나 스마트폰 칩을 대체하지는 못하겠지만, 웨어러블 기기, 전기 자동차 또는 스마트 공장에서 활용될 수 있을 것으로 연구팀은 예상하고 있습니다.
이 칩은 반도체 제조 국제 기업(SMIC)의 20년 된 공정을 사용하여 제작되었습니다. 이 공정 덕분에 중국이 아직 접근할 수 없는 첨단 리소그래피 장비를 사용할 필요가 없었습니다.
한 기사에서 "광자 컴퓨팅 시스템의 구축은 복잡한 구조 설계와 잡음 및 시스템 오류에 대한 취약성 때문에 과거에는 어려운 과제였다"고 밝혔다
이 칩은 새로운 프레임워크에서 광자 전자공학과 아날로그 전자tron을 결합하여 이러한 문제를 해결합니다. 파일 압축과 같은 일반적인 컴퓨팅 작업은 처리하지 못하지만, AI 비전 및 저조도 감지에 매우 적합합니다.
놀라운 사실은 최신 칩을 한 시간 동안 작동시키는 데 필요한 에너지로 ACCEL을 500년 동안 가동할 수 있다는 것입니다. 이처럼 전력 소모가 적기 때문에 발열 문제도 쉽게 해결할 수 있는데, 발열은 칩 크기를 줄이는 데 제약이 되는 요소입니다.
이 칩은 교통dent, 저조도 이미징, 주변광을 직접 감지 과정에 활용하는 실시간 영상 촬영 등의 기능을 수행합니다. 연구팀은 이 칩이 범용 칩이 아니라 매우 특정한 용도를 위한 것이라고 밝혔습니다.
이 연구는 국가 핵심 연구개발 프로그램과 중국 국가자연과학기금의 지원을 받았습니다. 연구원 중 한 명이 공동 설립한 베이징의 반도체 회사인 메이크센스(MakeSens)도 연구에 참여했으며, 최근 저전력 아날로그 칩을 출시하기도 했습니다.
이번 프로젝트의 책임자 중 한 명인 칭화대학교의 다이충하이 교수는 새로운 컴퓨팅 아키텍처를 구축하는 것은 단지 첫걸음에 불과하다고 말했다.
"더욱 중요한 과제는 이러한 새로운 아키텍처를 실제 응용 분야에 적용하여 국가적, 공공적 주요 요구 사항을 해결하는 것이며, 이는 우리의 책임입니다."
해당 팀은 이 칩이 언제 시장에 출시될지에 대해 아무런 언급도 하지 않았습니다.
암호화폐 업계의 최고 전문가들 앞에 당신의 프로젝트를 소개하고 싶으신가요? 데이터가 영향력을 발휘하는 다음 업계 보고서에 당신의 프로젝트를 소개하세요.