Investing.com — Tập đoàn Alibaba Group Holdings Ltd ADR (NYSE:BABA) đã giới thiệu dòng mô hình ngôn ngữ lớn thế hệ tiếp theo, Qwen3, vào hôm thứ Ba, mở rộng các giải pháp AI của mình với nhiều kích thước và kiến trúc mô hình khác nhau. Phiên bản này bao gồm tám mô hình trọng số mở, sáu mô hình dày đặc và hai mô hình hỗn hợp chuyên gia (MoE), với số tham số từ 0,6 tỷ đến 235 tỷ.
Mô hình chủ lực, Qwen3-235B-A22B, đã thể hiện hiệu suất cạnh tranh trong các tiêu chuẩn đánh giá về lập trình, toán học và các tác vụ chung khi so sánh với các mô hình hàng đầu như DeepSeek-R1, Grok-3 và Gemini-2.5-Pro. Các mô hình nhỏ hơn như Qwen3-30B-A3B cũng vượt trội hơn các mô hình có nhiều tham số hơn, cho thấy sự cải tiến về hiệu quả trong cấu trúc và quá trình đào tạo.
Tất cả các mô hình—bao gồm các biến thể đã được đào tạo trước và sau—đều có thể truy cập công khai thông qua Hugging Face, ModelScope và Kaggle. Để triển khai, Alibaba khuyến nghị sử dụng SGLang và vLLM, trong khi người dùng địa phương có thể chạy Qwen3 bằng các công cụ như LMStudio, llama.cpp và KTransformers.
Qwen3 cung cấp hiệu suất có thể mở rộng và thích ứng, cho phép người dùng điều chỉnh ngân sách tính toán lý luận để cân bằng giữa độ chính xác và chi phí tài nguyên. Tính linh hoạt này nhằm đáp ứng nhu cầu ngày càng đa dạng của các nhà phát triển tích hợp AI vào quy trình làm việc cấp người tiêu dùng hoặc doanh nghiệp.
Các mô hình hỗ trợ 119 ngôn ngữ và phương ngữ, gấp ba lần phạm vi của phiên bản tiền nhiệm, Qwen2.5. Khả năng đa ngôn ngữ rộng rãi này đặt Qwen3 ở vị thế thuận lợi để được áp dụng tại các thị trường toàn cầu, bao gồm cả các khu vực mới nổi với sự đa dạng ngôn ngữ phong phú.
Các mô hình Qwen3 thể hiện những tiến bộ trong lập trình và chức năng tác nhân, được nâng cao với sự tích hợp sâu hơn cho việc nhắc nhở có điều kiện mô hình (MCP). Những cải tiến này hỗ trợ các ứng dụng phức tạp, chẳng hạn như tác nhân tự động và công cụ phát triển với độ chính xác cao hơn.
Dòng sản phẩm này được đào tạo trên 36 nghìn tỷ token, bao gồm các nguồn chất lượng cao từ STEM, lý luận, sách và bộ dữ liệu tổng hợp. Việc nâng cấp dữ liệu góp phần tạo ra những cải tiến đáng kể trong hiểu ngôn ngữ, khả năng lập trình và bộ nhớ ngữ cảnh dài.
Qwen3 sử dụng các đổi mới về kiến trúc và đào tạo như qk layernorm và cân bằng tải batch toàn cục cho các mô hình MoE. Điều này dẫn đến sự ổn định đào tạo lớn hơn và cải thiện hiệu suất nhất quán trên các quy mô mô hình.
Phương pháp đào tạo trước ba giai đoạn của nó nhắm vào hiểu ngôn ngữ, lý luận và xử lý ngữ cảnh dài một cách riêng biệt, với các chuỗi token mở rộng lên đến 32.000. Chiến lược mô-đun này nâng cao khả năng của Qwen3 trong việc xử lý các tương tác phức tạp, nhiều lượt và tài liệu lớn hơn.
Với các siêu tham số được tối ưu hóa dựa trên quy luật mở rộng cho từng loại mô hình, Qwen3 đại diện cho bản phát hành có chủ đích và toàn diện về mặt kỹ thuật nhất của Alibaba cho đến nay. Các nhà quan sát trong ngành cho rằng chiến lược trọng số mở và phạm vi đa ngôn ngữ của nó có thể biến Qwen3 thành một đối thủ đáng gờm trong cuộc đua AI toàn cầu.
Bài viết này được tạo và dịch với sự hỗ trợ của AI và đã được biên tập viên xem xét. Để biết thêm thông tin, hãy xem Điều Kiện&Điều Khoản của chúng tôi.