Investing.com — Alibaba Group Holdings Ltd ADR (NYSE:BABA) ได้เปิดตัวชุดโมเดลภาษาขนาดใหญ่รุ่นใหม่ Qwen3 เมื่อวันอังคาร เพื่อขยายขอบเขตบริการ AI ให้ครอบคลุมโมเดลหลากหลายขนาดและสถาปัตยกรรม การเปิดตัวครั้งนี้รวมถึงโมเดลแบบเปิดน้ําหนัก 8 รุ่น แบ่งเป็นโมเดลแบบหนาแน่น 6 รุ่น และแบบผสมผู้เชี่ยวชาญ (MoE) 2 รุ่น มีพารามิเตอร์ตั้งแต่ 0.6 พันล้านไปจนถึง 235 พันล้านพารามิเตอร์
โมเดลเรือธง Qwen3-235B-A22B ได้แสดงประสิทธิภาพที่แข่งขันได้ในการทดสอบเกณฑ์มาตรฐานด้านการเขียนโค้ด คณิตศาสตร์ และงานทั่วไป เมื่อเทียบกับโมเดลชั้นนําอย่าง DeepSeek-R1, Grok-3 และ Gemini-2.5-Pro โมเดลขนาดเล็กกว่าอย่าง Qwen3-30B-A3B ยังทํางานได้เร็วกว่าโมเดลที่มีพารามิเตอร์มากกว่า แสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นในโครงสร้างและการฝึกฝน
โมเดลทั้งหมด—ทั้งรุ่นก่อนการฝึกและหลังการฝึก—สามารถเข้าถึงได้อย่างเปิดเผยผ่าน Hugging Face, ModelScope และ Kaggle สําหรับการนําไปใช้งาน Alibaba แนะนําให้ใช้ SGLang และ vLLM ในขณะที่ผู้ใช้ในพื้นที่สามารถใช้งาน Qwen3 ผ่านเครื่องมืออย่าง LMStudio, llama.cpp และ KTransformers
Qwen3 มอบประสิทธิภาพที่ปรับขนาดและปรับตัวได้ ช่วยให้ผู้ใช้สามารถปรับงบประมาณการคํานวณเหตุผลเพื่อสร้างสมดุลระหว่างความแม่นยําและต้นทุนทรัพยากร ความยืดหยุ่นนี้มีเป้าหมายเพื่อตอบสนองความต้องการที่หลากหลายมากขึ้นของนักพัฒนาที่ผสานรวม AI เข้ากับเวิร์กโฟลว์ระดับผู้บริโภคหรือองค์กร
โมเดลนี้รองรับ 119 ภาษาและภาษาถิ่น เพิ่มขึ้นสามเท่าจากรุ่นก่อนหน้า Qwen2.5 ความสามารถหลายภาษาที่กว้างขวางนี้ทําให้ Qwen3 มีตําแหน่งสําหรับการนําไปใช้ในตลาดทั่วโลก รวมถึงภูมิภาคเกิดใหม่ที่มีความหลากหลายทางภาษา
โมเดล Qwen3 แสดงความก้าวหน้าในการเขียนโค้ดและฟังก์ชันเอเจนต์ ที่ได้รับการเสริมด้วยการผสานที่ลึกซึ้งยิ่งขึ้นสําหรับการกระตุ้นแบบเงื่อนไขโมเดล (MCP) การปรับปรุงเหล่านี้รองรับแอปพลิเคชันที่ซับซ้อน เช่น เอเจนต์อัตโนมัติและเครื่องมือสําหรับนักพัฒนาที่มีความแม่นยําสูงขึ้น
ชุดโมเดลนี้ได้รับการฝึกฝนด้วยโทเค็น 36 ล้านล้าน รวมถึงแหล่งข้อมูลคุณภาพสูงจาก STEM การให้เหตุผล หนังสือ และชุดข้อมูลสังเคราะห์ การอัปเกรดข้อมูลนี้มีส่วนช่วยในการเพิ่มความเข้าใจภาษา ความเชี่ยวชาญในการเขียนโปรแกรม และความจําบริบทยาว
Qwen3 ใช้นวัตกรรมด้านสถาปัตยกรรมและการฝึกฝน เช่น qk layernorm และการสมดุลโหลดแบบแบตช์ทั่วโลกสําหรับโมเดล MoE สิ่งนี้นําไปสู่ความเสถียรในการฝึกฝนที่มากขึ้นและการปรับปรุงประสิทธิภาพที่สม่ําเสมอในทุกขนาดของโมเดล
วิธีการฝึกฝนล่วงหน้าแบบสามขั้นตอนมุ่งเป้าไปที่ความเข้าใจภาษา การให้เหตุผล และการประมวลผลบริบทยาวแยกกัน โดยมีลําดับโทเค็นขยายไปถึง 32,000 กลยุทธ์แบบโมดูลาร์นี้เพิ่มความสามารถของ Qwen3 ในการจัดการกับการโต้ตอบที่ซับซ้อน หลายรอบ และเอกสารขนาดใหญ่
ด้วยไฮเปอร์พารามิเตอร์ที่ได้รับการปรับให้เหมาะสมโดยใช้กฎการปรับขนาดสําหรับโมเดลแต่ละประเภท Qwen3 ถือเป็นการเปิดตัวที่มีความตั้งใจและครอบคลุมทางเทคนิคมากที่สุดของ Alibaba จนถึงปัจจุบัน ผู้สังเกตการณ์ในอุตสาหกรรมกล่าวว่ากลยุทธ์น้ําหนักแบบเปิดและการเข้าถึงหลายภาษาอาจทําให้เป็นคู่แข่งที่สําคัญในการแข่งขัน AI ระดับโลก
บทความนี้ถูกแปลโดยใช้ความช่วยเหลือจากปัญญาประดิษฐ์(AI) สำหรับข้อมูลเพิ่มเติม โปรดอ่านข้อกำหนดการใช้งาน