Investing.com - Alibaba Group Holdings Ltd ADR (NYSE:BABA) presentó el martes su serie de modelos de lenguaje de nueva generación, Qwen3, ampliando sus ofertas de IA con diversos tamaños y arquitecturas. El lanzamiento incluye ocho modelos de pesos abiertos, seis densos y dos de mezcla de expertos (MoE), que van desde 0.6 mil millones hasta 235 mil millones de parámetros.
El buque insignia, Qwen3-235B-A22B, ha demostrado un rendimiento competitivo en pruebas de programación, matemáticas y tareas generales en comparación con modelos líderes como DeepSeek-R1, Grok-3 y Gemini-2.5-Pro. Modelos más pequeños como Qwen3-30B-A3B también superaron a modelos con más parámetros, indicando mejoras en eficiencia estructural y entrenamiento.
Todos los modelos, incluidas las variantes pre-entrenadas y post-entrenadas, están disponibles públicamente a través de Hugging Face, ModelScope y Kaggle. Para su implementación, Alibaba recomienda SGLang y vLLM, mientras que los usuarios locales pueden ejecutar Qwen3 utilizando herramientas como LMStudio, llama.cpp y KTransformers.
Qwen3 ofrece rendimiento escalable y adaptativo, permitiendo a los usuarios ajustar los presupuestos de razonamiento computacional para equilibrar precisión y costo de recursos. Esta flexibilidad busca satisfacer las demandas cada vez más diversas de desarrolladores que integran IA en flujos de trabajo de consumo o empresariales.
Los modelos admiten 119 idiomas y dialectos, triplicando la cobertura de su predecesor, Qwen2.5. Esta amplia capacidad multilingüe posiciona a Qwen3 para su adopción en mercados globales, incluidas regiones emergentes con rica diversidad lingüística.
Los modelos Qwen3 muestran avances en funciones de programación y agentes, mejorados con una integración más profunda para indicaciones condicionales al modelo (MCP). Estos refinamientos respaldan aplicaciones sofisticadas, como agentes autónomos y herramientas de desarrollo con mayor precisión.
La serie se entrena con 36 billones de tokens, incluyendo fuentes de alta calidad de STEM, razonamiento, libros y conjuntos de datos sintéticos. Esta mejora de datos contribuye a notables avances en comprensión del lenguaje, programación y memoria de contexto largo.
Qwen3 emplea innovaciones arquitectónicas y de entrenamiento como qk layernorm y equilibrio de carga global por lotes para modelos MoE. Esto conduce a mayor estabilidad de entrenamiento y mejoras de rendimiento consistentes en todas las escalas de modelos.
Su enfoque de preentrenamiento en tres etapas se dirige por separado a la comprensión del lenguaje, razonamiento y procesamiento de contexto largo, con secuencias de tokens extendidas hasta 32,000. Esta estrategia modular mejora la capacidad de Qwen3 para manejar interacciones complejas de múltiples turnos y documentos más grandes.
Con hiperparámetros optimizados guiados por leyes de escalado para cada tipo de modelo, Qwen3 representa el lanzamiento más deliberado y técnicamente completo de Alibaba hasta la fecha. Los observadores de la industria afirman que su estrategia de pesos abiertos y alcance multilingüe podrían convertirlo en un competidor significativo en la carrera global de IA.
Este artículo fue traducido con la ayuda de inteligencia artificial. Para obtener más información, consulte nuestros Términos de Uso.