Investing.com — Alibaba Group Holdings Ltd ADR (NYSE:BABA) presentó el martes su serie de modelos de lenguaje de gran tamaño de próxima generación, Qwen3, ampliando sus ofertas de IA con una variedad de tamaños y arquitecturas de modelos. El lanzamiento incluye ocho modelos de pesos abiertos, seis densos y dos de mezcla de expertos (MoE), que van desde 0,6 mil millones hasta 235 mil millones de parámetros.
El buque insignia, Qwen3-235B-A22B, ha demostrado un rendimiento competitivo en evaluaciones comparativas de codificación, matemáticas y tareas generales cuando se compara con modelos líderes como DeepSeek-R1, Grok-3 y Gemini-2.5-Pro. Modelos más pequeños como Qwen3-30B-A3B también superaron a modelos con más parámetros, lo que indica mejoras de eficiencia en estructura y entrenamiento.
Todos los modelos, incluidas las variantes pre-entrenadas y post-entrenadas, son accesibles públicamente a través de Hugging Face, ModelScope y Kaggle. Para su implementación, Alibaba recomienda SGLang y vLLM, mientras que los usuarios locales pueden ejecutar Qwen3 utilizando herramientas como LMStudio, llama.cpp y KTransformers.
Qwen3 ofrece un rendimiento escalable y adaptativo, permitiendo a los usuarios ajustar los presupuestos de razonamiento computacional para equilibrar la precisión y el costo de recursos. Esta flexibilidad busca satisfacer las demandas cada vez más diversas de los desarrolladores que integran IA en flujos de trabajo de nivel consumidor o empresarial.
Los modelos admiten 119 idiomas y dialectos, triplicando la cobertura de su predecesor, Qwen2.5. Esta amplia capacidad multilingüe posiciona a Qwen3 para su adopción en mercados globales, incluidas regiones emergentes con rica diversidad lingüística.
Los modelos Qwen3 muestran avances en funciones de codificación y agentes, mejorados con una integración más profunda para el modelo de indicaciones condicionales (MCP). Estos refinamientos admiten aplicaciones sofisticadas, como agentes autónomos y herramientas para desarrolladores con mayor precisión.
La serie está entrenada con 36 billones de tokens, incluidas fuentes de alta calidad de STEM, razonamiento, libros y conjuntos de datos sintéticos. La mejora de datos contribuye a notables avances en comprensión del lenguaje, competencia en programación y memoria de contexto largo.
Qwen3 emplea innovaciones arquitectónicas y de entrenamiento como qk layernorm y equilibrio de carga de lotes globales para modelos MoE. Esto conduce a una mayor estabilidad de entrenamiento y mejoras de rendimiento consistentes en todas las escalas de modelos.
Su enfoque de preentrenamiento de tres etapas se dirige a la comprensión del lenguaje, el razonamiento y el procesamiento de contexto largo por separado, con secuencias de tokens extendidas hasta 32.000. Esta estrategia modular mejora la capacidad de Qwen3 para manejar interacciones complejas de múltiples turnos y documentos más grandes.
Con hiperparámetros optimizados guiados por leyes de escalado para cada tipo de modelo, Qwen3 representa el lanzamiento más deliberado y técnicamente completo de Alibaba hasta la fecha. Los observadores de la industria dicen que su estrategia de pesos abiertos y alcance multilingüe podrían convertirlo en un competidor significativo en la carrera global de IA.
Este artículo ha sido generado y traducido con el apoyo de AI y revisado por un editor. Para más información, consulte nuestros T&C.