tradingkey.logo

Se rumorea que DeepSeek V4 superará a ChatGPT y Claude en la codificación de contexto largo

Cryptopolitan10 de ene de 2026 10:00

Se rumorea que DeepSeek V4 superará a ChatGPT y Claude en codificación de contexto largo, enfocada en tareas de codificación de alto nivel. Fuentes internas afirman que el panorama de la IA en Silicon Valley debería preocuparse si las pruebas internas dan indicios de su rendimiento esperado tras el lanzamiento a mediados de febrero.

Según se informa, la empresa emergente de inteligencia artificial con sede en China, DeepSeek, planea lanzar DeepSeek V4, su último modelo de lenguaje de gran tamaño, el 17 de febrero. Personas familiarizadas con el asunto afirman que el modelo está a punto de eclipsar a los modelos de lenguaje de gran tamaño existentes, como ChatGPT de OpenAI y Claude de Anthropic, al gestionar solicitudes y tareas de código de contexto largo.

Los desarrolladores expresan una gran expectativa por el lanzamiento de DeepSeek V4

La compañía china no ha revelado públicamente ninguna información sobre el lanzamiento inminente ni ha confirmado los rumores hasta el momento de escribir este artículo. Desarrolladores en diferentes redes sociales han expresado gran expectación por el lanzamiento. Yuchen Jin, desarrollador de IA y cofundador de Hyperbolic Labs, escribió en X: «Se rumorea que DeepSeek V4 se lanzará pronto, con un tron que Claude y GPT».

El subreddit r/DeepSeek también se calentó , y un usuario explicó que su obsesión con el inminente modelo V4 de DeepSeek no era normal. El usuario comentó que frecuentemente "reviso noticias, posibles rumores, e incluso reviso la documentación en el sitio web de DS para buscar cambios o indicios de una actualización".

Los lanzamientos anteriores de DeepSeek han tenido un impacto significativo en los mercados globales. La startup china de IA lanzó su modelo de razonamiento R1 en enero de 2025, lo que provocó una liquidación de un billón de dólares. El lanzamiento igualó al modelo 01 de OpenAI en cuanto a matemáticas y razonamiento, a pesar de costar significativamente menos que lo que la startup estadounidense de IA invirtió en su modelo 01.

Según se informa, la empresa china invirtió solo 6 millones de dólares en el lanzamiento del modelo. Mientras tanto, sus competidores globales gastan casi 70 veces más para obtener el mismo rendimiento. Su modelo V3 también obtuvo una puntuación del 90,2 % en la prueba de rendimiento MATH-500, frente al 78,3 % de Claude. La actualización más reciente de DeepSeek a la V3 (V3.2 Speciale) mejoró aún más su productividad.

El atractivo de su modelo V4 ha evolucionado a partir del énfasis de la V3 en el razonamiento puro, las demostraciones formales y la matemática lógica. Se espera que la nueva versión sea un modelo híbrido que combine tareas de razonamiento y no razonamiento. El modelo busca captar el mercado de desarrolladores, cubriendo una brecha existente que exige alta precisión y generación de código de contexto extenso.

Claude Opus 4.5 actualmente domina el benchmark SWE, con una precisión del 80,9 %. El V4 necesita superar esta cifra para superar a Claude Opus 4.5. Basándose en éxitos anteriores, el nuevo modelo podría superar este umbral y dominar el benchmark.

DeepSeek es pionero en mHC para la formación de LLM

El éxito de DeepSeek ha dejado a muchos profesionales con una profunda incredulidad. ¿Cómo pudo una empresa tan pequeña alcanzar tales hitos? El secreto podría estar profundamente arraigado en su artículo de investigación publicado el 1 de enero. La compañía dent un nuevo método de entrenamiento que permite a los desarrolladores escalar fácilmente grandes modelos de lenguaje. Liang Wenfeng, fundador y director ejecutivo de DeepSeek, escribió en el estudio que la compañía utiliza hiperconexiones restringidas por múltiples (mHC) para entrenar sus modelos de IA.

El ejecutivo propuso usar mHC para abordar los problemas que surgen al entrenar modelos lingüísticos extensos. Según Wenfeng, mHC es una versión mejorada de Hyper-Connections (HC), un framework que otros desarrolladores de IA utilizan para entrenar sus modelos lingüísticos extensos. Explicó que HC y otras arquitecturas de IA tradicionales fuerzan todos los datos a través de un único canal estrecho. Al mismo tiempo, mHC amplía esa ruta a múltiples canales, facilitando la transferencia de datos e información sin provocar un colapso del entrenamiento. 

Lian Jye Su, analista jefe de Omdia, elogió al director ejecutivo Wenfeng por publicar su investigación. Su enfatizó que la decisión de DeepSeek de publicar sus métodos de entrenamiento demuestra una renovada confianza en el sector chino de IA. DeepSeek ha dominado el mundo en desarrollo. Microsoft publicó un informe el jueves que muestra que DeepSeek domina el 89% del mercado chino de IA y ha cobrado impulso en los países en desarrollo.

Afila tu estrategia con mentoría ideas diarias: 30 días de acceso gratuito a nuestro programa de trading

Descargo de responsabilidad: La información proporcionada en este sitio web es solo para fines educativos e informativos, y no debe considerarse como asesoramiento financiero o de inversión.

Artículos Relacionados

Tradingkey
KeyAI