tradingkey.logo

El modelo O3 de OpenAI no se encuentra en sus propias reclamaciones de referencia

Cryptopolitan21 de abr de 2025 2:29

El nuevo LLM de OpenAI, O3, enfrenta un escrutinio después de que las pruebas dedent descubrieron que resolvió una cantidad mucho menos de problemas matemáticos difíciles de lo que la compañía afirmó por primera vez. 

Cuando Operai presentó O3 en diciembre, los ejecutivos dijeron que el modelo podría responder "un poco más de un cuarto" de los problemas en Frontiermath, un conjunto notoriamente difícil de acertijos de matemáticas a nivel de posgrado.

El mejor competidor, agregaron, estaba atrapado cerca del 2%. "Hoy, todas las ofertas tienen menos del 2%", dijo el director de investigación Mark Chen durante la transmisión en vivo . "Estamos viendo, con O3 en la configuración de cómputo agresivo de Test -time, podemos superar el 25%".

TechCrunch informó que el resultado fue obtenido por OpenAI en una versión de O3 que usó más potencia informática que el modelo que la compañía lanzó la semana pasada la semana pasada..

El viernes, la Epoch AI del Instituto de Investigación, que creó Frontiermath, publicó su propia puntuación para el Público O3.

Utilizando una edición actualizada de 290 preguntas del punto de referencia, Epoch puso el modelo en aproximadamente el 10%.

El resultado coincide con una cifra de unión inferior en el documento técnico de diciembre de OpenAI, y Epoch advirtió que la discrepancia podría deberse a varias razones.

"La diferencia entre nuestros resultados y la de OpenAI podría deberse a la evaluación de OpenAI con un andamio interno más potente, utilizando más computación en tiempo de prueba, o porque esos resultados se ejecutaron en un subconjunto diferente de Frontiermath", escribió .

Frontiermath está diseñado para medir el progreso hacia el razonamiento avanzado de Matematical. El conjunto público de diciembre de 2024 contenía 180 problemas, mientras que la actualización privada de febrero de 2025 amplió el grupo a 290.

Los cambios en la lista de preguntas y la cantidad de potencia informática permitida en el tiempo de prueba pueden causar grandes cambios en porcentajes informados.

Operai confirmó que el modelo Public O3 usa menos cómputo que la versión de demostración

La evidencia de que falta el O3 comercial también provino de las pruebas de la Fundación del Premio ARC, que probó una construcción anterior y más grande. El lanzamiento público "es un modelo diferente ... sintonizado para el uso de chat/producto", ARC Price Foundation publicó en X, y agregó que "todos los niveles de cómputo O3 lanzados son más pequeños que la versión que comparamos".

La empleada de Operai, Wenda Zhou, ofreció una explicación similar durante una transmisión en vivo la semana pasada. El sistema de producción, dijo, estaba "más optimizado para los casos de uso del mundo real" y la velocidad. "Hemos hecho [optimizaciones] para que el modelo sea más rentable [y] más útil en general", dijo Zhou, al tiempo que reconoce posibles "disparidades".

Dos modelos más pequeños de la compañía, O3 -Mini -Aligh y el recientemente anunciado O4 -Mini, ya vencieron a O3 en Frontiermath, y OpenAi dice que una mejor variante de O3 -Pro llegará en las próximas semanas.

Aún así, muestra cómo los titulares de referencia pueden ser engañosos. En enero, Epoch fue criticada por retrasar la divulgación de fondos de Operai hasta después del debut de O3. Más recientemente, la startup Xai de Elon Musk fue acusada de presentar cuadros que exageraban las capacidades de su modelo Grok 3.

Los observadores de la industria dicen que tales controversias de referencia se están convirtiendo en una ocurrencia en la industria de la IA a medida que las empresas corren para capturar los titulares con nuevos modelos.

Academia Cryptopolitan: Próximamente, una nueva forma de obtener ingresos pasivos con DeFi en 2025. Obtenga más información

Descargo de responsabilidad: La información proporcionada en este sitio web es solo para fines educativos e informativos, y no debe considerarse como asesoramiento financiero o de inversión.
KeyAI