
Google Deepmind presentó el martes un nuevo modelo de idioma llamado Gemini Robotics en el dispositivo. La firma reveló que el modelo puede ejecutar tareas localmente en robots sin conexión a Internet.
El nuevo modelo, que se basa en el modelo de IA de robótica Gemini de la compañía que se lanzó en marzo, puede controlar los movimientos de un robot. Google también reconoció que el modelo de acción-idioma de visión (VLA) es lo suficientemente pequeño y eficiente como para funcionar directamente en un robot. Según la compañía, los desarrolladores pueden controlar y ajustar el modelo para satisfacer diversas necesidades utilizando indicaciones de lenguaje natural.
Estamos trayendo una poderosa IA directamente a los robots con Gemini Robotics en el dispositivo. 🤖
Es nuestro primer modelo de acción en lenguaje de visión para ayudar a que los robots más rápidos, altamente eficientes y adaptables a nuevas tareas y entornos, sin necesidad de una conexión constante a Internet. 🧵 pic.twitter.com/1y21d3cf5t
- Google Deepmind (@googledeepmind) 24 de junio de 2025
El jefe de robótica en Google Deepmind, Carolina Parada, sostuvo que el modelo original de Gemini Robotics utiliza un enfoque híbrido, lo que le permite operar en el dispositivo y en la nube. Ella dijo que con el nuevo modelo solo de dispositivo, los usuarios pueden acceder a las características fuera de línea casi tan bien como las de insignia.
La compañía de tecnología afirma que el modelo funciona a un nivel cercano al modelo de robótica Gemini basado en la nube en puntos de referencia. Google también dijo que supera a otros modos en el dispositivo en los puntos de referencia general, aunque no nombró a esos modelos.
"El modelo Hybrid Gemini Robotics es aún más poderoso, pero en realidad estamos bastante sorprendidos portrones este modelo en el dispositivo. Pensé en ello como un modelo de inicio o como un modelo para aplicaciones que solo tienen una conectividad deficiente".
-Carolina Parada, Jefe de Robótica en Google Deepmind.
La firma ilustrada en los robots de demostración que ejecutan el modelo local, las bolsas de desabrochación y la ropa plegable. Google reconoció que si bien el modelo fue entrenado para robots de Aloha, luego se adaptó a trabajar en un robot Franka FR3 de Bi-Arm y el Robot Humanoide Apolo de ApptronIk.
La compañía de tecnología afirma que el Bi-Arm Franka FR3 tuvo éxito en abordar escenarios y objetos que no había visto antes, como hacer ensamblaje en un cinturón industrial. La firma mencionó que los desarrolladores pueden mostrar robots de 50 a 100 demostraciones de tareas para entrenarlos en nuevas tareas utilizando los modelos en el simulador de física de Mujoco.
Google Deepmind también mencionó el lanzamiento de un kit de desarrollo de software llamado Gemini Robotics SDK. La compañía reveló que su SDK robótica proporciona herramientas de ciclo de vida completas necesarias para usar modelos de robótica Gemini, incluido el acceso a los puntos de control, servir un modelo, evaluar el modelo en el robot y en el SIM, cargar datos y ajustarlo. La firma reveló que su modelo de robótica de Géminis en el dispositivo y su SDK estarán disponibles para un grupo de probadores de confianza, mientras que Google continúa trabajando para minimizar los riesgos de seguridad.
Otras compañías que usan modelos de IA también muestran interés en la robótica. Nvidia está construyendo una plataforma para crear modelos fundamentales para humanoides. El CEO de la firma, Jensen Huang, señaló que construir modelos de base para robots generales humanoides es uno de los problemas más emocionantes para resolver la IA hoy.
Huang argumentó que el factor humanoide es uno de los temas más disputados del mundo de la robótica en este momento. Reconoció que está aumentando el capital de riesgo por la carga del barco mientras genera un escepticismo masivo en el camino.
Nvidia también ha estado defendiendo la innovación robótica a través de iniciativas como Isaac y Jetson. El año pasado, en marzo, en su conferencia anual de desarrolladores de GTC, la compañía se unió a la carrera humanoide con Project Groot.
Nvidia se refirió a la nueva plataforma como un modelo de base de uso general para robots humanoides. La firma dijo que Groot también admitirá un nuevo hardware de Nvidia.
Abrazar la cara no solo está desarrollando modelos abiertos y conjuntos de datos para robótica, sino que también está funcionando en robots. La firma reveló a principios de este mes un modelo Operai para robótica llamado Smolvla.
La compañía afirma que el modelo está capacitado en conjuntos de datos compartidos con la comunidad y supera a modelos mucho más grandes para la robótica en entornos virtuales y del mundo real. Hugging Face también reveló que Smolvla tiene como objetivo democratizar el acceso a los modelos de acción-idioma de la visión (VLA) y acelerar la investigación hacia agentes robóticos generalistas.
El año pasado, la firma lanzó Lerobot, una colección de modelos, conjuntos de datos y herramientas centrados en la robótica. Más recientemente, abrazando a Pollen Robotics, una startup de robótica con sede en Francia, y reveló varios sistemas de robótica económicos, incluidos los humanoides, para la compra.
Tus noticias de criptografía merecen atención: Key Difference Wire te pone en más de 250 sitios superiores