tradingkey.logo

A Nvidia apresentou os Cosmos WFMs para ajudar os desenvolvedores a acelerar a IA física

Cryptopolitan12 de ago de 2025 às 06:39

A Nvidia revelou a plataforma Cosmos , alimentada por modelos de mundo que os desenvolvedores de IA física usarão para treinar agentes de IA de análise de vídeo, veículos autônomos (VAs) e robôs. A empresa afirma que os modelos de mundo Cosmos usam raciocínio estruturado em imagens e vídeos para "entender o mundo físico como humanos".   

A empresa de tecnologia afirmou estar ajudando desenvolvedores a construir modelos fundamentais. Explicou que a Cosmos permitia que os desenvolvedores personalizassem modelos pré-treinados prontos para uso, para modelos físicos especializados de IA. A Nvidia se orgulha de que Cosmos utiliza uma "compreensão espaço-temporal" do mundo físico para selecionar dados que treinam a tomada de decisões em robótica e carros autônomos.

A empresa também acrescentou que a estrutura Cosmos Curator permitiu que desenvolvedores filtrassem, anotassem e desduplicassem grandes quantidades de dados de sensores. Os desenvolvedores usam esses dados para criar conjuntos de dados personalizados que atendem a necessidades físicas específicas de IA. Os modelos de base Cosmos World também podem gerar dados para pipelines posteriores no desenvolvimento de sistemas de visão industrial.

Cosmos vem com modelos de base Predict, Transfer e Reason 

De acordo com a equipe da Nvidia, a plataforma Cosmos conta com o modelo de previsão Predict, que permite aos desenvolvedores gerar vídeos contínuos de até 30 segundos. Os vídeos são gerados a partir de entradas multimodais, com estrita aderência aos prompts.

Transfer é um modelo multicontrole que permite aos desenvolvedores simular diferentes ambientes e condições de iluminação. A empresa de tecnologia também afirmou que o Transfer pode acelerar entradas 3D das estruturas de simulação de IA física CARLA e Nvidia Isaac Sim para permitir "aumento de dados controlável".   

A Nvidia afirmou que Cosmos Reason utiliza um VLM (Vision Language Model) totalmente personalizável que compreende o mundo físico real como os humanos. O Reason alimenta agentes de análise de vídeo que compreendem operações em espaços industriais e urbanos. Ele seleciona os dados de treinamento usados para a tomada de decisões.

A empresa de tecnologia revelou que os desenvolvedores poderiam aproveitar os modelos básicos para gerar dados para treinar modelos de IA em aplicações industriais e de robótica, como robôs de fábrica, armazéns automatizados e veículos autônomos em rodovias ou terrenos acidentados.

A Nvidia também afirmou que esses modelos fundamentais foram treinados usando conjuntos de dados não rotulados para gerar novos dados com base nas entradas do usuário. Acrescentou que os desenvolvedores podem usar essa generalização para ajustar os modelos pré-treinados usando conjuntos de dados menores para criar modelos personalizados. Os desenvolvedores também podem treinar diferentes máquinas autônomas para detectar e interagir com diversos ambientes.

Nvidia impulsiona 'gêmeos digitais'

A empresa de tecnologia anunciou o lançamento das bibliotecas Omniverse em 11 de agosto. A Nvidia acrescentou que as bibliotecas foram alimentadas por seus servidores RTX PRO e DGX Cloud, permitindo que os desenvolvedores construíssem gêmeos digitais fisicamente precisos. Dados sintéticos podem ser gerados capturando e reconstruindo o mundo real em simulação para construir agentes de IA e treinar modelos físicos de IA.

O Rev. Lebaredian, vice-dent de Omniverse e Tecnologias de Simulação da Nvidia, afirmou que sua empresa está comprometida em capacitar desenvolvedores a construir os robôs e veículos autônomos do futuro. Ele explicou que a IA e a computação gráfica estão convergindo para transformar os princípios básicos da robótica. Lebaredian acredita que essas tecnologias "transformarão trilhões de dólares em indústrias". 

A Nvidia divulgou que as bibliotecas e SDKs (Kits de Desenvolvimento de Software) do Omniverse estão agora disponíveis para desenvolvedores criarem e implementarem aplicações de simulação robótica e IA industrial. Os SDKs permitem a interoperabilidade de dados entre o OpenUSD (Universal Scene Description) e o MJCF (MuJoCo), permitindo a simulação de robôs em diferentes plataformas. A técnica de "RTX ray- trac 3D Gaussian splatting" também permite que desenvolvedores capturem, reconstruam e simulem ambientes físicos do mundo real em 3D usando dados de sensores.

A Nvidia afirmou que a Figure AI, a Skild AI, a Boston Dynamics, o RAI Institute, a Hexagon e a Lightwheel adotaram o Omniverse e o Isaac Suite (Simulação e Laboratório) para acelerar seus projetos de robótica baseados em IA. A Amazon Devices & Services também utilizou esses sistemas da Nvidia para impulsionar suas soluções de manufatura mais recentes.

Academia Cryptopolitan: em breve - uma nova maneira de obter renda passiva com DeFi em 2025. Saiba mais

Aviso legal: as informações fornecidas neste site são apenas para fins educacionais e informativos e não devem ser consideradas consultoria financeira ou de investimento.

Artigos relacionados

KeyAI