A gigante dos chips NVIDIA está se preparando para apresentar um novo e poderoso processador de inteligência artificial projetado para acelerar a forma como chatbots e outras ferramentas de IA geram respostas, potencialmente fazendo com que sistemas atuais como o ChatGPT pareçam lentos em comparação.
A nova plataforma, com lançamento previsto para a conferência anual de desenvolvedores GTC da NVIDIA, é otimizada para inferência de IA, a etapa em que os modelos treinados produzem respostas às solicitações do usuário. Ao contrário das GPUs tradicionais, projetadas para lidar tanto com treinamento quanto com inferência, o novo processador se concentra especificamente em fornecer respostas com mais rapidez e eficiência.
O produto, se lançado, marcará o primeiro resultado tangível do acordo de dezembro que trouxe os fundadores da Groq para a empresa, especializada em hardware de processamento de IA de alta velocidade.
No final do ano passado, a NVIDIA teria gasto cerca de US$ 20 bilhões para licenciar tecnologia da startup de chips Groq e recrutar pessoal-chave, incluindo seu CEO. Quase simultaneamente, o CEO da NVIDIA, Jensen Huang, disse aos funcionários: "Planejamos integrar os processadores de baixa latência da Groq à arquitetura NVIDIA AI Factory, expandindo a plataforma para atender a uma gama ainda maior de cargas de trabalho de inferência de IA e em tempo real."
Agora, espera-se que o novo chip de inferência processe consultas complexas de IA em alta velocidade, e a OpenAI e outros clientes líderes provavelmente o adotarão, de acordo com o The Wall Street Journal. A reportagem também mostrou que o novo chip pode processar cerca de 10% da carga de trabalho de inferência da OpenAI.
Durante uma recente teleconferência sobre resultados financeiros, o CEO da NVIDIA insinuou que vários novos produtos serão apresentados no próximo evento GTC, frequentemente descrito como o "Super Bowl da IA". Ele comentou: "Tenho algumas ótimas ideias que gostaria de compartilhar com vocês no GTC."
A maioria dos analistas concorda que o chip no estilo Groq pode fazer parte da linha de produtos. Eles também afirmaram que seu design pode esclarecer como a NVIDIA pretende lidar com as limitações de memória na computação inferencial. Essas plataformas normalmente utilizam memória de alta largura de banda (HBM). No entanto, a HBM tem sido difícil de encontrar ultimamente.
Fontes internas afirmam que a empresa planeja usar SRAM no chip em vez da RAM dinâmica associada à HBM. Idealmente, a SRAM é mais acessível e pode melhorar o desempenho das cargas de trabalho de raciocínio de IA.
Se o chip for apresentado, poderá representar um grande avanço para a empresa de semicondutores e para os modelos de IA treinados. No entanto, ao falar sobre seu possível lançamento, Sid Sheth, fundador e CEO da d-Matrix, lançou dúvidas sobre seu desenvolvimento. Ele observou que, embora a NVIDIA continue sendo a líder incontestável em treinamento de IA, a inferência representa um cenário muito diferente. Ele afirmou: "Os desenvolvedores podem recorrer a concorrentes que não sejam a NVIDIA, porque executar modelos de IA finalizados não exige o mesmo tipo de programação que treiná-los."
No entanto, outras gigantes da tecnologia também estão avançando na computação inferencial. A Meta revelou esta semana quatro processadores projetados especificamente para inferência, levando um investidor do Vale do Silício a afirmar que o setor pode estar entrando em uma fase não dominada pela NVIDIA.
No entanto, mais recentemente, June Paik, diretora executiva da FuriosaAI, uma concorrente da NVIDIA, ao comentar sobre o benefício da computação de inferência de fácil implementação, alertou que a maioria dos centros de dados não consegue acomodar as GPUs mais recentes com refrigeração líquida.
Apesar das preocupações, os analistas do Bank of America preveem que as cargas de trabalho de inferência representarão 75% dos gastos com data centers de IA até 2030, quando o mercado atingirá cerca de US$ 1,2 trilhão, um aumento em relação aos cerca de 50% do ano passado. Ben Bajarin, analista de tecnologia da Creative Strategies, também afirmou que os data centers do futuro não seguirão um modelo único, prevendo que as empresas adotarão abordagens diferentes para o desenvolvimento de chips e instalações.
A NVIDIA também lançou recentemente seus chips de IA de última geração, os chips Vera Rubin AI, prevendo que a ascensão de plataformas de IA de raciocínio, como o DeepSeek, impulsionará uma demanda ainda maior por computação. A empresa afirmou que os chips ajudarão a treinar modelos de IA maiores e a fornecer resultados mais sofisticados para uma base de usuários mais ampla.
Segundo Huang, o Rubin também chegará ao mercado no segundo semestre de 2026, com uma versão "ultra" de alta gama prevista para 2027.
Ele também explicou que um único sistema Rubin combinaria 576 GPUs individuais em um único chip. Atualmente, o chip Blackwell da NVIDIA agrupa 72 GPUs em seu sistema NVL72, o que significa que o Rubin contará com uma memória mais avançada.
As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas .