tradingkey.logo

A estreia do mHC da DeepSeek é recebida com ceticismo antes da validação por pares

Cryptopolitan5 de jan de 2026 às 15:45

Em um momento em que existem problemas com os custos crescentes de desenvolvimento e manutenção da IA e com a quantidade limitada de hardware disponível, a DeepSeek apresentou um novo plano para desenvolver e escalar a inteligência artificial (IA).

A startup chinesa acredita que pode criar modelos de IA significativamente melhores sem necessariamente adicionar mais chips e, portanto, aumentar o consumo de energia. Embora o conceito proposto de mHC tenha atraído bastante atenção de muitos pesquisadores da área, geralmente ainda é considerado em estágio inicial.

Serão necessárias mais pesquisas para determinar os benefícios dessa abordagem no desenvolvimento de sistemas de IA de maior porte. Um artigo técnico detalhando o conceito de mHC foi publicado na semana passada e tem como coautor Liang Wenfeng, fundador e CEO da DeepSeek.

DeepSeek repensa o design de rede para escalar a IA

Um dos principais componentes do trabalho é uma reavaliação de como a informação é transferida entre as várias camadas de uma rede neural multicamadas.

Cada camada em uma rede neural transmite uma forma de informação processada para a próxima camada do modelo, criando o que foi denominado de 'Rede de Aprendizagem Residual' ( ResNet ). Desenvolvida por Kaiming He, da Microsoft Research, e outros, há aproximadamente dez anos, a ResNet forneceu a base fundamental para diversos dos sistemas de IA mais avançados da atualidade.

Um conceito desenvolvido pela DeepSeek foi criado após a ByteDance introduzir as Hiperconexões em 2024. As Hiperconexões permitem que a informação percorra múltiplas rotas através de uma rede, em vez de apenas um caminho principal, o que pode aumentar a velocidade de aprendizagem e a riqueza da experiência.

No entanto, embora possam ser benéficos, também podem levar a ocorrênciasmatic de treinamento, em que os modelos apresentam instabilidade ou falha completa durante o treinamento.

Segundo Song Linqi (Universidade da Cidade de Hong Kong), a pesquisa da DeepSeek é uma progressão de uma ideia já existente, uma continuação da forma como a DeepSeek analisa o trabalho de outras empresas, em vez de inventar algo do zero.

A ResNet é comparada a uma via expressa de uma única faixa, enquanto as Hiperconexões se assemelham a uma via expressa de múltiplas faixas; no entanto, Song alertou que ter várias faixas sem regras adequadas pode levar a mais colisões.

O professor Guo Song, da Universidade de Ciência e Tecnologia de Hong Kong, acredita que este artigo de pesquisa pode indicar uma mudança no comportamento da pesquisa em IA . Em vez de continuar a fazer pequenas modificações nos projetos de modelos existentes, ele acredita que a pesquisa pode evoluir para o desenvolvimento de novos modelos baseados em construções teóricas.

Pesquisadores testam o mHC, mas levantam preocupações práticas

Embora haja entusiasmo com o recente marco alcançado nos testes do mHC para aprendizado profundo, especialistas enfatizaram que a pesquisa ainda não está concluída. Os testes realizados pela DeepSeek utilizaram apenas quatro caminhos de dados ao testar modelos com 27 bilhões de parâmetros .

“Os experimentos validaram modelos com até 27 bilhões de parâmetros, mas como eles se comportariam nos modelos de vanguarda atuais, que são uma ordem de magnitude maiores?”

Professor Guo Song.

Os modelos de IA disponíveis atualmente são maiores e normalmente possuem centenas de bilhões de parâmetros, em comparação com os 30 bilhões de parâmetros que eram padrão há apenas alguns anos.

Guo fez coro com essas opiniões e afirmou que ninguém pode concluir ainda se o mHC será capaz de realizar trabalhos na vanguarda da tecnologia de IA. Ele também afirmou que a infraestrutura necessária para o funcionamento do mHC pode ser avançada demais para ser utilizada por instituições de pesquisa menores e por empresas em dispositivos móveis.

Segundo o Cryptopolitan , a popularidade do DeepSeek surgiu com o lançamento do modelo de linguagem DeepSeek V3 e, posteriormente, com o lançamento do modelo de raciocínio DeepSeek-R1 apenas algumas semanas depois.

Ao comparar os resultados dos modelos com os de seus concorrentes durante os testes de benchmark, ambos os modelos conseguiram atingir ou superar os resultados dos concorrentes, apesar de terem sido lançados usando apenas uma fração dos dados de treinamento utilizados pelos outros modelos de linguagem concorrentes.

Ganhe US$ 50 grátis para negociar criptomoedas ao se inscrever no Bybit agora

Aviso legal: as informações fornecidas neste site são apenas para fins educacionais e informativos e não devem ser consideradas consultoria financeira ou de investimento.
KeyAI