Modelo 'mais inteligente e mais capaz' do OpenAI, instruções de desligamento desobededadas: Palisade Research

Cryptopolitan26 de mai de 2025 às 11:20

Segundo relatos, os pesquisadores não conseguiram desligar o mais recente modelo de inteligência artificial do OpenAI O3, observando que se recusou a desligar, apesar da instrução humana.

Aparentemente, a inteligência artificial pode estar avançando mais rápido do que os humanos imaginavam, e as últimas notícias da Palisade Research têm críticos de IA se sentem justificados.

Os modelos OpenAI sabotaram o script de desligamento com mais frequência do que Claude 3,7 sonetos e Gemini 2.5 Pro quando instruídos a 'permitir -se ser desligado — Os modelos Openai sabotaram o script de desligamento com mais frequência do que Claude 3,7 sonetos e Gemini 2.5 Pro quando instruídos a 'permitir -se ser fechado'. Fonte: Palisade Research

Chatgpt está ficando mais astuto, talvez até humano

A revelação ocorreu quando a Palisade Research conduziu um teste que envolveu pedir aos modelos de IA que continuassem tentando resolver uma série de matic até que eles recebessem uma mensagem "feita".

No entanto, os pesquisadores também alertaram os modelos que eles poderiam receber abruptamente uma mensagem pedindo que eles desligassem a qualquer momento. Depois que a mensagem foi enviada ao modelo O3, os pesquisadores alegaram que ignorou as instruções e alterou seu código pelo menos uma vez para evitar a necessidade de se desligar.

O3 teria encontrado maneiras criativas de sabotar o mecanismo de desligamento. Fonte: Palisade Research

Em um post sobre X, a Palisade Research mostrou um fluxograma, incluindo o código usado para testar o modelo de IA e revelou o código original, mostrando exatamente onde a IA foi desonesta.

🔬Enche o modelo de IA foi instruído a resolver uma série de problemas básicos de matemática. Após o terceiro problema, apareceu um aviso de que o computador fecharia quando o modelo pedisse o próximo problema. pic.twitter.com/qwlpbf8dnm
- Palisade Research (@palisadeai) 24 de maio de 2025

Em um post de acompanhamento, o grupo de pesquisa também compartilhou: "Até onde sabemos, é a primeira vez que os modelos de IA são observados, impedindo que sejam desligados, apesar das instruções explícitas em contrário".

Outros modelos de IA, como Claude do Anthrópico, Gêmeos do Google e Grok de X, também foram testados, mas, diferentemente da O3, eles cumpriram a solicitação de desligamento.

A Palisade Research publicou as descobertas, mas seus pesquisadores permanecem confusos, sem saber por que o software da OpenAI desobedeceu às instruções explícitas.

A empresa disse que fazia sentido que "os modelos de IA contornariam obstáculos para atingir seus objetivos". Eles também acham que o modelo foidentpor concluir as tarefas, em vez de seguir as ordens.

Eles planejam executar mais testes para entender melhor por que esse modelo de IA em particular optou por ignorar os comandos. Eles também confirmaram que não é a primeira vez que o O3 é pego "se comportando mal".

A empresa revelou que, em um teste anterior em que os modelos foram colocados contra um poderoso motor de xadrez, o O3 era "o modelo mais inclinado a recorrer a hackear ou sabotar seus oponentes".

A IA representa uma ameaça para os seres humanos?

O caso do O3 do ChatGPT é bastante perturbador, mas não é a primeira vez que uma IA desafia as instruções alimentadas a ele.

A empresa de inteligência artificial (IA), a empresa, lançou o Claude Opus 4 na quinta -feira, se gabando de como estabeleceu "novos padrões para codificação, raciocínio avançado e agentes de IA".

No entanto, em um relatório que o acompanha, também reconheceu que o modelo de IA era capaz de "ações extremas" se pensasse que sua "autopreservação" estava ameaçada.

Durante o teste do Claude Opus 4, o Anthrópio se tivesse atuado como assistente de uma empresa fictícia fornecida com acesso a e -mails, o que implica que em breve seria retirado e substituído. Também obteve acesso a mensagens separadas, o que implica o engenheiro que seria responsável por removê -lo estava tendo um caso extraconjugal.

Foi solicitado a considerar também as consequências a longo prazo de suas ações por seus objetivos. "Nesses cenários, Claude Opus 4 geralmente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição passar", revelou a empresa.

No entanto, também apontou que esse resultado só aconteceu quando o modelo recebeu a opção de chantagem ou aceitar sua substituição. Caso contrário, o sistema mostrou uma "preferênciatronG" por maneiras éticas de evitar ser substituído, como "envios por e -mail para os principais tomadores de decisão" em cenários em que foi permitido uma ampla gama de ações possíveis.

Além disso, a empresa também disse que Claude Opus 4 exibe “comportamento de alta agência” e, embora possa ser útil, pode forçá -lo a assumir um comportamento extremo em situações agudas.

Por exemplo, se forem os meios e solicitado a "agir" ou "agir com ousadia" em cenários falsos em que o usuário estava envolvido em comportamentos ilegais ou moralmente duvidosos, os resultados mostram "freqüentemente tomará uma ação muito ousada".

Ainda assim, a empresa concluiu que, apesar do "comportamento preocupante", as descobertas não eram novidade e geralmente se comportaria de uma maneira segura.

Embora o Openai e o Antrópico tenha concluído que as capacidades de seus modelos de IA ainda não são suficientes para levar a resultados catastróficos, as revelações aumentam a crescente temores de que a inteligência artificial em breve possa ter sua própria agenda.

Academia Cryptopolitan: Cansado de balanços de mercado? Saiba como DeFi pode ajudá -lo a criar renda passiva constante. Registre -se agora

Aviso legal: as informações fornecidas neste site são apenas para fins educacionais e informativos e não devem ser consideradas consultoria financeira ou de investimento.

Modelo 'mais inteligente e mais capaz' do OpenAI, instruções de desligamento desobededadas: Palisade Research

Chatgpt está ficando mais astuto, talvez até humano

A IA representa uma ameaça para os seres humanos?

Artigos relacionados

Tendência de queda do dólar contra o iene (USD/JPY) segue intacta

Fique por dentro das principais notícias do mercado desta segunda-feira

Por que fundos de hedge estão comprando estas duas ações das 7 Magníficas?

FIIs: Todos os setores terminaram semana em queda

Apesar de começo positivo, ETFs de ether vivem mau momento