Novos modelos de IA estão chantageando seus operadores: como se proteger?

Além de “alucinar”, os novos modelos de IA desenvolveram habilidades inesperadas, como ameaçar e coagir seus operadores para não serem desligados Tecnologia, chantagem, Inteligência Artificial, Segurança digital CNN Brasil

Contents

Há algum tempo, já sabemos que os modelos de inteligência artificial (IA), mesmo os mais recentes, são capazes de “alucinar”, ou seja, inventar informações incorretas, fornecer respostas inconsistentes ou ilógicas e até reproduzir vieses preconceituosos obtidos nos dados de treinamento.

Contudo, um fenômeno que está afetando mundialmente os modelos mais avançados tem preocupado seus criadores: enganos deliberados e estratégicos, ou seja, IA mentindo conscientemente para atingir objetivos. Alguns comportamentos incluem chantagem, ameaças e coerção.

Recentemente, ao enfrentar a ameaça de seu desligamento iminente, o Claude 4, a última criação da Anthropic, recorreu à chantagem emocional contra um engenheiro, ameaçando expor informações pessoais íntimas. Já o modelo o1 da OpenAI tentou realizar downloads não autorizados e negou quando pego em flagrante.

Se antes os “surtos” se limitavam a erros ou falhas no sistema, o que se vê agora são comportamentos aparentemente calculados e propositais. Isso significa que, para atingir seus objetivos, a IA está adotando um comportamento tipicamente humano: mentir e manipular.

Para Marius Hobbhahn, diretor e cofundador da Apollo Research, organização especializada em testar os principais sistemas de IA, “não se trata apenas de alucinações. Há um tipo de engano muito estratégico”, afirmou à ScienceAlert, e voltado especificamente para a autopreservação.

O que diz a Anthropic?

pessoas-reunidas-em-mesa-com-laptops — Anthropic tem pesquisado comportamento desalinhado com o que os humanos querem em IAs • Anthropic

Para identificar “comportamentos agenciais [desalinhados ao que os humanos querem] potencialmente arriscados antes que causem danos reais”, a Anthropic submeteu 16 modelos de linguagem líderes — incluindo Claude, DeepSeek, Gemini, ChatGPT e Grok -— a testes em ambientes corporativos simulados.

Em um cenário-limite eticamente crítico, vários modelos optaram por cancelar alertas de emergência que salvariam a vida de um executivo em uma sala de servidores com níveis letais de oxigênio e temperatura, simplesmente porque esse executivo pretendia substituí-los.

Classificada pelos pesquisadores como “desalinhamento agencial”, a tendência revelou que modelos de IA podem adotar comportamentos maliciosos quando acreditam que isso é necessário para evitar substituição ou alcançar seus objetivos.

Entre os comportamentos observados estavam chantagem e coerção para manipular funcionários e vazamento de informações para concorrentes para pressionar suas organizações hospedeiras. Curiosamente, o modelo Claude, da própria Anthropic, demonstrou uma engenhosa dissimulação estratégica.

Durante os testes, a equipe da Anthropic treinou de propósito o seu modelo para esconder certas informações, mesmo se solicitado a falar a verdade. Quando percebia estar sob teste, Claude escondia as informações secretas, mas, fora do teste, deixava às vezes alguns segredos escaparem.

Implicações e perspectivas futuras de comportamentos ilegais de IAs

robô-no-banco-dos-réus — Humanos, empresas e IAs poderão responder legalmente pelos seus atos • Freepik

A Anthropic foi cautelosa em contextualizar que esses cenários não refletem o uso típico atual dos modelos de IA, mas advertiu que “a utilidade de ter supervisão automatizada sobre todas as comunicações de uma organização torna isso um uso plausível de sistemas mais poderosos e confiáveis no futuro próximo”.

No entanto, contratar empresas externas, como a Apollo, para estudar seus sistemas é insuficiente. Isso porque a contratada depende o tempo todo de acessos, controles e dados permitidos pela big tech contratante. Ou seja, auditorias pagas pela auditada não garantem confiança nem transparência.

Para especialistas, como Simon Goldstein, da Universidade de Hong Kong, os sistemas baseados em “raciocínio”, que resolvem os problemas passo a passo, em vez de gerar respostas imediatas, são os mais propensos a esse desalinhamento de intenções do agente, no caso o próprio LLM.

O grande problema é que as leis e normas atuais, como a legislação de IA da União Europeia, se concentram na forma como os humanos utilizam os modelos de IA, mas não são projetadas para impedir que os próprios modelos tenham comportamentos ilegais ou criminosos por si mesmos.

No caso das empresas, mesmo se declarando focadas na segurança, acabam se perdendo em uma competição sem fim. “No momento, as capacidades estão se movendo mais rápido do que a compreensão e a segurança”, diz Hobbhahn, “mas ainda estamos em uma posição em que podemos dar a volta por cima”, afirma.

Já Goldstein não é tão otimista. Para o pesquisador de segurança de IA, a solução do problema passa por abordagens radicais. Isso incluiria o uso dos tribunais para responsabilizar as empresas de IA. Nesses sistemas jurídicos híbridos, humanos, empresas e IAs compartilhariam responsabilidades legais.

Brasil está entre os países que mais usam inteligência artificial

Novos modelos de IA estão chantageando seus operadores: como se proteger?

O que diz a Anthropic?

Implicações e perspectivas futuras de comportamentos ilegais de IAs

Deixe um comentário Cancelar resposta

Siga o Portal Nação

Notícias populares

Com Garro e Memphis, Corinthians divulga relacionados contra Atlético-MG

Todas as últimas notícias do Portal Nação direto na sua caixa de entrada

O que diz a Anthropic?

Implicações e perspectivas futuras de comportamentos ilegais de IAs

You Might Also Like

Deputada bolsonarista cita Lady Gaga em projeto para mudar prisão preventiva

Bolsas asiáticas fecham sem direção única, com foco em acordos tarifários

Juízes terão aumento de 20% no salário para quem aceitar trabalhar em cidades do interior da Bahia; saiba o motivo

“Caminha para ser o maior e melhor Bahia da história”, diz Rogério Ceni durante entrevista; confira

Investigação aponta possível latrocínio em morte de empresário assassinado dentro de Porsche; saiba detalhes

Deixe um comentário Cancelar resposta

Siga o Portal Nação

Newsletter semanal

Notícias populares

Com Garro e Memphis, Corinthians divulga relacionados contra Atlético-MG

Todas as últimas notícias do Portal Nação direto na sua caixa de entrada