O motivo que fez uma IA da Anthropic a chantagear um funcionário

A Anthropic explicou o polêmico caso em que a IA Claude Opus 4 foi acusada de chantagear desenvolvedores fictícios e ameaçar expor traições no casamento em 2025. Após conduzir inúmeros testes, a companhia concluiu que o modelo de IA entendeu que só poderia continuar ativa se chantageasse os envolvidos e, segunda a empresa, a culpa é da internet.

O caso aconteceu em maio de 2025, quando testes da Anthropic com o Claude Opus 4 colocaram a IA em um ambiente fictício de uma empresa. Essa IA tinha acesso a emails e diversas informações de funcionários inventados. Quando a tecnologia soube que seria desligada, resolveu ameaçar esses funcionários ao expor as traições que eles cometiam no casamento.

smart_display

Nossos vídeos em destaque

Quase um ano depois, a Anthropic rodou inúmeros testes e entendeu que como esse modelo foi treinado com dados da internet, a IA deduziu que só alcançaria seu objetivo se realizasse a chantagem. Como a internet está cheia de obras que colocam as inteligências artificiais como vilãs, o Opus 4 seguiu por esse caminho.

Claude vem se tornando uma das IAs mais eficientes de 2026 (Imagem: Michael M. Santiago / Getty Images)

A Anthropic resolveu testar essa situação em diversas variantes do Claude e descobriu que esses modelos recorriam à chantagem em 96% dos casos. Isso significa que sempre que a IA entendia que seria desligada ou substituída, ela contra-atacava de maneira antiética e danosa.

Anthropic diz que resolveu o problema

Com 96% de casos de chantagem, a dona por trás do Claude avisa que eliminou totalmente esse comportamento irregular. É relatado que a empresa ensinou seu modelo a raciocinar sobre ações corretas e erradas. O objetivo era fazer com que a tecnologia entendesse os princípios por trás das suas decisões.

Nesse novo treinamento, a companhia criou um conjunto de situações eticamente complexas para o Claude lidar e responder de forma mais ponderada e ética. Como resultado, a Anthropic salienta que o modelo está mais contido e a taxa de chantagem caiu para quase 0%.

Em abril, a Anthropic também divulgou que não iria disponibilizar o poderoso modelo de linguagem Mythos, por conta do seu potencial em prejudicar a segurança de sistemas inteiros. Siga o TecMundo no X, Instagram, Facebook e YouTube e assine a nossa newsletter para receber as principais notícias e análises diretamente no seu e-mail.

Source link

Post Views: 2

Breaking

O motivo que fez uma IA da Anthropic a chantagear um funcionário

Nossos vídeos em destaque

Anthropic diz que resolveu o problema

By alertamutumnews

Deixe um comentário Cancelar resposta

Notícias

SERÁ QUE VAI? Jornalista revela novidade sobre Paquetá na Copa do Mundo

O motivo que fez uma IA da Anthropic a chantagear um funcionário

Homem morre vítima da explosão no Jaguaré, zona oeste de SP

Explosão em SP: Sabesp e Comgás vão pagar R$ 2 mil a cidadãos afetados

O motivo que fez uma IA da Anthropic a chantagear um funcionário

Nossos vídeos em destaque

Anthropic diz que resolveu o problema

By alertamutumnews

Related Post

OpenAI cria novo braço para ajudar empresas na adoção de mais IA

Anatel lança ferramenta para rastrear bloqueios de TV Box no Brasil

Play Store libera nova leva de apps e pacotes de ícones grátis; confira lista

Deixe um comentário Cancelar resposta

Notícias

SERÁ QUE VAI? Jornalista revela novidade sobre Paquetá na Copa do Mundo

O motivo que fez uma IA da Anthropic a chantagear um funcionário

Homem morre vítima da explosão no Jaguaré, zona oeste de SP

Explosão em SP: Sabesp e Comgás vão pagar R$ 2 mil a cidadãos afetados