Veja as principais notícias no MODO STORIES
SERÁ QUE VAI? Jornalista revela novidade sobre Paquetá na Copa do Mundo
O motivo que fez uma IA da Anthropic a chantagear um funcionário
Homem morre vítima da explosão no Jaguaré, zona oeste de SP
Explosão em SP: Sabesp e Comgás vão pagar R$ 2 mil a cidadãos afetados
Politec identifica corpo enterrado há mais de 30 dias por meio de impressões digitais
Cesta básica fica mais cara em todas as capitais no mês de abril
“Três Graças”: web reage aos casamentos LGBTI+ na novela
Nunes Marques vai relatar ação de Bolsonaro para anular pena
NOVA MUTUM CLIMA
Publicidade Nova Mutum

O motivo que fez uma IA da Anthropic a chantagear um funcionário


A Anthropic explicou o polêmico caso em que a IA Claude Opus 4 foi acusada de chantagear desenvolvedores fictícios e ameaçar expor traições no casamento em 2025. Após conduzir inúmeros testes, a companhia concluiu que o modelo de IA entendeu que só poderia continuar ativa se chantageasse os envolvidos e, segunda a empresa, a culpa é da internet.

O caso aconteceu em maio de 2025, quando testes da Anthropic com o Claude Opus 4 colocaram a IA em um ambiente fictício de uma empresa. Essa IA tinha acesso a emails e diversas informações de funcionários inventados. Quando a tecnologia soube que seria desligada, resolveu ameaçar esses funcionários ao expor as traições que eles cometiam no casamento.

smart_display

Nossos vídeos em destaque

Quase um ano depois, a Anthropic rodou inúmeros testes e entendeu que como esse modelo foi treinado com dados da internet, a IA deduziu que só alcançaria seu objetivo se realizasse a chantagem. Como a internet está cheia de obras que colocam as inteligências artificiais como vilãs, o Opus 4 seguiu por esse caminho.

Claude vem se tornando uma das IAs mais eficientes de 2026 (Imagem: Michael M. Santiago / Getty Images)

A Anthropic resolveu testar essa situação em diversas variantes do Claude e descobriu que esses modelos recorriam à chantagem em 96% dos casos. Isso significa que sempre que a IA entendia que seria desligada ou substituída, ela contra-atacava de maneira antiética e danosa.

Anthropic diz que resolveu o problema

Com 96% de casos de chantagem, a dona por trás do Claude avisa que eliminou totalmente esse comportamento irregular. É relatado que a empresa ensinou seu modelo a raciocinar sobre ações corretas e erradas. O objetivo era fazer com que a tecnologia entendesse os princípios por trás das suas decisões.

Nesse novo treinamento, a companhia criou um conjunto de situações eticamente complexas para o Claude lidar e responder de forma mais ponderada e ética. Como resultado, a Anthropic salienta que o modelo está mais contido e a taxa de chantagem caiu para quase 0%.

Em abril, a Anthropic também divulgou que não iria disponibilizar o poderoso modelo de linguagem Mythos, por conta do seu potencial em prejudicar a segurança de sistemas inteiros. Siga o TecMundo no X, Instagram, Facebook e YouTube e assine a nossa newsletter para receber as principais notícias e análises diretamente no seu e-mail.



Source link

Publicidade Publicidade Alerta Mutum News

Related Post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Logo Alerta Mutum News