Veja as principais notícias no MODO STORIES
STF dá 60 dias para big techs cumprirem regras definidas pela Corte
Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA
Suspeita de vazamento de material radioativo na USP é investigado
Coreia do Sul e República Tcheca fecham primeiro dia de Copa do Mundo
Unimed Cuiabá promove palestra sobre o impacto da IA na medicina
Pivetta define convênios com prefeitos do Nortão para construir escolas e creches e fortalecer ações na saúde
Sul, Sudeste e Centro-Oeste podem ter final de semana de chuva intensa
Raúl Jiménez brilha em primeira Copa do Mundo após perder o pai
NOVA MUTUM CLIMA
Publicidade Nova Mutum

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA


A Anthropic reconheceu o erro de implementar mecanismos de segurança ocultos no novo Claude Fable 5. O grande modelo de linguagem da classe do Mythos estava sabotando respostas caso percebesse que estava ajudando a desenvolver outra inteligência artificial (IA).

“Estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira”, afirmou a Anthropic em um post no X na conta ClaudeDevs (@ClaudeDevs). “A partir desta semana, solicitações sinalizadas cairão visivelmente de volta para o Opus 4.8 – o mesmo que nossas salvaguardas para cibersegurança e pesquisas biológicas. Você verá isso toda vez que isso acontecer”, complementou.

smart_display

Nossos vídeos em destaque

Ao implementar mecanismos de segurança discretos, a Anthropic queria tornar suas ativações mais direcionadas. Porém, a empresa percebeu que a transparência sobre essas barreiras é importante, e os usuários deveriam ser notificados caso sejam afetados por elas.

“Tornar as salvaguardas visíveis as torna mais fáceis de contornar, então mantê-las robustas contra jailbreaks infelizmente significará mais falsos positivos enquanto melhoramos os classificadores”, afirmou a empresa. A Anthropic também revisou os classificadores relacionados a cibersegurança e pesquisas biológicas para acionar menos em solicitações inofensivas.

Claude Fable 5 era nerfado de forma discreta

O Claude Fable 5 é uma versão do Claude Mythos com diversos mecanismos de segurança para evitar uso malicioso. Se o chatbot percebe uma solicitação potencialmente perigosa acerca de temas como cibersegurança, biologia, química e destilação, ele delega a resposta a um modelo menos poderoso, como o Opus 4.8.

No entanto, a Anthropic também incluiu freios invisíveis no comportamento do Fable 5. “Tendo em vista a capacidade dos modelos recentes de acelerar seu próprio desenvolvimento, implementamos novas intervenções que limitam a eficácia do Claude para solicitações direcionadas ao desenvolvimento de modelos de aprendizado de máquina de ponta (na construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuída ou design de aceleradores de aprendizado de máquina, por exemplo)”, explica a empresa no documento “System Card: Claude Fable 5 e Claude Mythos 5”.

Ainda no texto, a empresa ressalta que o uso do Claude para desenvolver modelos concorrentes já viola os Termos de Serviço. A Anthropic acreditava que aplicar essa restrição por meio de salvaguardas invisíveis evitaria acelerar o trabalho de quem tenta burlar esses termos.

Freios invisíveis foram alvo de críticas nas redes

A estratégia não só evitou o desenvolvimento de modelos concorrentes, mas comprometeu a pesquisa científica relacionada à inteligência artificial e aprendizagem de máquina – sem qualquer aviso ao pesquisador. Esse comportamento ganhou repercussão nas redes sociais nos nichos relacionados ao tema.

“Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código”, afirmou um usuário no Reddit.

Quer ficar por dentro das novidades do mundo da tecnologia? Acesse o TecMundo e acompanhe as últimas notícias sobre Anthropic, Claude e inteligência artificial.



Source link

Publicidade Publicidade Alerta Mutum News

Related Post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Copa do Mundo 2026
Calculando...
Logo Alerta Mutum News