Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

A Anthropic reconheceu o erro de implementar mecanismos de segurança ocultos no novo Claude Fable 5. O grande modelo de linguagem da classe do Mythos estava sabotando respostas caso percebesse que estava ajudando a desenvolver outra inteligência artificial (IA).

“Estamos implementando mudanças para tornar visíveis as salvaguardas do Fable 5 para o desenvolvimento de LLMs de fronteira”, afirmou a Anthropic em um post no X na conta ClaudeDevs (@ClaudeDevs). “A partir desta semana, solicitações sinalizadas cairão visivelmente de volta para o Opus 4.8 – o mesmo que nossas salvaguardas para cibersegurança e pesquisas biológicas. Você verá isso toda vez que isso acontecer”, complementou.

smart_display

Nossos vídeos em destaque

Ao implementar mecanismos de segurança discretos, a Anthropic queria tornar suas ativações mais direcionadas. Porém, a empresa percebeu que a transparência sobre essas barreiras é importante, e os usuários deveriam ser notificados caso sejam afetados por elas.

“Tornar as salvaguardas visíveis as torna mais fáceis de contornar, então mantê-las robustas contra jailbreaks infelizmente significará mais falsos positivos enquanto melhoramos os classificadores”, afirmou a empresa. A Anthropic também revisou os classificadores relacionados a cibersegurança e pesquisas biológicas para acionar menos em solicitações inofensivas.

Claude Fable 5 era nerfado de forma discreta

O Claude Fable 5 é uma versão do Claude Mythos com diversos mecanismos de segurança para evitar uso malicioso. Se o chatbot percebe uma solicitação potencialmente perigosa acerca de temas como cibersegurança, biologia, química e destilação, ele delega a resposta a um modelo menos poderoso, como o Opus 4.8.

No entanto, a Anthropic também incluiu freios invisíveis no comportamento do Fable 5. “Tendo em vista a capacidade dos modelos recentes de acelerar seu próprio desenvolvimento, implementamos novas intervenções que limitam a eficácia do Claude para solicitações direcionadas ao desenvolvimento de modelos de aprendizado de máquina de ponta (na construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuída ou design de aceleradores de aprendizado de máquina, por exemplo)”, explica a empresa no documento “System Card: Claude Fable 5 e Claude Mythos 5”.

Ainda no texto, a empresa ressalta que o uso do Claude para desenvolver modelos concorrentes já viola os Termos de Serviço. A Anthropic acreditava que aplicar essa restrição por meio de salvaguardas invisíveis evitaria acelerar o trabalho de quem tenta burlar esses termos.

Freios invisíveis foram alvo de críticas nas redes

A estratégia não só evitou o desenvolvimento de modelos concorrentes, mas comprometeu a pesquisa científica relacionada à inteligência artificial e aprendizagem de máquina – sem qualquer aviso ao pesquisador. Esse comportamento ganhou repercussão nas redes sociais nos nichos relacionados ao tema.

“Sinceramente, eu não usaria isso para nada. Uma recusa ou um erro HTTP-4XX para o conteúdo é aceitável, mas isso basicamente está pegando seu dinheiro e contaminando sua base de código”, afirmou um usuário no Reddit.

Quer ficar por dentro das novidades do mundo da tecnologia? Acesse o TecMundo e acompanhe as últimas notícias sobre Anthropic, Claude e inteligência artificial.

Source link

Post Views: 11

Breaking

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

Nossos vídeos em destaque

Claude Fable 5 era nerfado de forma discreta

Freios invisíveis foram alvo de críticas nas redes

By alertamutumnews

Deixe um comentário Cancelar resposta

Notícias

LEGO Batman: Legacy of the Dark Knight e mais jogos de Xbox com até 85% OFF; confira

É preciso superar polarização com união da terceira via, diz filósofo

O subestimado órgão onde a fecundação acontece (e por que ele pode falhar mesmo sem qualquer exame detectar)

Marsupilami: Confusão à Bordo: Programação e Sessões Nova Mutum – AdoroCinema

Anthropic admite que Fable 5 sabotava respostas sem aviso e revisa IA

Nossos vídeos em destaque

Claude Fable 5 era nerfado de forma discreta

Freios invisíveis foram alvo de críticas nas redes

By alertamutumnews

Related Post

LEGO Batman: Legacy of the Dark Knight e mais jogos de Xbox com até 85% OFF; confira

IA da Anthropic encontra falha em sistema de segurança testado pelo governo dos EUA

Capcom quer lançar um Resident Evil por ano e pode transformar Pragmata em franquia

Deixe um comentário Cancelar resposta

Notícias

LEGO Batman: Legacy of the Dark Knight e mais jogos de Xbox com até 85% OFF; confira

É preciso superar polarização com união da terceira via, diz filósofo

O subestimado órgão onde a fecundação acontece (e por que ele pode falhar mesmo sem qualquer exame detectar)

Marsupilami: Confusão à Bordo: Programação e Sessões Nova Mutum – AdoroCinema