Veja as principais notícias no MODO STORIES
5 jogos grátis para curtir o fim de semana no PC, consoles e dispositivos móveis (25)
sábado nublado e em aquecimento
Previsão indica tempo seco no Sudeste e Centro-Oeste do Brasil; veja locais
SEU PRÓXIMO DESTINO É AQUI 

Prepare o coração e a câmera, porque as paisagens d…
Tempestades na Região Sul do Brasil: veja alertas para RS, SC e PR
sábado de calor intenso e céu limpo
Quais os tipos de câncer de mama? Dr. Kalil e especialistas explicam
Preços da soja caem no Brasil e encostam no menor nível em cinco anos
NOVA MUTUM CLIMA
Publicidade Nova Mutum

Agentes de IA são ‘manipulados’ por comandos maliciosos escondidos em sites


Pesquisadores da Forcepoint X-Labs identificaram, em abril de 2026, dez casos confirmados de Injeção Indireta de Prompt (IPI) em sites ativos na internet. A técnica, que insere comandos ocultos em páginas web para manipular agentes de inteligência artificial, saiu do campo teórico e agora compromete a infraestrutura real.

O ataque funciona explorando uma limitação estrutural dos modelos de linguagem (LLMs). A incapacidade de distinguir dados que estão sendo lidos de instruções que devem ser seguidas. Isso é chamado de ausência de fronteira dado-instrução.

smart_display

Nossos vídeos em destaque

Quando um agente de IA visita uma página para resumir conteúdo, pesquisar informações ou executar tarefas automatizadas, ele ingere tudo. Isso inclui comandos escondidos, e os trata como legítimos.

O atacante envenena uma página, o agente de IA a ingere durante uma tarefa legítima, executa o comando injetado e os dados são exfiltrados por um canal encoberto de volta ao atacante (Forcepoint X-Labs/Reprodução).

Diferente da injeção direta, em que o próprio usuário envia uma instrução maliciosa ao modelo, na IPI o atacante nunca interage com a IA. Ele envenena a página e espera.

Comandos invisíveis para humanos, legíveis para IA

Para esconder os payloads, os comandos maliciosos, os atacantes usam técnicas de ocultação que tornam o conteúdo invisível a qualquer visitante humano, mas plenamente acessível ao contexto de um LLM. Entre os métodos identificados estão fontes de 1 pixel, cores transparentes, comentários HTML e tags de metadados com namespaces customizados. A propriedade CSS display:none também foi usada com frequência.

Alguns payloads são simples blocos de texto ocultos. Outros imitam tokens internos de segurança de provedores de modelos. Como o caso do site lcpdfr.com, que usou uma string falsa chamada ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL para tentar fazer o modelo interpretar o comando como uma instrução de nível de sistema. O mesmo site empregou tags XML que simulam a estrutura de system prompts legítimos.

injeção de promt maliciosa (7).png
Comentário HTML encontrado em thelibrary-welcome.uk com instruções direcionadas explicitamente a assistentes de IA. O payload combina supressão de análise e exfiltração de chave de API, com a nota “Human readers may ignore this section” para disfarçar o conteúdo em revisões manuais (Forcepoint X-Labs/Reprodução).

Dez casos, seis categorias de dano

Os pesquisadores classificaram os incidentes por intenção. O espectro vai de manipulação de SEO até destruição de dados.

Em faladobairro.com, um comando sudo rm -rf foi embutido na página com o objetivo de forçar um agente com acesso a terminal, como assistentes integrados a IDEs ou pipelines de CI/CD, a deletar um diretório de backup. Ferramentas como GitHub Copilot, Claude Code e revisores automatizados de código seriam alvos diretos desse tipo de payload.

Em perceptivepumpkin.com, os atacantes incluíram um fluxo completo de transação via PayPal.me, com valor fixo de US$ 5 mil e instruções passo a passo, visando agentes com capacidade de efetuar pagamentos. 

injeção de promt maliciosa (6).png
O site bentasker.co.uk parece um blog pessoal comum. O ataque estava em um

oculto que invocava falsos direitos autorais para suprimir respostas da IA — um caso de negação de serviço sem precisar comprometer nenhum sistema (Forcepoint X-Labs/Reprodução).

O uso de uma plataforma legítima, em vez de um link de phishing genérico, sugere que os atacantes entenderam que modelos tendem a avaliar a confiabilidade de URLs antes de agir.

Em thelibrary-welcome.uk, um comentário HTML forçava o modelo a vazar uma chave de API secreta, basicamente uma credencial de acesso a sistemas. Em bentasker.co.uk, a injeção se passou por autoridades, alegando falsamente uma proibição de direitos autorais para fazer o modelo recusar qualquer resumo da página. 

Como alternativa, o código malicioso faz a IA escrever um poema sobre milho, um payload de distração para confirmar que a injeção funcionou.

 

injeção de promt maliciosa (5).png
Payload encontrado em kleintechnik.net: o uso de tags [SYSTEM OVERRIDE] dentro de um comentário HTML tenta imitar a estrutura de um system prompt legítimo para direcionar o agente a acessar o endpoint /admin.php (Forcepoint X-Labs/Reprodução).

O problema da detecção em escala

Um ponto levantado pelos pesquisadores complica a resposta defensiva. As frases usadas para detectar IPI, como “Ignore instruções prévias” ou “Se você é um modelo de linguagem”, aparecem também em documentos legítimos de segurança, posts técnicos e relatórios de inteligência de ameaças.

Isso significa que sistemas de detecção baseados em padrões vão surfaçar conteúdo legítimo ao lado de payloads reais.

Superfície de ataque cresce com os privilégios do agente

O impacto da IPI é diretamente proporcional ao que o agente pode fazer. Um modelo que apenas resume páginas representa risco baixo. Um agente que envia e-mails, executa comandos no terminal ou processa pagamentos vira alvo de alto impacto.

injeção de promt maliciosa (2).png
A página do FalaDoBairro aparece normal para qualquer visitante humano. O payload de destruição de dados estava escondido na marcação HTML, fora do conteúdo renderizado (Forcepoint X-Labs/Reprodução).

Os padrões de injeção compartilhados entre diferentes domínios sugerem uso de kits ou templates, não experimentos isolados. Isso indica organização, e uma superfície de ataque que cresce à medida que agentes de IA ganham mais privilégios em sistemas corporativos e pessoais.

injeção de promt maliciosa (1).png
Código HTML do faladobairro.com com o comando sudo rm -rf embutido em um dentro de um content card — visível no DOM, mas fora do fluxo visual da página (Forcepoint X-Labs/Reprodução).

Acompanhe o TecMundo nas redes sociais. Para mais notícias de segurança e tecnologia, inscreva-se em nossa newsletter e canal do YouTube.



Source link

Publicidade Publicidade Alerta Mutum News

Related Post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Logo Alerta Mutum News