PDFs concatenados: um truque simples que confunde os motores antimalware e os sistemas de IA

Por Vinh Lam, Gestor Técnico Sénior do Programa

Apr 1, 2026 Última atualização: Apr 2, 2026

Partilhar esta publicação

O perigo oculto num formato de ficheiro de confiança

Os ficheiros PDF estão entre os formatos de documento mais universalmente reconhecidos e amplamente utilizados em ambientes empresariais. São trocados diariamente por e-mail, plataformas de partilha de ficheiros e ferramentas de colaboração. Precisamente devido a essa confiança, tornaram-se um dos vetores mais frequentemente utilizados em campanhas de phishing, distribuição de malware e ataques de engenharia social.

De acordo com a Check Point Research, 22% dos ciberataques baseados em ficheiros utilizam ficheiros PDF como mecanismo de entrega, e 68% de todos os ciberataques têm origem na caixa de entrada. O que é menos conhecido é que os ficheiros PDF não são simplesmente recipientes de conteúdo visível. São documentos estruturados com uma arquitetura interna definida, e a forma como essa arquitetura é analisada varia consoante os leitores, as ferramentas de segurança e os sistemas de IA.

Esta variabilidade não é um erro. Trata-se de uma característica de conceção, e os autores de ameaças mais sofisticados aprenderam a explorá-la de formas que não requerem vulnerabilidades, kits de exploração nem ferramentas avançadas.

Compreender a estrutura do PDF

Para compreender como funciona um ataque de concatenação, é necessário compreender primeiro como os analisadores de PDF leem um documento.

Quando um leitor de PDF abre um ficheiro, segue uma sequência definida: localiza o último marcador de fim de ficheiro, lê o ponteiro startxref, utiliza-o para localizar a tabela de referências cruzadas (xref) e o trailer e, em seguida, reconstrói o documento através da resolução dos deslocamentos dos objetos. Este desenho é intencional, permitindo que os leitores localizem instantaneamente objetos em documentos de grande dimensão sem terem de percorrer todo o ficheiro.

Figura 1 — Estrutura padrão de um documento PDF: cabeçalho, corpo, tabela de referências cruzadas e rodapé

A especificação PDF também define um mecanismo denominado «Atualizações Incrementais», que permite modificar documentos sem reescrever o ficheiro na íntegra. As alterações são anexadas ao final do documento, e cada atualização adiciona novos objetos, uma nova tabela de referências cruzadas, um novo trailer e um novo marcador de fim de ficheiro.

Figura 2 — Atualizações incrementais de PDF: cada revisão acrescenta a sua própria secção de referências cruzadas, o seu próprio trailer e o seu próprio marcador EOF

Devido a esta conceção, um ficheiro PDF válido pode conter, de forma legítima, várias tabelas de referências cruzadas, vários trailers e vários marcadores de fim de ficheiro. A maioria dos analisadores modernos lida com esta estrutura de forma correta. No entanto, essa mesma flexibilidade estrutural também cria uma oportunidade concreta para a manipulação.

A técnica de concatenação

Durante uma investigação sobre segurança interna, OPSWAT que a junção de dois ficheiros PDF totalmente distintos num único ficheiro resulta num documento que diferentes analisadores interpretam de formas fundamentalmente diferentes. O que começou por ser uma curiosidade estrutural revelou uma técnica de evasão significativa e reproduzível que, até então, tinha passado praticamente despercebida. O ficheiro resultante contém duas estruturas de documento independentes, cada uma com o seu próprio cabeçalho, tabela de referências cruzadas, final de documento e marcador de fim de ficheiro.

Isto é conceptualmente semelhante às técnicas de exploração de analisadores sintáticos já observadas em ficheiros de arquivo, nas quais a ambiguidade estrutural é utilizada para ocultar conteúdo malicioso das ferramentas de segurança. No caso dos PDFs, as consequências vão mais além: não só os scanners de segurança discordam quanto ao conteúdo do ficheiro, como a versão que os utilizadores acabam por ver no seu leitor de PDF pode ser totalmente diferente da versão que foi inspecionada.

Uma vez que os diferentes leitores de PDF utilizam estratégias de análise diferentes, o mesmo ficheiro concatenado pode apresentar um conteúdo totalmente diferente, dependendo da aplicação que o abrir.

Aplicações diferentes, conteúdos diferentes

Foi criada uma demonstração de viabilidade utilizando duas secções de PDF: a primeira com instruções para desenhar um retângulo e a segunda com instruções para desenhar um círculo.

Os leitores de PDF mais comuns, incluindo o Adobe Reader, o Foxit Reader, o Chrome e o Microsoft Edge, localizam o último ponteiro «startxref» no ficheiro, que faz referência à estrutura do documento anexado (o segundo). Estes programas representam a instrução do círculo.

Figura 4 — O Adobe Reader apresenta o conteúdo do segundo documento (anexado)

O Microsoft Word e o Teams Preview aplicam uma estratégia de análise diferente e determinam a estrutura inicial do documento. Eles representam a instrução do retângulo, que o utilizador não consegue ver no Adobe Reader.

Figura 5 — O Microsoft Word e o Teams Preview mostram o conteúdo do primeiro documento (oculto)

Impacto medido na deteção de vírus

As implicações de segurança desta ambiguidade estrutural foram comprovadas através de testes diretos realizados com a plataforma OPSWAT , que agrega resultados de vários motores antivírus.

Passo 1: PDF original de phishing

Um ficheiro PDF com conteúdo de phishing e hiperligações maliciosas foi submetido a 34 motores antivírus. Oito motores identificaram corretamente o conteúdo malicioso.

Figura 6 — PDF original de phishing: 8 dos 34 motores antivírus detetaram conteúdo malicioso

Passo 2: PDF concatenado com um documento limpo anexado no início

Foi anexado um ficheiro PDF vazio e em branco ao início do ficheiro PDF de phishing, de modo a criar um documento concatenado. O ficheiro combinado foi submetido aos mesmos 34 motores.

Figura 7 — PDF concatenado: a deteção baixou para 5 em 34 motores. Três motores foram contornados através de manipulação estrutural.

A taxa de deteção baixou para 5 em 34 motores. Três motores antivírus deixaram de identificar a ameaça. A explicação mais provável é que esses motores processaram apenas a primeira estrutura do documento no ficheiro, que continha o PDF limpo, e não percorreram a segunda estrutura, onde se encontrava o conteúdo malicioso.

Do ponto de vista do utilizador, no entanto, o risco permaneceu inalterado. Quando o ficheiro concatenado foi aberto no Adobe Reader, a página de phishing foi apresentada exatamente como o atacante pretendia.

Figura 8 — O Adobe Reader exibe a página de phishing a partir do PDF concatenado. O utilizador fica exposto à mesma ameaça, independentemente dos mecanismos de segurança que a inspecionem.

Como os sistemas de IA interpretam documentos concatenados

À medida que o processamento de documentos baseado em IA se integra nos fluxos de trabalho das empresas, esta ambiguidade estrutural introduz uma categoria distinta de risco, para além da disseminação convencional de malware. As organizações recorrem cada vez mais a grandes modelos linguísticos para analisar documentos, extrair informações e apoiar a tomada de decisões. Se esses sistemas interpretarem uma versão diferente de um documento daquela que um utilizador humano vê, as consequências vão muito além de um link de phishing não detetado.

Testes realizados com o mesmo PDF concatenado demonstraram que as principais plataformas de IA interpretam o ficheiro de acordo com a mesma lógica dependente do analisador sintático observada nas aplicações de leitura tradicionais.

GPT: Interpreta a primeira secção

O GPT determinou a estrutura do primeiro documento no ficheiro e extraiu o conteúdo da secção oculta inserida no início. Leu e executou a instrução «rectangle», que não corresponde ao conteúdo visível para um utilizador que abra o ficheiro no Adobe Reader.

Figura 9 — O GPT interpreta a primeira estrutura (oculta) do documento, extraindo conteúdo invisível para os utilizadores no Adobe Reader

Gemini e Claude: Interpretar a segunda secção (visível)

Tanto o Gemini como o Claude analisaram a estrutura do segundo documento e extraíram o conteúdo de forma consistente com o que os utilizadores vêem no Adobe Reader. Embora este seja o comportamento esperado do ponto de vista da experiência do utilizador, isto demonstra que os sistemas de IA estão sujeitos às mesmas diferenças de análise estrutural que os leitores convencionais.

Figura 10 — O Gemini interpreta corretamente a estrutura do segundo documento (visível)

Figura 11 — O Claude também lê a segunda estrutura do documento (visível), em consonância com o que os utilizadores vêem

Esta discrepância tem implicações diretas em vários cenários de risco de alta prioridade:

Injeção de comandos: Um atacante insere instruções ocultas na primeira secção escondida de um PDF concatenado. O utilizador vê um documento normal. Um sistema de IA que analisa a primeira estrutura recebe comandos que se sobrepõem ao seu comportamento previsto, sem qualquer indício visível para o utilizador ou revisor.
Contaminação dos dados de treino: os documentos utilizados para ajustar ou melhorar os modelos de IA podem conter uma secção oculta que introduz conteúdo adversário no corpus de treino sem que isso seja detetado.
Falhas de conformidade e de auditoria: os sistemas de IA utilizados para a revisão de documentos, a análise de contratos ou a elaboração de relatórios regulamentares podem processar uma versão de um documento que difira substancialmente da versão analisada por advogados ou pelo pessoal responsável pela conformidade, criando uma lacuna silenciosa na governança.

Para os consultores jurídicos e empresariais, os responsáveis pela privacidade e as equipas de conformidade, o cenário em que um sistema de IA age sobre conteúdos que não foram revistos por nenhum ser humano e que nenhuma ferramenta de segurança sinalizou não é meramente teórico. A técnica de concatenação torna isso extremamente fácil de concretizar.

Como OPSWAT o ataque de PDF concatenado

Tecnologia Deep CDR™: higienização de ficheiros que elimina a ameaça antes mesmo de esta surgir

A tecnologiaOPSWAT CDR™ trata todos os ficheiros como potencialmente maliciosos. Em vez de tentar detetar padrões maliciosos específicos, a tecnologia Deep CDR™ desconstrui cada ficheiro, valida a sua estrutura interna em relação às especificações oficiais do formato, remove todos os elementos que não estão em conformidade ou que não se enquadram na política definida e regenera um ficheiro limpo e totalmente utilizável. Esta abordagem combate o ataque de PDF concatenado na sua origem estrutural.

A tecnologia Deep CDR™ previne esta técnica de ataque graças à sua capacidade de verificação da estrutura do ficheiro. Ao processar um PDF concatenado, a tecnologia Deep CDR™ identifica a anomalia estrutural: a presença de múltiplas estruturas de documentos independentes, múltiplas tabelas de referências cruzadas, múltiplos trailers e múltiplos marcadores de fim de ficheiro numa configuração que não está em conformidade com um único documento PDF válido. Em seguida, remove os elementos conflitantes e reconstrói o documento utilizando apenas a camada de conteúdo verificada e segura.

O que a tecnologia Deep CDR™ realmente elimina

A captura de ecrã seguinte, provenienteMetaDefender o resultado da análise da tecnologia Deep CDR™ para o ficheiro PDF de phishing concatenado. Com a tecnologia Deep CDR™ configurada e aplicada, o sistema identificou e tomou medidas relativamente a cada elemento que violava a estrutura de ficheiros esperada ou a política de segurança.

Figura 12 — Resultado da análise com a tecnologia Deep CDR™: 2 hiperligações removidas, 1 imagem expurgada, 3 objetos não utilizados removidos do PDF concatenado

Conforme mostrado, a tecnologia Deep CDR™ realizou as seguintes ações no PDF concatenado:

Foram removidos 2 hiperligações: as ligações maliciosas de phishing incorporadas no documento foram eliminadas antes de o ficheiro chegar ao utilizador.
Imagem 1 sanitizada: a imagem incorporada, que foi utilizada como isco visual na tentativa de phishing, foi sanitizada.
Foram removidos 3 objetos não utilizados: os objetos órfãos da estrutura do primeiro documento oculto, que já não pertenciam a nenhuma camada de documento válida, foram identificados e removidos.

O resultado final é um PDF com uma estrutura clara, que preserva o conteúdo relevante para a empresa e cumpre as verificações das especificações do formato de ficheiro. Fundamentalmente, o que o utilizador recebe, o que os motores antivírus analisam e o que qualquer sistema de IA a jusante processa são idênticos: um único documento verificado, sem estruturas ocultas, sem links maliciosos e sem objetos que violem as políticas.

Modo de higienização flexível

Em ambientes onde é necessário conciliar a usabilidade com a segurança, a tecnologia Deep CDR™ opera no Modo de Sanitização Flexível. O sistema não bloqueia o ficheiro. Em vez disso, realiza uma reconstrução estrutural: as secções do documento que causam conflito são removidas, todos os objetos ativos e potencialmente maliciosos são eliminados e é regenerado um PDF limpo e em conformidade com as políticas, que é entregue ao utilizador. A experiência do utilizador é preservada, ao mesmo tempo que a superfície de ataque é eliminada.

Relatório de Detalhes da Desinfecção

Cada ficheiro processado pela tecnologia Deep CDR™ gera um relatório de sanitização forense que documenta quais os objetos identificados, quais as medidas tomadas e porquê. Conforme ilustrado na Figura 11, este relatório fornece um registo de auditoria completo de todas as anomalias estruturais e violações de políticas tratadas. Para os responsáveis pela conformidade, os responsáveis pela privacidade e os consultores jurídicos, este relatório constitui a prova documentada de que os ficheiros que entraram no ambiente foram processados de acordo com uma política de segurança consistente e verificável, e de que qualquer desvio em relação à estrutura de ficheiros esperada foi registado e corrigido.

SandboxAdaptive : análise sensível à estrutura que não deixa pontos cegos

Enquanto a tecnologia Deep CDR™ mitiga o risco através da limpeza e reconstrução do documento, OPSWAT Adaptive Sandbox Aether) aborda o problema de um ângulo fundamentalmente diferente: realiza uma análise comportamental aprofundada de todas as estruturas possíveis do documento dentro do ficheiro. Enquanto a tecnologia Deep CDR™ elimina a ameaça antes de o ficheiro chegar ao utilizador,Sandbox Adaptive Sandbox o ficheiro num ambiente controlado e observa exatamente o que este foi concebido para fazer.

No caso de PDFs concatenados,Sandbox Adaptive Sandbox baseia numa única interpretação do analisador. Em vez disso, realiza uma análise sensível à estrutura para identificar que o ficheiro contém, de facto, vários documentos PDF válidos anexados em conjunto. Isto impede diretamente que os atacantes ocultem conteúdo malicioso por trás de inconsistências do analisador. A análise decorre em três fases:

1.Extração: Cada documento PDF incorporado é extraído individualmente da estrutura concatenada. Nenhuma camada do documento é considerada como a versão oficial. Todas as secções presentes no fluxo binário são identificadas e isoladas para inspeção independente.

2.Análise: Cada documento extraído é analisado de forma independente num ambiente emulado e controlado.Sandbox Adaptive Sandbox o conteúdo, monitoriza o comportamento em tempo de execução e deteta qualquer atividade maliciosa, incluindo chamadas de rede, execução de scripts, descarregamento de cargas maliciosas e tentativas de explorar a aplicação de renderização, independentemente da camada do documento de onde o comportamento tenha origem.

Correlacionar: Os resultados de cada análise independente são correlacionados com o ficheiro original, produzindo uma conclusão unificada que reflete a verdadeira intenção comportamental do documento concatenado completo. Os indicadores de comprometimento extraídos de cada camada são consolidados num único relatório forense, apoiando a inteligência de ameaças, a resposta a incidentes e os fluxos de trabalho do SOC.

Figura 13 — Análise aprofundada de um PDF concatenado comSandbox Adaptive Sandbox

O resultado é um panorama analítico completo, sem pontos cegos. Todos os documentos incorporados são analisados. Todas as cadeias de objetos são inspecionadas. Não há margem para artimanhas de análise sintática. Um atacante não pode contar com o facto de uma aplicação ver uma camada «limpa» enquanto uma camada maliciosa passa despercebida, porqueSandbox Adaptive Sandbox essa distinção. Ele examina tudo.

Detecção em camadas para uma defesa completa

A tecnologia Deep CDR™ eSandbox Adaptive Sandbox a ameaça dos PDFs concatenados a partir de direções opostas e, em conjunto, não deixam qualquer via de ataque viável. A tecnologia Deep CDR™ elimina a ameaça antes da entrega do ficheiro: o utilizador recebe um documento estruturalmente limpo, sem secções ocultas, sem links maliciosos e sem objetos fora da política.Sandbox Adaptive Sandbox a intenção da ameaça antes ou durante a entrega: cada camada do documento é executada, cada comportamento é observado e cada Indicador de Comprometimento é extraído e registado.

Para organizações que operam em ambientes de alto risco, esta combinação é particularmente eficaz. A tecnologia Deep CDR™ garante que os documentos que chegam aos utilizadores não possam executar lógica oculta.Sandbox Adaptive Sandbox que a intenção comportamental de cada documento, incluindo todas as camadas de um ficheiro concatenado, seja compreendida. Nenhuma das tecnologias requer conhecimento prévio da técnica de ataque específica para ser eficaz. Ambas atuam sobre a estrutura do ficheiro e o comportamento do seu conteúdo, e não com base em assinaturas conhecidas ou feeds de inteligência sobre ameaças.

Reflexões finais

A técnica de ataque por PDF concatenado ilustra uma categoria de ameaça para a qual a segurança baseada na deteção não foi concebida. Não há nenhuma assinatura de malware para localizar. Não há nenhuma vulnerabilidade para detetar. Existe apenas uma disposição estrutural de um formato de ficheiro legítimo que faz com que diferentes sistemas vejam coisas diferentes.

Para os gestores e diretores de TI, a implicação operacional é clara: as ferramentas de verificação atualmente implementadas podem estar a analisar uma versão diferente do documento daquela que os utilizadores abrem.

Para os responsáveis pela conformidade e gestão de riscos, isso implica uma lacuna na governança: a pista de auditoria relativa à segurança dos ficheiros pode não refletir o conteúdo efetivamente transmitido.

Para os executivos de topo, o risco financeiro é significativo, com o custo médio de uma violação por phishing bem-sucedida a ultrapassar agora os 4,88 milhões de dólares e os ataques que contornam os controlos padrão a figurarem entre os mais dispendiosos de resolver.

Para os consultores jurídicos e empresariais e os responsáveis pela privacidade, os sistemas de IA que atuam com base no conteúdo oculto de documentos, sem revisão humana ou visibilidade de segurança, representam um risco emergente e significativo.

A tecnologia OPSWAT CDR™ eSandbox Adaptive Sandbox esta lacuna em ambos os sentidos. A tecnologia Deep CDR™ elimina as condições estruturais que permitem a existência dessas ameaças, verificando a estrutura do ficheiro, removendo todas as secções ocultas e conflitantes do documento e regenerando um resultado limpo e verificado, garantindo assim que todos os ficheiros que entram no ambiente contêm exatamente o conteúdo que foi inspecionado.Sandbox Adaptive Sandbox que nada fica por examinar: ao realizar uma análise sensível à estrutura em todas as camadas de documentos incorporados, executando cada uma de forma independente e correlacionando os resultados com o ficheiro original, expõe a intenção comportamental das ameaças que nenhum truque de analisador sintático consegue ocultar. Em conjunto, estas tecnologias garantem que o que os utilizadores recebem é seguro e que o que os atacantes conceberam para o ficheiro fazer é totalmente compreendido.