Extrair Dados de Faturas PDF para Excel: Guia Portugal

Extraia dados de faturas PDF para Excel com IA/OCR: defina as colunas (NIF, base tributável, taxa e valor de IVA, total, ATCUD) e exporte o lote.

Published
Updated
Reading Time
13 min
Topics:
Invoice Data ExtractionPortugalExcelsupplier invoicesPDF extractionIVA

A forma prática de extrair dados de faturas PDF para Excel é usar um extrator com IA/OCR que lê os campos do fornecedor (NIF e nome), o número e a data da fatura, a base tributável, a taxa e o valor de IVA, o total e as linhas, e exporta o lote para Excel ou CSV com as colunas que definir. Este fluxo é distinto do SAF-T PT de Faturação, que é um ficheiro XML estruturado exportado pelo sistema de faturação do emitente — se o que tem em mãos é um SAF-T, o caminho passa por extrair dados do SAF-T PT de faturação para Excel. Este artigo trata do caso muito mais comum: uma pasta de faturas de fornecedores em PDF (nativas, digitalizadas ou fotografadas) que precisa de ser transformada num registo de compras.

O leitor típico é um contabilista certificado, um responsável financeiro ou administrativo numa PME, ou um pequeno empresário que recebe faturas de muitos fornecedores e precisa de levar esses dados para Excel — para papéis de trabalho, cruzamento com o e-Fatura, declaração periódica de IVA ou importação para o software de contabilidade.

Ter os dados das faturas em forma estruturada não é um detalhe administrativo. Em Portugal, os emitentes são obrigados a comunicar os elementos das faturas à AT até ao dia 5 do mês seguinte ao da sua emissão; do lado de quem recebe, ter os dados das faturas numa folha em Excel é o que permite confrontar o que ficou registado com o que está visível no e-Fatura, isolar divergências antes do fecho mensal e preparar as deduções de IVA sem voltar a abrir cada PDF.

As colunas que uma folha de compras em Portugal precisa de ter

Antes de chamar a IA, decida-se a folha. A arquitetura do registo de compras é a decisão mais importante deste fluxo, porque tudo o que vem depois — o prompt, a granularidade, a revisão — decorre dela. Para uma equipa de contabilidade em Portugal a extrair faturas de fornecedores para Excel, há um esquema-base que cobre o que é preciso para conferir, contabilizar e declarar:

  • NIF do fornecedor — identifica univocamente o emitente e é a chave para validar o fornecedor contra a base do e-Fatura e contra o cadastro contabilístico.
  • Nome do fornecedor — preferencialmente a designação legal completa que aparece na fatura, não o nome comercial.
  • Número da fatura — único por emitente, liga o registo à fatura física no e-Fatura e ao lançamento contabilístico.
  • Data de emissão — define o mês em que a fatura entra na declaração periódica e o exercício a que pertence.
  • Data de vencimento — alimenta a gestão de tesouraria e o aging de contas a pagar.
  • Base tributável — o valor antes de IVA; entra como custo na contabilidade e como base no campo correspondente da declaração de IVA.
  • Taxa de IVA — reduzida, intermédia, normal, ou zero (isento, autoliquidação); a separação por taxa é o que torna a folha utilizável a jusante.
  • Valor de IVA — o montante de imposto liquidado; a coluna de IVA dedutível assenta diretamente aqui.
  • Total — útil para conferência rápida e para conciliar com a referência de pagamento.
  • ATCUD — o código único do documento, presente nas faturas portuguesas; serve para validar a integridade e a autorização do documento recebido.
  • Código QR — os campos extraídos quando o QR está legível na fatura, úteis como prova adicional de autenticidade.
  • Referência de pagamento (IBAN ou referência multibanco) — o que a tesouraria precisa para liquidar.
  • Linhas (descrição, quantidade, preço unitário, IVA por linha) — quando o objetivo passa por análise de custos detalhada ou faturas multi-taxa.
  • Ficheiro e página de origem — referência ao PDF original e à página exata, o que torna possível voltar à fonte sem perder tempo.

A decisão fundamental do esquema é manter a base tributável, a taxa de IVA e o valor de IVA em três colunas separadas, em vez de guardar apenas o total. Uma folha que só traga o total é praticamente inútil para um contabilista português: não permite a desagregação por taxa que a declaração periódica exige, não deixa calcular o IVA dedutível em separado, e obriga a voltar ao PDF cada vez que algo precisa de ser conferido. Extrair NIF e IVA de faturas para Excel sem essa desagregação é meio caminho andado.

O esquema serve de ponto de partida. Muitas equipas acrescentam uma coluna de centro de custo, conta SNC, projeto ou tipo de despesa, consoante o destino dos dados. O importante é que a estrutura mínima já cobre conferência, declaração periódica e importação contabilística; o resto é específico do plano de contas e do software que recebe a folha.

Faturas com várias taxas de IVA na mesma fatura, ou com isenções e autoliquidação, exigem extensões a este esquema, situações tratadas mais à frente.

Uma linha por fatura ou uma linha por linha de fatura

Definidas as colunas, a próxima decisão é a forma da folha: cada fatura ocupa uma linha (cabeçalho), ou cada linha da fatura ocupa uma linha (detalhe). A escolha muda o prompt e muda o número de linhas que sai do lote.

Uma linha por fatura. A folha consolida cada documento num registo único — NIF, número, data, base, taxa e valor de IVA, total. É a forma natural para conciliar com o e-Fatura, calcular o IVA dedutível por taxa e importar para a contabilidade ao nível do documento. Quando a fatura tem uma única taxa de IVA, o cabeçalho cobre tudo o que é preciso.

Uma linha por linha de fatura. A folha abre cada item: descrição, quantidade, preço unitário, IVA por linha, com o número da fatura, o NIF e a data repetidos em cada linha. É o que se quer para análise de custos por categoria, alocação a centros de custo ou projetos, e tratamento limpo de faturas com várias taxas de IVA dentro do mesmo documento.

Critério prático: para o cruzamento com o e-Fatura ou para alimentar a declaração periódica de IVA, o cabeçalho chega na maior parte dos casos. Para rateio por projeto, análise de despesas por categoria, ou faturas com taxas mistas que precisam de ser tratadas item a item, vale a pena descer ao detalhe. Equipas de contabilidade mais maduras mantêm os dois — cabeçalho para a importação contabilística, detalhe para análise — e isso resolve-se com dois prompts, ou com um único prompt que produza as duas folhas. Em qualquer dos casos, a escolha tem de ser explícita; a IA não decide por si só qual é a granularidade certa para o destino dos dados.

Para faturas com várias taxas de IVA dentro do mesmo documento, mesmo no modelo de cabeçalho, há duas saídas: desagregar a fatura em várias linhas de cabeçalho (uma por taxa, repetindo número e NIF) ou ir diretamente para o nível da linha de fatura. Não há vantagem em forçar uma fatura multi-taxa para uma única linha — perde-se exatamente a desagregação que a folha precisa de levar a jusante.

Como construir o prompt em português para essas colunas

Definido o esquema e a granularidade, o resto do fluxo é curto, em quatro passos:

  1. Recolher os PDFs (nativos, digitalizados ou fotografados) numa pasta única.
  2. Abrir um extrator de dados de faturas com IA e carregar o lote.
  3. Escrever o prompt em português a pedir exatamente as colunas e o nível (cabeçalho ou linha) definidos antes.
  4. Exportar o resultado como Excel ou CSV.

O trabalho concentra-se no terceiro passo; os outros três são mecânicos.

O Invoice Data Extraction segue o padrão de interação a que qualquer pessoa que tenha usado o ChatGPT ou o Claude está habituada: um campo único de prompt com uma área de upload por cima, sem modelos a configurar nem regras a definir antes do primeiro lote. O mesmo prompt serve para dez faturas ou para dez mil — a plataforma aceita lotes até 6000 ficheiros mistos (PDF, JPG, PNG) por trabalho e ficheiros PDF até 5000 páginas, e exporta em Excel (.xlsx), CSV ou JSON.

Um prompt curto a pedir o esquema-base, em modo de cabeçalho, pode ser:

Extrai uma linha por fatura com as seguintes colunas: NIF do fornecedor, Nome do fornecedor, Número da fatura, Data de emissão, Data de vencimento, Base tributável, Taxa de IVA, Valor de IVA, Total, ATCUD (se visível), Referência de pagamento.

Formatos:

  • datas no formato YYYY-MM-DD
  • valores com ponto como separador decimal
  • Taxa de IVA como percentagem (formato Excel)

Se um campo estiver ambíguo ou ausente na fatura, deixa-o em branco e regista a página de origem nas notas.

O prompt é ilustrativo, não exaustivo. Numa folha de detalhe (linha de fatura), o mesmo padrão funciona, acrescentando descrição, quantidade, preço unitário e IVA por linha, e instruindo que o número da fatura, NIF e data sejam repetidos em cada linha. A IA segue as instruções à letra e, em paralelo, analisa as próprias faturas para resolver campos que não estejam explícitos no prompt — pode-se ir mais ou menos detalhado consoante o controlo que se quer manter.

O fluxo prompt-based contrasta com as três alternativas que dominam pesquisas semelhantes. Os conversores genéricos de PDF para Excel devolvem uma renderização da página em células — cabeçalhos visuais, espaços em branco, tabelas partidas — em vez de um registo de compras com colunas nomeadas. Os serviços a orçamento de OCR de faturas implicam ciclos comerciais antes de se ver a primeira folha. As suítes completas de automação de contas a pagar resolvem problemas para lá da folha de cálculo — fluxos de aprovação, integração com ERP, gestão de pagamentos — que raramente fazem sentido para uma equipa que só precisa de converter fatura PDF para Excel todos os meses. No fim, o prompt-based devolve a folha pretendida com o trabalho que é genuinamente necessário, decidir as colunas, e nada mais.

Para o trabalho recorrente — o lote mensal das mesmas dezenas de fornecedores — o prompt pode ser guardado numa biblioteca pessoal ou de equipa e reaplicado mês a mês, sem reescrever instruções. Quando entra um fornecedor novo no perímetro, basta acrescentá-lo ao mesmo prompt.

Rever ambiguidades e tratar faturas mais complicadas

A folha sai do extrator quase sempre limpa, mas "quase sempre" não chega. O passo de revisão começa no momento em que se abre o ficheiro: a folha resultante deve trazer, em cada linha, a referência ao ficheiro de origem e ao número da página, o que permite saltar imediatamente ao PDF para validar totais ambíguos, taxas de IVA fora do esperado ou NIFs que pareçam incompletos. No Invoice Data Extraction cada linha do output traz esta referência de origem por defeito, e o painel sinaliza os ficheiros ou páginas que tenham falhado o processamento. É esta ligação ao documento original que distingue um fluxo defensável de um fluxo cego — qualquer auditor pede o salto à fonte.

A revisão concentra-se nos campos que historicamente dão problemas: o total quando há descontos comerciais aplicados em mais do que uma linha, a taxa de IVA em faturas com várias taxas, e o NIF quando aparece em rodapés muito pequenos ou esbatidos. Dez minutos de revisão amostral num lote de cem faturas chegam, na maior parte dos casos, para validar o lote ou identificar um padrão a corrigir no prompt.

ATCUD e código QR. Quando estes campos estão legíveis na fatura, podem ser extraídos como colunas adicionais e usados para validar o ATCUD e o QR Code das faturas recebidas. É um passo opcional, mas valioso para um arquivo de compras que vai servir de prova em fiscalizações: o ATCUD é o identificador único do documento e o QR concentra os dados essenciais da fatura num único campo verificável.

Faturas digitalizadas ou fotografadas. PDFs nativos com texto selecionável extraem-se com maior fiabilidade. Faturas digitalizadas (qualidade variável, rotações, fundo sujo) e fotografias do telemóvel dependem do OCR do extrator. Antes de processar todo o histórico, faz sentido correr um lote de teste com uma amostra do fornecedor problemático, conferir a precisão e ajustar o prompt; instruções como "se a taxa de IVA não estiver legível, regista a página e deixa em branco" reduzem o ruído de campos assumidos por engano.

PDFs multi-página e multi-fatura. Muitos fornecedores enviam um único PDF com várias faturas concatenadas, intercaladas por avisos de receção ou folhas de resumo. O prompt deve indicar explicitamente que cada fatura distinta gera o seu próprio registo (linha de cabeçalho ou conjunto de linhas de detalhe) e que páginas de capa, avisos de receção e folhas de resumo devem ser ignoradas. Um extrator competente identifica os limites de cada fatura mesmo quando o PDF tem rolagem contínua de páginas de linhas, e filtra automaticamente as páginas que não são parte do documento fiscal.

Isenções e autoliquidação. Faturas isentas (artigo 9.º do CIVA, regime de bens em segunda mão e outros regimes especiais) e faturas em autoliquidação (reverse charge, comum em subempreitadas e em aquisições intracomunitárias de bens e serviços) levam taxa de IVA igual a zero, mas com menção legal específica que muda o tratamento na declaração periódica. O prompt deve pedir uma coluna adicional para esse motivo legal ou regime — algo como "Motivo de isenção ou regime de IVA: extrair a menção legal exata da fatura, se presente" — ou no mínimo distinguir uma fatura isenta de uma fatura simplesmente sem IVA. Sem isto, a declaração periódica perde o enquadramento e a equipa volta a abrir o PDF.

Faturas multi-taxa. Confirme, ao rever as primeiras faturas multi-taxa do lote, que a soma das bases por taxa bate certo com o total da fatura — é o sinal mais rápido de que a desagregação correu bem.

O que faz a folha de Excel depois de pronta

A folha não é o fim do trabalho; é o ponto a partir do qual a equipa de contabilidade volta a ter trabalho fácil. Três destinos cobrem a maior parte dos casos.

Cruzamento com o e-Fatura. Com NIF do fornecedor, número da fatura, data e total numa folha estruturada, a conciliação com o que está comunicado no portal do e-Fatura é uma ação direta: filtrar por mês, ordenar por NIF, identificar faturas em falta ou divergências de total, e tratá-las pontualmente. Sem a folha, esta conciliação faz-se documento a documento.

Declaração periódica de IVA. Ter base tributável, taxa e valor de IVA separados por fatura (ou por linha) deixa a folha pronta a alimentar os campos da declaração periódica, com a desagregação por taxa já resolvida. O artigo dedicado cobre o passo a passo de preparar a declaração periódica de IVA a partir das faturas recebidas.

Importação para o software de contabilidade. Primavera, Sage, PHC, Moloni, Toconline e outros aceitam importações em CSV ou Excel desde que as colunas estejam normalizadas e os tipos corretos (datas como datas, valores como números). O esquema definido no início do artigo já contempla isto; quando muito, acrescenta-se a conta SNC por linha do prompt ou por VLOOKUP a partir do NIF do fornecedor.

Para passar faturas em PDF para Excel todos os meses, com o prompt já guardado, o ciclo reduz-se a três ações: carregar o lote, executar a tarefa, exportar. O trabalho intelectual ficou feito no primeiro mês, e os meses seguintes herdam essa decisão.

Extract invoice data to Excel with natural language prompts

Upload your invoices, describe what you need in plain language, and download clean, structured spreadsheets. No templates, no complex configuration.

Exceptional accuracy on financial documents
1–8 seconds per page with parallel processing
50 free pages every month — no subscription
Any document layout, language, or scan quality
Native Excel types — numbers, dates, currencies
Files encrypted and auto-deleted within 24 hours
Continue Reading