Extraer datos de facturas PDF a Excel: guía para España

Extrae datos de facturas PDF de proveedores a Excel con OCR/IA: define las columnas (NIF, base imponible, IVA, retención IRPF) y exporta el lote.

Published
Updated
Reading Time
21 min
Topics:
Invoice Data ExtractionSpainExcelsupplier invoicesIVA

Para extraer datos de facturas PDF a Excel de forma fiable, conviene usar un extractor de IA/OCR que lea los campos de cada factura (número, fecha, NIF/CIF del proveedor, base imponible, tipo y cuota de IVA, retención IRPF y total) y que permita definir en lenguaje natural las columnas que la hoja necesita. Los conversores PDF a Excel genéricos suelen fallar cuando cada proveedor usa una plantilla distinta o cuando llegan facturas escaneadas; un extractor con IA gestiona formatos variados sin plantillas, mantiene la coherencia entre lotes y exporta una hoja lista para el libro de facturas recibidas o para la contabilidad.

Esa diferencia importa porque la mayoría de los lotes reales de facturas de proveedores en España no son una colección homogénea de PDFs nativos del mismo emisor. Son una mezcla: el PDF nativo de la operadora de telefonía, el escaneo a 200 dpi del taller mecánico, la foto de móvil que el cliente le pasó a la gestoría por WhatsApp, la factura del profesional con retención de IRPF como nota a pie, la factura de hostelería con base imponible al 21% y al 10% en un mismo documento, el abono del proveedor del mes anterior. Un conversor PDF a Excel estructural sabe extraer tablas de PDFs nativos bien maquetados; pierde el rastro en cuanto la información no está en una tabla, el documento está escaneado, hay desglose multi-IVA, o la línea con la retención aparece a media página entre dos textos.

A la hora de elegir herramienta, conviene tener clara la distinción entre tres categorías que se confunden en los buscadores. La primera es el conversor PDF a Excel estructural, que extrae tablas y texto del PDF tal y como están dispuestos en el documento; sirve para PDFs uniformes y nativos, no para facturas heterogéneas. La segunda es el OCR con plantillas por proveedor, donde se configura para cada formato dónde está el número, la fecha o el total; funciona en escenarios con muchos documentos del mismo emisor, pero exige mantener una plantilla por cada proveedor nuevo, lo que rara vez compensa fuera de cuentas con volumen muy concentrado. La tercera es el extractor con IA, que lee la factura, entiende qué campo es cada cosa con independencia de la maquetación, y permite describir en una instrucción en lenguaje natural qué columnas debe tener el Excel de salida. Solo esta tercera categoría responde a la realidad de una carpeta con facturas de proveedores variadas: el flujo es subir el lote, escribir en castellano qué datos se necesitan y con qué estructura, y descargar el Excel, CSV o JSON.

Las páginas que aparecen arriba en Google para esta búsqueda incluyen tanto conversores genéricos —que ranquean por la fuerza de marca del nicho "PDF a Excel" aunque no entiendan facturas— como productos de OCR e IA específicos para digitalizar facturas de proveedores a Excel. El resto del artículo se mueve por el flujo real, en el orden en que se hace en un escritorio real de gestoría o de administración: primero decidir las columnas, después extraer el lote, después verificar lo dudoso, y por último entregar la hoja a la gestoría o cargarla en el software de contabilidad.

Diseña primero las columnas: el esquema del Excel para facturas de proveedores en España

El paso que más diferencia un Excel utilizable de uno que hay que rehacer no es la herramienta de extracción, sino haber decidido qué columnas tiene el Excel antes de procesar el lote. Una vez procesados doscientos PDFs contra un esquema improvisado, la única salida es relanzar el lote o limpiar la hoja a mano fila por fila. Es exactamente el paso que las páginas de producto de la competencia rara vez tratan: dan por hecho un conjunto fijo de campos (proveedor, fecha, total, IVA) y se olvidan de que la contabilidad española necesita más que eso para servir a algo.

Estos son los campos que conviene tener desde el principio, con la razón por la que cada uno paga su sitio en la hoja:

  • Número de factura. Es la clave para conciliar con el extracto bancario y para detectar duplicados cuando el mismo PDF llega dos veces.
  • Fecha de factura y fecha de vencimiento. La primera fija el periodo del IVA; la segunda determina si la factura está vencida y con qué urgencia hay que pagarla. Confundirlas, o conservar solo una, vuelve la hoja inútil para tesorería.
  • Razón social del proveedor. No siempre coincide con el nombre comercial; conviene capturar la legal porque es la que aparece en el libro registro.
  • NIF/CIF del proveedor. Es el identificador con el que la contabilidad cuadra todas las facturas de un mismo emisor y el que requiere la declaración resumen anual. Sin esta columna, los modelos trimestrales se preparan a ciegas.
  • Base imponible, desglosada por tipo de IVA cuando hay varios. En una factura de hostelería, de suministros mixtos o de alimentación es habitual encontrar líneas al 21%, al 10% y al 4%. Si la hoja agrega las tres bases en una sola celda se pierde la información que necesita el Modelo 303.
  • Tipo de IVA y cuota de IVA. Una columna por cada tipo presente, o dos columnas y tantas filas como tipos haya en la factura, según se decida más abajo.
  • Retención IRPF. No aparece en todas las facturas; sí lo hace en las de profesionales —asesores, abogados, arquitectos, diseñadores—, en alquileres urbanos sometidos a retención y en actividades agrícolas. La columna debe existir aunque la mayoría de filas queden en blanco, porque sin ella las facturas con retención acaban dando el total mal.
  • Total. El importe final que el proveedor exige cobrar. Sirve para reconciliar con el banco y para detectar errores aritméticos cuando no cuadra con la suma de bases más cuotas menos retenciones.
  • Referencia o concepto. Una descripción libre que recoge la naturaleza de la compra; útil cuando hay que clasificar por categoría contable o por centro de coste.
  • Archivo origen y página. La fila debe saber de qué PDF y de qué página vino. Sin esta referencia, la verificación a escala es prácticamente inviable, como se ve más adelante.

Sobre este esquema base hay una decisión que conviene tomar antes de extraer y que define la forma de la hoja: una fila por factura o una fila por línea de detalle.

Una fila por factura es la opción adecuada cuando el destino del Excel es preparar resúmenes de IVA, alimentar el Modelo 303 o conciliar con el extracto bancario. Cada PDF se convierte en exactamente una fila, los importes que aparecen son los de cabecera, y las facturas con varios tipos de IVA se modelan con columnas pareadas (base 21% / cuota 21% / base 10% / cuota 10% / base 4% / cuota 4%) o con dos o tres filas excepcionales por factura, dependiendo de cuántos tipos haya por documento.

Una fila por línea de detalle es la elección correcta cuando el objetivo es análisis de gasto, asignación por centro de coste, control de partidas presupuestarias o revisión detallada por parte de la gestoría. Cada línea del cuerpo de la factura genera una fila; el número de factura, la fecha y el NIF del proveedor se repiten en cada una. La hoja queda más larga, pero permite agrupar por categoría, producto o servicio sin volver al PDF original.

A la hora de traducir este esquema a la instrucción que recibe el extractor, el principio es nombrar exactamente las columnas que se quieren y la regla de agrupación. Por ejemplo: "Extrae número de factura, fecha, fecha de vencimiento, razón social del proveedor, NIF/CIF, base imponible por tipo de IVA, cuota de IVA por tipo, retención IRPF, total, concepto, archivo origen y página. Una fila por factura". O bien: "Una fila por cada línea de detalle, repitiendo el número de factura y el NIF del proveedor en cada fila". Los nombres que se eligen para los campos en la instrucción se convierten en los encabezados del Excel, así que conviene escribirlos exactamente como se quiere verlos en la hoja.

Extrae el lote: formatos variables, facturas escaneadas y desgloses con varios tipos de IVA

Con el esquema decidido, el flujo en sí es corto: se sube el lote completo —PDFs, JPG, PNG, mezclados sin clasificar— a un extractor de facturas de proveedores con IA, se escribe en castellano la instrucción que describe las columnas y la regla de agrupación, se procesa, y se descarga el Excel o el CSV. No es la dinámica de pedirle a ChatGPT que mire un par de facturas en una conversación; es procesamiento en lote con salida estructurada y, sobre todo, coherente entre documentos: la columna "NIF/CIF" se llama igual y trae el dato en el mismo formato tanto en la factura uno como en la factura ochocientos. Esa coherencia es lo que diferencia esta categoría de herramienta de las herramientas generalistas con las que un asistente puede convertir tres facturas para una demostración.

Lo primero que pone a prueba al extractor es la variedad de formatos entre proveedores. Cada proveedor maqueta la factura a su manera —el total puede aparecer arriba a la derecha, abajo a la izquierda, dentro de una tabla resumen, o como dos números separados (subtotal y total con IVA)—. Un extractor con IA interpreta dónde está cada campo leyendo el documento, no buscándolo en posiciones fijas. Esto es lo que separa la categoría del OCR clásico con plantillas, donde el siguiente proveedor obliga a configurar una maquetación nueva antes de poder procesar nada. Para un buzón de cien proveedores distintos al mes, mantener cien plantillas es inviable; para diez proveedores estables del mismo emisor, la plantilla puede tener sentido. Para todo lo demás, no.

Más sorprendente para quien viene de herramientas anteriores es el caso de los escaneos y las fotos de móvil. Las gestorías reciben con frecuencia facturas en papel que el cliente ha digitalizado como ha podido: escaneos baratos a baja resolución, páginas inclinadas, fotos hechas con el móvil de una factura arrugada sobre la mesa, capturas de pantalla recortadas de una imagen recibida por WhatsApp. Un extractor con IA gestiona estos casos sin necesidad de un paso de OCR separado: el modelo lee la imagen directamente. Conviene decirlo honestamente: la calidad mínima sigue importando. Si el texto es ilegible al ojo humano —porque la foto está movida, porque el escáner perdió la tinta del recibo térmico, porque la página está tan inclinada que las cifras se cortan—, también va a serlo para la IA. La frontera práctica es: "si yo puedo leerlo con esfuerzo, la herramienta puede leerlo bien"; por debajo de esa línea, el escaneo conviene rehacerlo.

Después vienen los desgloses multi-IVA dentro de una sola factura. Una factura de hostelería para un evento puede traer la comida al 10%, las bebidas alcohólicas al 21% y el alquiler del local al 21% sin ser el mismo concepto que el catering; una factura de un proveedor de alimentación puede tener producto al 4%, al 10% y al 21% en líneas distintas. El extractor debe producir las bases y las cuotas separadas por tipo, no agregarlas en una sola celda. La forma de pedirlo en la instrucción es explícita: "Si la factura tiene varios tipos de IVA, devuelve la base imponible y la cuota de cada tipo en columnas independientes (base 21%, cuota 21%, base 10%, cuota 10%, base 4%, cuota 4%)". Cuando la instrucción no menciona el caso, los extractores tienden a sumar y se pierde la información que el Modelo 303 va a pedir más adelante.

La retención de IRPF en facturas de profesionales y de alquileres aparece de tres formas distintas en el documento: como una línea separada con su porcentaje y su importe; como una nota a pie de factura ("Retención IRPF 15% aplicada"); o aplicada silenciosamente en el cálculo del total, dejando solo el importe líquido. La instrucción debe pedir la columna de retención de forma que admita el valor vacío cuando la factura no tiene ninguna —el supermercado no aplica retención—, distinguiendo "no aplica" de "aplica y vale cero". Una formulación que funciona: "Extrae el importe de la retención de IRPF cuando aparezca en la factura. Si la factura no incluye retención, deja la celda vacía; no rellenes con cero".

Quedan las facturas rectificativas, comúnmente llamadas abonos. Mezcladas con las facturas ordinarias en el mismo lote, conviene que la hoja las identifique para que la suma de la columna "Total" siga teniendo sentido. La instrucción puede pedir que el extractor las marque, prefijando el número con "ABONO-" o "RECT-", e invirtiendo el signo de la base, la cuota y el total: "Si el documento es una factura rectificativa o abono, prefija el número de factura con 'ABONO-' y muestra base, cuota y total con signo negativo". Sin esta indicación, las rectificativas suelen aparecer en positivo y la hoja deja de cuadrar con el extracto bancario.

Frente a estos cinco casos, las dos alternativas a un extractor con IA quedan rápidamente acotadas. El OCR con plantillas es viable únicamente cuando hay un proveedor de muy alto volumen y formato estable que justifique configurar y mantener una plantilla dedicada; deja de tener sentido en cuanto el catálogo de proveedores es heterogéneo. Los conversores PDF a Excel estructurales —los de marca conocida que aparecen arriba en los buscadores— extraen tablas pero no entienden el documento, así que devuelven datos vacíos o fragmentados en cualquier factura que no esté maquetada como una hoja Excel ya hecha.

Para automatizar la entrada de facturas en Excel a partir de un lote heterogéneo, la instrucción de extracción acaba pareciéndose a la siguiente:

"Extrae los siguientes campos de cada factura de proveedor: número de factura, fecha, fecha de vencimiento, razón social del proveedor, NIF/CIF, base imponible y cuota de IVA por cada tipo presente en la factura (21%, 10%, 4%), retención IRPF, total, concepto, archivo origen y página. Una fila por factura. Si la factura tiene varios tipos de IVA, devuelve cada base y cuota en columnas independientes. Si no hay retención, deja la celda vacía; no rellenes con cero. Si el documento es una factura rectificativa, prefija el número con 'ABONO-' y muestra los importes con signo negativo. Ignora portadas de correo electrónico, hojas resumen y avisos de remisión."

Esa instrucción se escribe una vez, se guarda, y se reutiliza mes a mes contra el lote del periodo en cuestión. Cuando hay que extraer datos de facturas escaneadas a Excel o cuando el lote llega con calidades muy variadas, la misma instrucción sirve sin cambios; el extractor se encarga de tratar cada documento según lo que encuentra dentro.

Verifica los campos ambiguos antes de pasar el Excel a contabilidad

Cualquier extractor automatizado se equivoca alguna vez. La diferencia entre una herramienta utilizable y una herramienta peligrosa no es que no falle nunca, sino lo rápido que se pueden encontrar los fallos cuando ocurren. Un error que se cuela en el libro de facturas recibidas o en el Modelo 303 cuesta más tiempo de corregir que de prevenir, sobre todo si se descubre meses después en una conciliación o, peor, en un requerimiento. Por eso la verificación es un paso de primera clase del flujo y no un detalle final; saltársela en lotes grandes es lo que diferencia a una gestoría que se fía del Excel de una que no se atreve a pasarlo sin volver a abrir cada PDF.

Hay siete puntos concretos en los que conviene mirar antes de dar la hoja por buena. Todos son casos donde un extractor competente acierta la mayoría de las veces, y todos son casos donde, cuando se equivoca, el error tiene consecuencias contables reales:

  • Base imponible confundida con total. Sucede sobre todo en facturas con un único tipo de IVA donde el formato pone ambos importes muy próximos, o donde el "total" aparece arriba como subtotal y abajo como total con IVA. El síntoma es una factura cuya cuota de IVA implícita (total menos base) no encaja con el tipo declarado.
  • Retención de IRPF ausente cuando debería estar. Las facturas de asesores, abogados, arquitectos, diseñadores y otros profesionales sometidos a retención que aparecen sin la columna rellena son sospechosas por defecto. También las facturas de alquiler urbano cuando el arrendatario está obligado a retener.
  • Retención de IRPF presente cuando no debería. El caso inverso: una factura de supermercado o de un proveedor de suministros con un valor en la columna de retención casi siempre es una mala interpretación de algún recargo o descuento del documento.
  • Facturas multi-IVA con un tipo perdido. Si la factura del proveedor declara base al 21%, al 10% y al 4%, la hoja debe traer las tres bases y las tres cuotas. Una factura con solo dos tipos extraídos cuando el PDF contiene tres es un error silencioso: la fila cuadra aparentemente, pero el Modelo 303 va a ir mal.
  • NIF/CIF con formato anómalo. Las letras intracomunitarias (ES seguido del NIF), los NIE, los NIF sin letra final o con letra cambiada son los casos típicos. Conviene una columna calculada que valide el formato y resalte las filas con NIF sospechoso.
  • Totales que no cuadran con la suma de bases más cuotas menos retenciones. Es la verificación aritmética más barata y la que más errores detecta. Una diferencia de céntimos suele ser redondeo del proveedor; una diferencia más grande es una extracción mal hecha.
  • Facturas rectificativas tratadas como ordinarias. Si la columna de tipo de documento o el prefijo de número no marca el abono, los importes positivos van a inflar artificialmente el resumen del periodo.

El método práctico para encontrar estos casos sin abrir cada PDF descansa en una cosa: la fila del Excel tiene que enlazar al archivo de origen y a la página exacta de donde salieron los datos. Cada fila del Excel debería incluir una referencia al archivo y página origen para que, cuando una columna calculada destaque una anomalía —cuota implícita inconsistente con el tipo, total que no cuadra, NIF mal formado—, el revisor pueda abrir el PDF original en el dato concreto en segundos. Sin esta referencia, verificar a escala obliga a buscar manualmente el documento entre cientos de PDFs, y la mayoría de equipos termina saltándose la revisión.

Un protocolo razonable para un lote mensual de cien o doscientas facturas se puede plantear en quince minutos: ordenar la hoja por las columnas que destacan anomalías —diferencia entre total y suma calculada, retención presente, número de tipos de IVA distintos por factura, formato de NIF inválido—, revisar solo las filas que sobresalen, corregir manualmente las que lo necesitan dejando rastro en una columna de "Revisado" con la fecha, y aceptar el resto sin volver a tocarlas. Es la diferencia entre auditar el cien por cien de la hoja y auditar el cinco o el diez por ciento que realmente lo necesita.

Un detalle adicional que vale la pena buscar al elegir herramienta: que el extractor deje notas explicativas sobre las decisiones que ha tomado en los casos ambiguos. Cuando una factura se ha clasificado como rectificativa por el contexto, cuando un campo dudoso se ha asignado a una columna determinada porque otra interpretación era menos probable, o cuando hay páginas que se han identificado como hojas resumen y descartado, conviene saberlo. Las notas no eliminan la verificación, pero la guían al sitio donde el extractor mismo dudó.

Del Excel a la gestoría, al libro de facturas recibidas y a la contabilidad

El Excel verificado tiene tres destinos típicos en la práctica diaria, y conviene tenerlos a la vista al elegir el esquema y la herramienta de extracción.

El primero es el envío a la gestoría como entrega mensual o trimestral. Para muchos autónomos y pymes, el flujo termina en un correo con la hoja adjunta y una carpeta comprimida con los PDFs originales; la gestoría se encarga del resto. Aquí lo que importa es que las columnas del Excel coincidan con lo que la gestoría espera —cada despacho tiene sus pequeñas preferencias— y que cada fila se pueda rastrear al PDF que la generó, por si surge una duda al volcar los datos.

El segundo es la carga directa en un software de contabilidad o ERP. Sage, Holded, Contasimple, A3 o Quipu, entre otros, permiten importar Excel o CSV con un mapeo de columnas a campos contables. Algunos digieren el .xlsx sin problemas; otros prefieren el CSV plano, sobre todo cuando hay celdas con formato o múltiples hojas. Conviene que la herramienta de extracción permita exportar facturas a CSV España con el separador y la codificación adecuados (típicamente UTF-8 con punto y coma como separador para evitar conflictos con las comas decimales del español), porque ahorra una conversión intermedia que casi siempre rompe algo.

El tercero es el uso interno por parte de la propia gestoría que procesa los lotes de cliente. Para una asesoría con cartera amplia, el OCR de facturas para gestoría no es un fin en sí mismo: la hoja extraída es el material de partida para armar el libro registro de facturas recibidas del cliente, que es el registro legal exigido por la normativa de IVA, y para preparar el Modelo 303 a partir de las facturas recibidas cada trimestre. El desglose por tipo de IVA y la columna de retención de IRPF del Excel se traducen directamente a las casillas correspondientes del modelo; cuando esos datos están bien capturados desde la extracción, el resto del proceso de pasar facturas a Excel y volcarlas a contabilidad es mecánico. Cuando no lo están, hay que volver a las facturas.


La factura electrónica obligatoria entre empresarios: por qué el PDF sigue siendo el flujo real

España avanza hacia la factura electrónica obligatoria entre empresarios y profesionales, en desarrollo de la Ley Crea y Crece, con un calendario de aplicación escalonado en función del tamaño de cada empresa o profesional. Conviene tener clara la fecha porque cambia, en algún momento, la composición del buzón.

Según la nota informativa de la Agencia Tributaria sobre el Real Decreto 238/2026, el Real Decreto 238/2026, que desarrolla el sistema español de factura electrónica obligatoria entre empresarios y profesionales, se aplicará a los doce meses de la entrada en vigor de la orden ministerial solo para empresarios y profesionales con un volumen de operaciones superior a 8 millones de euros, y a los veinticuatro meses para el resto.

Aun así, la extracción de PDFs e imágenes sigue siendo el flujo real para casi todos los lectores ahora mismo, y va a seguir siéndolo durante el despliegue. Dos razones. La primera es que el calendario es gradual: las empresas y profesionales con un volumen por debajo de los ocho millones de euros tienen dos años desde la entrada en vigor de la orden, así que durante un tiempo largo el buzón típico va a seguir siendo mayoritariamente PDF. La segunda es que, durante los primeros doce meses de obligación, incluso quienes ya emiten factura electrónica deben acompañarla de un PDF; esto significa que, incluso cuando los proveedores grandes empiecen a enviar la versión electrónica, va a llegar también el PDF del que se ha venido extrayendo siempre.

El régimen completo —ámbito subjetivo, plataformas autorizadas, requisitos de interoperabilidad, formato del XML, plazos de notificación de pago— excede el alcance de un artículo sobre cómo pasar facturas a Excel.


Casos vecinos: facturas Facturae XML y facturas dominicanas

Dos casos quedan fuera del flujo de extracción de PDFs a Excel y conviene apuntarlos para quien haya llegado hasta aquí buscándolos.

Para el lector que recibe facturas en formato Facturae XML —típicamente porque sus proveedores ya facturan a las Administraciones Públicas y usan el mismo formato con el resto de clientes—, el trabajo no es OCR sino consumo de un archivo estructurado: hay una página específica sobre cómo procesar facturas Facturae XML recibidas.

Para el lector hispanohablante de República Dominicana cuya operativa gira en torno a NCF, RNC, ITBIS y el Formato 606, el contexto fiscal cambia lo suficiente como para que el esquema y la verificación se hagan de otra manera; ahí lo útil es seguir leyendo la guía para extraer facturas dominicanas a Excel.

Extract invoice data to Excel with natural language prompts

Upload your invoices, describe what you need in plain language, and download clean, structured spreadsheets. No templates, no complex configuration.

Exceptional accuracy on financial documents
1–8 seconds per page with parallel processing
50 free pages every month — no subscription
Any document layout, language, or scan quality
Native Excel types — numbers, dates, currencies
Files encrypted and auto-deleted within 24 hours
Continue Reading