Extraire un bulletin de paie PDF en Excel sert surtout à reconstituer, contrôler ou migrer un historique de paie lorsque les données sources ne sont plus facilement exploitables. La DSN reste produite depuis le logiciel de paie: le fichier Excel issu des bulletins aide à vérifier les salaires, les cotisations, le prélèvement à la source, les cumuls et les anomalies avant reprise ou rapprochement.
C'est la limite à garder dès le départ. Le bulletin de paie est une archive durable, lisible par le salarié, souvent conservée quand l'ancien export du logiciel n'existe plus. Mais c'est un état édité, pas la base de calcul complète. L'extraction transforme ce PDF en données de travail; elle ne reconstruit pas seule les événements, rubriques et contrôles portés par le logiciel de paie.
Cette distinction compte particulièrement pour la DSN. Selon la fiche Service Public sur la DSN, la DSN est une déclaration en ligne réalisée chaque mois à partir des données liées à la paie, et un logiciel de paie compatible avec la DSN est nécessaire. Un fichier Excel extrait de bulletins peut donc appuyer un contrôle DSN ou une reprise historique, mais il ne remplace ni le logiciel compatible, ni la déclaration officielle.
Dans un cabinet comptable, l'extraction devient utile quand un nouveau client arrive avec douze mois de bulletins PDF mais sans export propre, quand une PME change de logiciel de paie en cours d'année, ou quand un audit demande de rapprocher les bulletins réellement émis avec le journal de paie. L'objectif n'est pas de faire de l'OCR pour obtenir quelques champs isolés. L'objectif est de produire une matrice de contrôle fiable, avec assez de détail pour expliquer les écarts.
La bonne question n'est donc pas seulement: peut-on extraire les données d'un bulletin de paie? Elle est plutôt: quelles colonnes faut-il récupérer pour le contrôle à mener, et quelles limites faut-il poser avant de s'appuyer sur le fichier?
Les quatre cas où le bulletin PDF devient une source de reprise
Le premier cas est la reprise d'un dossier client par un cabinet comptable. Le client transmet souvent un classeur de bulletins PDF, parfois exportés depuis l'ancien espace salarié, sans journal de paie exploitable ni fichier salarié complet. Le cabinet doit alors reconstruire l'identité du salarié, l'établissement, la période, les grands montants et les cumuls pour comprendre l'historique avant de reprendre la production courante. Le même cabinet rencontre une problématique miroir côté achats lorsqu'il faut reprendre un historique de factures fournisseurs en lot dans Pennylane à partir de PDF accumulés, et la même logique s'applique à la consolidation mensuelle des notes de frais en Excel avec TVA récupérable et écriture en journal des OD lorsque le client transmet ses justificatifs en vrac chaque mois.
Le deuxième cas est la migration de logiciel de paie. Lorsqu'une entreprise change d'outil en cours d'année, les cumuls annuels deviennent sensibles: brut, net imposable, prélèvement à la source, cotisations, plafonds, congés, absences et avantages doivent rester cohérents après bascule. Le bulletin PDF sert alors de pièce de référence pour vérifier ce qui a été émis au salarié, même si la reprise finale doit être paramétrée dans le nouveau logiciel.
Le troisième cas est le rapprochement DSN ou cotisations. Ici, une extraction sommaire ne suffit pas. Le fichier doit permettre de comparer les bases, taux et montants par type de cotisation, d'isoler les lignes URSSAF, retraite complémentaire, prévoyance ou mutuelle, et de repérer les mois où une variation n'a pas d'explication claire. C'est le même esprit qu'un rapprochement de paie, appliqué à des bulletins archivés au lieu d'un export natif.
Le quatrième cas est l'audit interne ou la préparation d'un contrôle. Le besoin n'est pas seulement de récupérer un net à payer. Il faut documenter les anomalies: changement de taux de PAS, prime exceptionnelle, absence longue, rupture de contrat, changement d'établissement, convention collective différente, ligne de cotisation absente ou libellé modifié. Les bulletins deviennent une source de preuves, à condition que l'extraction conserve les libellés et les montants d'origine.
Les logiciels d'OCR paie promettent souvent d'extraire des champs. C'est utile, mais incomplet pour un cabinet: le niveau de détail attendu dépend du workflow. Une reprise client peut commencer par une ligne par salarié et par mois. Un contrôle DSN exige souvent une table séparée de lignes de cotisations. Une migration de paie doit surtout sécuriser les cumuls et les événements qui auront un effet sur les mois suivants.
Les colonnes Excel à extraire selon l'usage
Un fichier de reprise exploitable commence par une ligne par salarié et par période. Cette table principale sert de vue de contrôle: elle permet de trier par mois, par établissement, par salarié, puis de comparer les montants clés. La logique ressemble à celle utilisée pour extraire les notes de frais en Excel: le document d'origine reste la preuve, mais l'Excel devient l'espace de rapprochement.
Pour la table principale, les colonnes stables sont les plus importantes:
| Famille | Colonnes à prévoir |
|---|---|
| Salarié | nom, prénom, matricule si présent, numéro de sécurité sociale masqué si nécessaire |
| Établissement | société, SIRET, établissement, convention collective |
| Période | mois de paie, date de paiement, période travaillée, entrée ou sortie si visible |
| Rémunération | salaire de base, heures payées, heures supplémentaires, primes, indemnités, avantages |
| Montants de synthèse | salaire brut, net imposable, montant net social, net à payer avant impôt, net payé |
| Fiscalité | taux de prélèvement à la source, montant PAS, net imposable cumulé |
| Congés et absences | congés acquis, pris et solde, absences, arrêts, indemnités journalières si affichées |
| Cumuls | brut annuel, net imposable annuel, PAS cumulé, cumuls de cotisations lorsque le bulletin les affiche |
Cette table suffit pour une première lecture d'un historique de paie. Elle ne suffit pas toujours pour un contrôle DSN, car les lignes de cotisations portent des bases, taux et montants qui ne doivent pas être aplatis dans une seule colonne texte.
Pour un rapprochement détaillé, créez une seconde table avec une ligne par cotisation et par bulletin. Les colonnes utiles sont: salarié, période, famille de cotisation, libellé exact du bulletin, base, taux salarial, montant salarial, taux patronal, montant patronal, organisme ou sous-bloc lorsqu'il est visible. Cette table garde le détail de la santé, retraite, famille, chômage, accident du travail, CSG/CRDS, prévoyance, mutuelle et allègements.
Il faut aussi conserver les montants et libellés d'origine. Corriger un libellé dès l'extraction peut donner un fichier plus propre en apparence, mais moins défendable lors d'un contrôle. Mieux vaut ajouter une colonne de normalisation séparée si le cabinet veut regrouper plusieurs libellés équivalents, tout en gardant le texte exact lu sur le bulletin PDF.
Contrôles à faire avant de s'appuyer sur le fichier extrait
Le premier contrôle est arithmétique. Par mois et par salarié, vérifiez que le salaire brut, le net imposable, le net à payer, le montant net social et le prélèvement à la source correspondent au bulletin PDF. Un écart sur ces montants de synthèse signale soit une lecture incorrecte, soit une confusion de période, soit un bulletin qui n'a pas été intégré dans le bon mois.
Le deuxième contrôle porte sur les cotisations. Pour chaque bulletin sensible, comparez les bases, taux et montants des principales familles: santé, retraite, chômage, CSG/CRDS, prévoyance, mutuelle, accident du travail et contributions employeur. Les cotisations salariales et patronales doivent être séparées. Les regrouper trop tôt masque les écarts que le gestionnaire paie doit expliquer.
Le troisième contrôle est longitudinal. Sur douze mois, une matrice par salarié fait ressortir les ruptures de contrat, absences longues, primes exceptionnelles, changements de temps de travail, changements de taux de PAS, bascules d'établissement et variations de convention collective. Ces mouvements sont normaux lorsqu'ils sont documentés. Ils deviennent des anomalies quand le fichier extrait montre une rupture sans trace dans le dossier paie.
Le quatrième contrôle concerne la DSN. Les libellés de bulletin ne correspondent pas toujours directement aux rubriques DSN, et certaines informations déclaratives sont agrégées ou présentées différemment sur le bulletin. Le fichier extrait doit donc servir à l'analyse d'écarts et au rapprochement de paie, pas à une conversion automatique des lignes de bulletin en rubriques déclaratives.
Ajoutez enfin des colonnes de qualité: champ illisible, champ absent, montant recalculé, ligne interprétée, document source, page, commentaire du réviseur. Ces colonnes évitent de traiter tous les montants avec le même niveau de confiance. Dans une reprise cabinet ou une migration paie, une valeur douteuse doit rester visible jusqu'à validation par la personne qui connaît le dossier.
Exemple de prompt pour transformer des bulletins en matrice Excel
Le prompt doit décrire le fichier attendu, pas seulement demander une extraction. Pour une reprise client ou une migration, commencez par une table principale avec une ligne par salarié et par période. Pour un contrôle DSN ou URSSAF, ajoutez une table séparée pour les lignes de cotisations.
Vous pouvez partir de ce modèle:
Prompt
Extrais les données de ces bulletins de paie PDF dans un fichier Excel. Crée une ligne par salarié et par période de paie. Conserve les montants d'origine tels qu'ils apparaissent sur le bulletin.
Colonnes de la table principale: nom, prénom, matricule si présent, société, SIRET, établissement, convention collective, mois de paie, date de paiement, salaire brut, net imposable, montant net social, net à payer avant impôt, net payé, taux de prélèvement à la source, montant du prélèvement à la source, congés acquis, congés pris, solde de congés, primes, indemnités, absences, cumuls annuels visibles.
Si le bulletin contient des cotisations détaillées, crée aussi une table "cotisations" avec une ligne par cotisation: salarié, période, famille, libellé exact, base, taux salarial, montant salarial, taux patronal, montant patronal, organisme si visible.
Ne déduis pas une valeur absente. Si un champ est illisible ou absent, laisse la cellule vide et ajoute un commentaire dans une colonne "qualité de lecture".
Pour un fichier simple de reprise, la table principale peut suffire. Pour un rapprochement DSN, la table cotisations devient indispensable, car elle évite de mélanger retraite, santé, prévoyance, mutuelle, CSG/CRDS et contributions employeur dans une seule colonne.
Invoice Data Extraction peut servir à ce type d'extraction de données de documents financiers: l'utilisateur téléverse des PDF, JPG ou PNG, décrit les champs attendus en langage naturel, puis exporte le résultat en Excel, CSV ou JSON. Le flux accepte aussi des lots importants, jusqu'à 6 000 fichiers par session, et des PDF uniques jusqu'à 5 000 pages, mais le prompt doit rester explicite sur la structure attendue et sur le traitement des champs incertains.
Le fichier obtenu doit ensuite être relu avant toute saisie dans un logiciel de paie. Une extraction qui signale une cellule vide est plus utile qu'une extraction qui invente une valeur vraisemblable. Pour la paie, l'incertitude doit remonter dans la matrice au lieu d'être masquée.
Ce que l'Excel ne doit pas décider à la place du logiciel de paie
Un Excel extrait depuis des bulletins PDF n'est pas un système de paie. Il ne génère pas une DSN, ne valide pas les cotisations, ne décide pas de la bonne rubrique déclarative et ne remplace pas le paramétrage d'un logiciel compatible DSN. Son rôle est plus précis: rendre l'historique exploitable quand les données sources ne sont plus disponibles dans une forme propre.
La règle utile est simple. Utilisez l'Excel pour documenter les montants, rapprocher les bulletins avec le journal de paie, préparer une migration, repérer les écarts et prioriser les corrections. Faites ensuite reprendre les données validées dans le processus paie officiel, avec les contrôles du gestionnaire paie, de l'éditeur ou du cabinet selon le dossier.
Cette séparation protège le projet. Dans une migration paie, les cumuls incohérents doivent être corrigés dans le nouvel outil ou dans la reprise validée, pas seulement dans le tableur. Dans un contrôle URSSAF, une ligne de cotisation douteuse doit être reliée au bulletin source, au journal de paie et aux éléments de calcul. Dans une reprise de cabinet comptable, les champs manquants ou illisibles doivent déclencher une demande client, pas une estimation silencieuse.
Le meilleur fichier extrait est donc traçable: chaque ligne renvoie à un bulletin, chaque montant important peut être rapproché, chaque incertitude reste visible. C'est cette discipline qui transforme un stock de PDF en historique de paie exploitable, sans confondre récupération de données et production officielle de la paie.
Extract invoice data to Excel with natural language prompts
Upload your invoices, describe what you need in plain language, and download clean, structured spreadsheets. No templates, no complex configuration.
Related Articles
Explore adjacent guides and reference articles on this topic.
Importer en lot des factures fournisseurs dans Pennylane
Préparez un Excel batch de factures fournisseurs pour Pennylane : reprise historique, relevés multi-factures, scans basse résolution, dédoublonnage.
Consolider note de frais Excel : TVA, comptes 625, journal OD
Consolidez vos justificatifs mensuels en une note de frais Excel prête pour la compta : TVA récupérable par catégorie, comptes 625, journal OD, seuils 2067-SD.
Convertir un relevé Crédit Agricole PDF en Excel
Convertissez un relevé Crédit Agricole PDF en Excel ou CSV propre pour Pennylane, Cegid ou EBP, avec dates, libellés et soldes contrôlés.