Soutenance de stage - SSP Lab & PTGU
24 septembre 2025
Le profilage vise à définir une entreprise au sens économique, et non plus seulement juridique (Unité Légale - UL).
Le but est de passer automatiquement du document brut à une table de données propre.
Cette hétérogénéité rend les approches algorithmiques classiques peu robustes.
La méthode précédente reposait sur un pipeline en plusieurs étapes :
fastText
).TableNet
: un modèle de segmentation d’image.Table Transformer
: un modèle pré-entraîné sur la reconstruction de structure.C’est l’approche Table Transformer qui a été retenue, formant la méthode finale.
La première étape est de transformer les mots en nombres que le modèle peut manipuler.
"Extraire ce tableau"
➡️ ["Extraire", "ce", "tableau"]
"anticonstitutionnel" ➡️ [anti][constitution][nel]
Chaque token est associé à un vecteur numérique de grande dimension.
Ce vecteur représente la position sémantique du token dans un espace de concepts.
"Extraire"
➡️ [0.12, -0.45, ..]
Les mots aux significations proches auront des vecteurs proches dans cet espace.
Le Transformer traite cette séquence de vecteurs.
Son innovation : le mécanisme de self-attention (auto-attention).
Pour chaque token, le modèle pèse l’importance de tous les autres tokens de la séquence pour comprendre son contexte.
Ce processus reste purement textuel et “aveugle” à la mise en page.
Comment apprendre à un modèle de langage à “voir” ?
La réponse méthodologique : traiter l’image comme une séquence de tokens, de la même manière que le texte.
Le processus se fait en 3 étapes clés :
Découpage en Patchs
L’image est découpée en une grille de petites imagettes (patches).
Vectorisation
Chaque patch est transformé en un vecteur numérique, le token visuel.
Séquençage
Le LLM traite alors cette nouvelle séquence de tokens visuels comme il le ferait pour une phrase.
La solution est bâtie sur une architecture en 3 API.
marker-pdf
: une Approche HybrideL’approche de la librairie marker-pdf
est en plusieurs temps:
Segmentation rapide par vision (Surya
)
Un modèle spécialisé délimite les blocs de contenu (tableaux, textes…).
Extraction initiale
Une première version du tableau est générée (OCR si besoin).
Correction par LLM (Gemma-3 27b it
)
Le LLM affine cette première version en la comparant à l’image.
Résultat : une combinaison de la vitesse des modèles spécialisés et de la précision du LLM.
Le processus complet, orchestré par l’API Centrale, est donc le suivant :
fastText
).marker-pdf
: Application du pipeline (Surya + Gemma-3) sur la page isolée.* Métriques qui ont changé entre les projets et qui sont complexes à analyser
Métrique | Table Transformer | Approche LLM Hybride |
---|---|---|
Taux moyen de colonnes extraites | .80 | .71 |
Taux moyen de lignes extraites | .76 | .70 |
Taux moyen de cellules num. extraites | .56 | .60* |
Taux d’extraction parfaite | .21 | .78* |
Des résultats en dessous de la méthode précédente expliqué par plusieurs facteurs
Médiane : colonnes 86% - lignes 92%
3e Quartile : colonnes 100% - lignes 100%
La majorité des erreurs se concentre sur un petit nombre de documents particulièrement complexes, expliquant la baisse des moyennes globales.