Extraction de données chiffrées et text-mining à l’échelle industrielle dans le cadre du projet INPI RNCS

Extraction de données, Technologie, DAF, Pulse LinkedIn, Service public, Témoignage

Extraction de données chiffrées et text-mining à l’échelle industrielle dans le cadre du projet INPI RNCS

L’Institut National de la Propriété Industrielle (INPI), qui assurait historiquement un rôle de centralisation et de conservation de l’archive numérique de ces Comptes Annuels au format image (PDF), s’est vu assigner par La loi Macron une mission complémentaire d’extraction et de diffusion des données extraites.

Un projet massif et exigeant

Les Comptes Annuels déposés auprès des greffes se présentent sous forme de liasses de documents comptables et fiscaux. La pagination moyenne est de 20 pages, mais peut atteindre plusieurs centaines de pages. Outre les données globales qui identifient l’entreprise et la nature du dépôt, seuls les états financiers (de 2 à 9 selon les cas) sont concernés par le processus d’extraction. Mais leur forme et leur position dans la liasse est éminemment variable, ce qui nécessite l’examen de l’ensemble de la liasse.

Numen traite ainsi quotidiennement 3000 à 6000 liasses, totalisant plus de 100 000 pages. Le délai de restitution des comptes en format structuré est de 15 jours, mais la forte variabilité du volume des réceptions quotidiennes impose de maintenir un volant d’amortissement de plusieurs jours de production afin d’éviter les ruptures de charge. En pratique, les liasses sont traitées en 4 à 5 jours, dans un workflow entièrement automatisé qui compte une vingtaine d’étapes.  

Automatisation, collaboration homme/machine et taylorisation des tâches

La diffusion du RNCS en Open Data est une évolution très récente. Pour alimenter les acteurs de l’analyse financière, divers prestataires spécialisés assurent depuis plusieurs années ce travail d’extraction de données, le plus souvent selon une approche classique : on confie à un opérateur unique, doté de connaissances comptables, l’analyse de l’ensemble d’une liasse et la saisie clavier des données chiffrées dans un formulaire structuré.

Fort de son expérience en numérisation patrimoniale sur fonds d’archives dégradés, Numen a fait le pari d’une automatisation maximale pour toutes les phases du processus d’extraction des Comptes Annuels, qui contraste avec la pratique habituelle :

  • Identification et classification automatique des états financiers au sein d’une liasse (phase de typage)
  • Repérage des postes comptables vis-à-vis de la nomenclature comptable (phase de repérage)
  • Extraction des montants (phase d’extraction).
  • Application des règles métier de cohérence entre montants, et pose de doutes le cas échéant (phase de contrôle)

Un tel découpage en étapes a pour effet de stratifier les besoins en expertise métier de la part des opérateurs : ainsi, le déchiffrage d’un montant difficile à lire pour l’OCR ne requiert pas d’expertise particulière (tout œil humain excelle à cet exercice), alors que l’analyse d’une ventilation atypique de sous-postes comptables demande des connaissances spécialisées. Pour gagner en productivité, Numen pousse la logique jusqu’à spécialiser les opérateurs par type d’état financier pour la phase de contrôle du « repérage » des lignes comptables : ceci implique une déstructuration temporaire des liasses et un traitement transverse par lots d’états similaires, issus de liasses distinctes.

L’ensemble des chaînes de capture et d’extraction de données Numen s’appuie sur ces principes de collaboration homme-machine : ceux-ci constituent la trame conceptuelle de la plateforme Numen d'extraction de données.

Text-mining et extraction de données chiffrées 

60% environ des états financiers sont disponibles en tant qu’éléments de la Liasse Fiscale, sous la forme normalisée CERFA selon un certain nombre de modèles dûment répertoriés. Les 40% restants se présentent sous forme de tableaux Excel construits d’après la nomenclature du Plan Comptable (système de base ou système abrégé) mais selon une présentation relativement libre.

Les méthodes de repérage automatique des postes comptables par approche géométrique zonale étant ici peu applicables pour diverses raisons, nous avons privilégié une approche basée sur le repérage par text-mining des libellés, naturellement variables et altérés par les erreurs OCR.

C’est dans ce domaine du « matching flou » que Numen a investi lourdement en R&D depuis plusieurs années, et a constitué une boîte à outils exclusive dorénavant intégrée à la plateforme d'extraction de données. Celle-ci inclut notamment des techniques avancées d’expressions régulières à tolérance d’erreur, largement sollicitées dans le cadre du projet RNCS.

Cette approche d’extraction de données sur images dégradées, aujourd’hui appliquée avec succès à l’extraction des Comptes Annuels, n’est pas née avec ce projet : elle s’est progressivement perfectionnée à travers divers projets d’extraction de données sur archives patrimoniales de qualité variable menés par Numen au cours des dernières années.

La plateforme d'extraction de données de Numen : une industrialisation aboutie et une vocation transverse

La plateforme, développée par Numen pour ses besoins propres de prestataire BPO (Business Process Outsourcing), vise à représenter l’état de l’art en matière de « dématérialisation entrante ». Cette ambition concerne tous les domaines d’expertise technique qu’elle intègre, qu’il s’agisse des méthodes heuristiques et des techniques d’apprentissage machine utilisées pour le typage et l’extraction d’information, du workflow de production basé sur le formalisme BPMN, des outils de reporting associés, de la modélisation des contraintes métier, ou de la richesse des IHM opérateur intégralement développées en technologie Web « client riche » (AngularJS).

PARTAGER

ARTICLES SIMILAIRES

Suivez-nous !

Nous contacter