Numériser pour décider

Marc Le Vernoy _ Edito

 

L’Intelligence Artificielle (IA) fait partie intégrante des technologies utilisées par Numen pour améliorer la prise de décision de ses clients.

 

L’OCR (Optical Character Recognition), technologie inventée par Ray Kurzwell, actuel patron de la R&D de Google, n’est que la partie émergée de l’iceberg ! En effet, la difficulté des traitements textuels sur documents ou flux entrants est souvent liée à la variabilité des documents, plus ou moins modélisables en raison de la diversité des formats, des structures, des expressions ou simplement des défauts d'écriture ou lecture.


Pour développer une approche innovante et différenciante du BPO, les acteurs se doivent d’intégrer de plus en plus d’heuristique et d’apprentissage statistique à leurs technologies.

Numen est un industriel de la dématérialisation et ses grands projets l’ont amené, depuis 2004, à construire une plateforme multi OCR, combinant de nombreux savoir-faire dans les domaines du traitement et de l’analyse d’image, de la classification automatique sur critères mixtes (contenu/mise en page), de la recherche floue et de l’apprentissage machine.


Qu’il s’agisse de traitements de factures fournisseurs, d’arrêts de cour de justice, d’actes notariés, d’analyses bilancielles ou de patrimoine culturel, vous constaterez dans cette newsletter que les équipes ingénierie de Numen vous aident à tirer parti des data et informations contenues dans vos documents, quels que soient leurs natures, formes et lieux de stockage.

L'explosion du marché de l'extraction des données & Numen


Le saviez -vous ?


Avec tous les nouveaux canaux, il y a désormais plus d’informations produites chaque minute que l’ensemble des données informatiques cumulées depuis les débuts de l’IT à l’an 2000 !

Nous passons d’un modèle d’échange d’informations produites par quelques acteurs spécialisés (comme la presse, les éditeurs, etc.) vers un mode dans lequel nous sommes tous créateurs d’informations et contributeurs de contenus, favorisant ainsi la croissance exponentielle du volume d'informations disponibles et échangées.


La révolution numérique est là, Numen y participe pleinement, et propose déjà à ses clients les outils pour collecter, extraire, contrôler, croiser et restituer les données pertinentes.

 

Les applications sont infinies: outil décisionnel pour les RH, leviers d'économies sur les achats, mise en conformité des processus bancaires, relève d'informations des masses de courriers reçus, détection ou reconstitution d'informations stratégiques par recoupement...

 

En qualité de société d'ingénierie, Numen vous permet de créer de la valeur à partir de tout type de flux et archives dont vous disposez. Relevez dès à présent les challenges du Big Data, maîtrisez le volume, la vitesse, la variété et la véracité des informations.

 

Je souhaite en savoir davantage et être recontacté(e) par un spécialiste Numen de la Data Extract & Analytics.

 

L'explosion des données en quelques chiffres

Derrière les Panama papers, de puissantes techniques d'investigation numérique utilisées quotidiennement par Numen


 

L'affaire a révélé au grand public l’existence d’un ensemble de techniques dites d’investigation numérique (digital forensics) utilisables sur corpus massifs, qui constituent une branche particulière des technologies « Big Data ».

 

De nombreux articles sont en effet parus récemment sur les dessous techniques de l'affaire. On y apprend que l’exploitation d’un corpus de 2.6 téraoctets de données brutes a nécessité l’emploi de nombreuses compétences et outils:

 

- Capacité à exploiter des documents sources de formats très divers (PDF image et texte, format word, mails…)

- Récupération de la couche texte des contenus image par des procédés d’OCR

- Création de métadonnées associées à chaque document pour faciliter le tri

- Extraction de données spécifiques portées par les documents grâce à des procédés de text mining (recherche d’entités nommées et de motifs textuels)

- Utilisation et confrontation de référentiels de sources externes (registres de commerce, sources en accès libre sur internet…) pour croiser et recouper les données extraites, établir des liens entre des noms de familles, d’administrateurs, d’entreprises, modéliser les liens ainsi établis pour révéler et illustrer toute la structure intentionnellement dissimulée par le mécanisme des sociétés écran...

 

L’ensemble de ces procédés est en fait quotidiennement utilisé par la société Numen pour le compte de nombreux clients. Numen met effectivement en oeuvre le même arsenal de technologies (traitement du texte et de la langue, maîtrise du rapprochement de données approximatives, analyses heuristiques, filtrage et apprentissage statistique) pour exploiter les documents non-structurés, sources diverses, formats hétérogènes, données bruitées ou approximatives.

 

Expertises et projets de Numen sur le Big Data. 

Les traitements Big Data permettent de réaliser des économies sur ses achats d'énergie: démonstration !


Grâce aux services « big data » de Numen, FONCIA permet à ses clients de réaliser jusqu’à 17% d’économies sur leurs factures de gaz.

 

Numen traite depuis début 2012 l’ensemble des factures émises par les prestataires et reçues par FONCIA pour le compte de ses clients (copropriétaires, syndics de copropriété, etc.). Face au changement de législation début 2014, FONCIA a souhaité lancer une analyse auprès des différents fournisseurs de gaz afin de proposer à ses clients une meilleure maîtrise des charges.

 

Pour ce faire, il fallait collecter un nombre très important de données hétérogènes afin de les structurer et proposer une véritable « aide à la décision » à la direction de FONCIA. Les informations nécessaires ont été extraites des factures fournisseurs par Numen, selon les immeubles, le profil de consommation, le point de livraison... Montants annuels facturés pour chaque fournisseur, types de contrat, dates d’échéance et profils de consommation ont été extraits, analysés puis recoupés et comparés par Numen avec les informations contractuelles et historiques pour délivrer des données de qualité et un service à plus forte valeur ajoutée.

 

Numen propose de dépasser la simple capture de documents pour proposer, en l'espèce, l'analyse intelligente de factures. Les données étant déjà concentrées, pour traitement comptable, partage et archivage, dans une base de données conçue et administrée par Numen, FONCIA a pu en 4 mois (de mars à juin 2014) mener une vaste consultation auprès de l’ensemble des fournisseurs de gaz, sélectionner 4 prestataires et massifier ses achats pour des économies significatives allant de 15 à 17%, soit un total de près de 10 millions d’euros.

 

Je suis intéressé(e) par l'apport du Big Data aux services finances, comptables ou achats et souhaite en discuter avec un expert.

Le traitement massif de données de propriété foncière à l'Ile Maurice et au Ghana


 

Dans le cadre du projet de mise en place d’un cadastre à l’Ile Maurice, Numen s'est installé à l'île Maurice pendant 5 ans aux côtés d’Infoterra, filiale d'Airbus Defence & Space. Les équipes avaient pour objectif de constituer un corpus numérique de l’ensemble des sources documentaires et photographiques relatives à la propriété foncière (actes notariés, rapports d’arpentage, registres…)  qui n’avaient jamais été rapprochées jusque-là.

 

Le projet nécessitait, bien sûr, la numérisation de documents hétérogènes et fragiles mais surtout le rapprochement de documents détenus en divers lieux et diverses organisations pour reconstituer l'identification précise des parcelles et la successions des propriétaires.

 

Numen a ainsi numérisé plus de 12 millions de pages et de plans aux formats multiples et exotiques (jusqu’au format A0) ; traité les images (redressement, binarisation, reconstitution de caractères fragmentés…) ; récupéré du contenu par tous procédés (saisie, OCR…), rapproché les motifs identifiés avec les données extraites des registres numérisés et des différentes bases de données externes existantes. Ces rapprochements automatiques de « familles » d’actes notariés et de rapports d’arpentage, ont ainsi permis de regrouper toute l’information disponible sur l’histoire d’une même parcelle originelle et de ses divisions au cours du temps.

 

Les résultats ont été présentés sous forme d’une collection de 300 000 « graphes d’historique » qui totalisent plus de 1 500 000 liens qualifiés. Ces graphes sont désormais affichés dans un navigateur Web et permettent par simple clic d’accéder aux documents numérisés qui décrivent les transactions.

 
La mise à disposition d’un tel outil auprès de la profession notariale par le Gouvernement Mauricien a révolutionné la pratique de « l’établissement de propriété ». Jusqu’à peu, trois mois d’enquête étaient en moyenne nécessaires pour traiter un dossier. Depuis la mise en œuvre de ce nouveau système « zéro papier », les clercs de notaires accèdent désormais via une interface Web à l’intégralité de l’information disponible. Ils peuvent consulter les documents à l’écran et imprimer à la demande les extraits intéressants, ce qui réduit le processus à quelques heures de travail sur support dématérialisé.

Numen vient de commencer une nouvelle mission de même nature au Ghana.

 

En savoir davantage sur la valorisation du patrimoine documentaire et administratif.

SmartExtract, une plateforme de capture de données inspirée par le data-mining : un outil révolutionnaire !


 

SmartExtract est la plateforme de capture de données développée par Numen pour couvrir tous les besoins de son activé BPO/DPO.

 

Cette plateforme, qui intègre plusieurs chaines OCR, dont le moteur multi OCR d'ABBYY, combine de nombreuses technologies « made by Numen » dans les domaines du traitement et de l’analyse d’image, de la classification automatique sur critères mixtes (contenu/mise en page), de la recherche floue et de l’apprentissage machine. SmartExtract s’appuie sur SmartGED, le moteur de GED CMIS développé par Numen qui couvre tous les besoins liés au stockage, au workflow et au reporting de production. Une des particularités remarquables de SmartExtract est son IHM WebCapture 100% Web, développée en technologie « client-riche » AngularJS.

Les résultats de cette plateforme de traitement et de capture de données sont spectaculaires, les taux de reconnaissance et de qualité très élevés réduisant les opérations de levées de doutes à une portion congrue.

 

L’originalité de la conception de SmartExtract réside notamment dans l’omniprésence de techniques empruntées au data-mining, jusque dans le fonctionnement des outils interactifs manipulés par les opérateurs.

 

En savoir davantage sur cette plateforme unique sur le marché.

La R&D de Numen au service de la valorisation des données


Focus sur la classification, étape clé de l'acquisition de données

 

On nous parle souvent de la phase d'OCR dans l'extraction optique de données mais on omet ce qui est instinctif pour l'oeil et le cerveau humains et qui nécessite une grande intelligence, surtout si elle est artificielle : la classification. Sans classification l'extraction de données est inefficace.

 

La classification est une étape primordiale dans tout processus d’acquisition, puisqu’elle permet de déterminer à la fois le type des objets qui transitent dans celui-ci, et les frontières de ces objets. L’identification du type auquel appartient l’objet (le plus souvent une page de document) est basée sur des critères visuels, comme la disposition du contenu ou la présence de logo sur la page, mais aussi sur des critères textuels, comme la présence de certaines chaînes de caractères discriminantes.

 

C’est via l’analyse de l’ensemble de ces critères qu’il est possible de proposer une automatisation efficace de cette étape. Cela consiste donc à mettre en œuvre des techniques à même de proposer, d’une part une extraction efficace de l’ensemble de ces critères textuels et visuels, et d’autre part, une combinaison de ceux-ci avec pour objectif une prise de décision maximisant la précision. L’opérateur n’est donc sollicité que lorsque le système doute de sa propre compétence.


Les équipes de Numen Labs ont forgé leurs compétences en matière de classification et extraction de données grâce à une expérience inégalée au travers de grands projets de dématérialisation et analyse de fonds documentaires culturels ou patrimoniaux. Ils exploitent leurs compétences en analyse des données pour adresser ces deux aspects de la problématique en proposant des méthodes à l’état de l’art offrant une tolérance très forte aux erreurs rencontrées lors du processus d’acquisition (différences dues à de multiples dispositifs de numérisation, erreurs de reconnaissance de texte, …).

La création de méthodes disposant d’un pouvoir discriminant maximal offre la garantie du respect des contraintes imposées par les SLA de nos clients. 

LexisNexis confie l'anonymisation de ses textes juridiques à Numen


Numen Digital poursuit l'accompagnement de son client LexisNexis dans la mise en conformité de sa chaine de production.

 

Dématérialiser pour mieux partager et donner plus d'efficacité aux processus c'est aussi reconnaître et exclure d'un corpus documentaire les données qui doivent rester anonymes ou ne pas être publiées.

 

Cette combinaison de l'extraction, du "text mining" et des services éditoriaux est un savoir-faire précieux des équipes Numen quand il faut s'assurer des conditions de partage de documents référents. Il en est ainsi, par exemple, des décisions de justices qui alimentent la jurispridence et doivent être accessibles tout en préservant la vie privée des justiciables. 

 

Afin d’assurer ce respect de la vie privée des personnes impliquées dans des affaires juridiques, la Cour de Cassation a renforcé les règles relatives à la diffusion des textes juridiques. Une anonymisation est désormais requise pour la publication de toutes les décisions, tous les arrêts ou tous les jugements provenant de n’importe quelle instance juridique (Cour d’appel, Cour des comptes, Tribunaux, …). Avant, seuls les documents relatifs à des faits tels que des agressions, viols ou concernant des mineurs, étaient contraints à cette anonymisation - nom, prénom, adresse, numéro de téléphone, … permettant d’identifier une personne physique. Cette modification de règle impacte ainsi directement notre client LexisNexis et notre production JURICA. Numen intervient donc dans le cadre de ce projet, pour repérer les éléments d'identification qui doivent être masqués dans la masse des documents publiables issus des décisions de la Cour de Cassation et apporter les modifications techniques nécessaires à leur mise en conformité. Numen intervient directement sur la chaine de production JURICA pour réaliser l’anonymisation de toutes les décisions produites.
 

Numen opérateur de confiance, garantit l'accessibilité, l'intégrité, la confidentialité et la traçabilité de vos flux documentaires pour une exploitation de leurs contenus en toute sécurité.

 

Découvrir l'offre de préservation et dynamisation de votre patrimoine documentaire.

L'hôpital accélère sa transformation digitale grâce aux solutions logicielles de Numen


 

Numen était présent au salon HIT, salon professionnel des technologies et systèmes d'information appliqués à la santé. Yves Bourreau, le responsable de l'offre santé Numen, y a partagé sa vision de l'hôpital digital. Numérisation et archivage électronique du dossier patient, dématérialisation des factures, traitement du courrier, digitalisation du dossier agent sont autant de leviers d'optimisation pour les établissements de santé.

 

Lire l'avis d'expert: "Quels sont les enjeux de la dématérialisation dans les établissements de santé?"

 

Numen Digital partenaire de la BnF numérise le fonds Flaubert de la bibliothèque historique de la ville de Paris


 

Dans une logique de conservation et de communication d'ouvrages précieux, la BnF et la BHVP ont monté un partenariat afin de numériser le fonds de Gustave Flaubert détenu par la bibliothèque nationale de la ville de Paris. Les images numérisées seront diffusées sur la bibliothèque numérique Gallica, les originaux ne pouvant pas être consultés en raison de la fragilité physique des manuscrits ainsi que de l’écriture partiellement effacée.


En savoir plus sur ce projet de numérisation délicate.

Numen met en oeuve son savoir-faire dans le projet beaucoup plus large de mise en ligne de la bibliothèque numérique française (Gallica) et la bibliothèque numérique européenne (Europeana). Numen a déjà numérisé plus de 30 millions de pages des collections de la BnF et autres bibliothèques partenaires.

Découvrir les services de préservation, valorisation et diffusion du patrimoine culturel de Numen.

Contactez-nous

 

Rappel immédiat

Demande d'informations

Juin

Sommaire

  • Numériser pour décider
  • L'explosion du marché de l'extraction des données & Numen
  • Derrière les Panama papers, de puissantes techniques d'investigation numérique utilisées quotidiennement par Numen
  • Les traitements Big Data permettent de réaliser des économies sur ses achats d'énergie: démonstration !
  • Le traitement massif de données de propriété foncière à l'Ile Maurice et au Ghana
  • SmartExtract, une plateforme de capture de données inspirée par le data-mining : un outil révolutionnaire !
  • La R&D de Numen au service de la valorisation des données
  • LexisNexis confie l'anonymisation de ses textes juridiques à Numen
  • L'hôpital accélère sa transformation digitale grâce aux solutions logicielles de Numen
  • Numen Digital partenaire de la BnF numérise le fonds Flaubert de la bibliothèque historique de la ville de Paris
  • Contactez-nous

Agenda