On nous parle souvent de la phase d'OCR dans l'extraction optique de données mais on omet ce qui est instinctif pour l'oeil et le cerveau humains et qui nécessite une grande intelligence, surtout si elle est artificielle : la classification. Sans classification l'extraction de données est inefficace.
La classification est une étape primordiale dans tout processus d’acquisition, puisqu’elle permet de déterminer à la fois le type des objets qui transitent dans celui-ci, et les frontières de ces objets. L’identification du type auquel appartient l’objet (le plus souvent une page de document) est basée sur des critères visuels, comme la disposition du contenu ou la présence de logo sur la page, mais aussi sur des critères textuels, comme la présence de certaines chaînes de caractères discriminantes.
C’est via l’analyse de l’ensemble de ces critères qu’il est possible de proposer une automatisation efficace de cette étape. Cela consiste donc à mettre en œuvre des techniques à même de proposer, d’une part une extraction efficace de l’ensemble de ces critères textuels et visuels, et d’autre part, une combinaison de ceux-ci avec pour objectif une prise de décision maximisant la précision. L’opérateur n’est donc sollicité que lorsque le système doute de sa propre compétence.
Les équipes R&D de Numen ont forgé leurs compétences en matière de classification et extraction de données grâce à une expérience inégalée au travers de grands projets de dématérialisation et analyse de fonds documentaires culturels ou patrimoniaux. Ils exploitent leurs compétences en analyse des données pour adresser ces deux aspects de la problématique en proposant des méthodes à l’état de l’art offrant une tolérance très forte aux erreurs rencontrées lors du processus d’acquisition (différences dues à de multiples dispositifs de numérisation, erreurs de reconnaissance de texte, …).
La création de méthodes disposant d’un pouvoir discriminant maximal offre la garantie du respect des contraintes imposées par les SLA des clients.
Ces articles pourraient vous intéresser