OCR Open Source: test d'OCRAD et de Tesseract sur un document scanné - 24/07/2008 - RobertViseur.Be - Journal personnel

Navigation


RSS: billets



Nouvelle du 24/07/2008

[Mes centres d'intérêt (Logiciel libre et Open Source)]
[24-07-2008] OCR Open Source: test d'OCRAD et de Tesseract sur un document scanné

Conditions du test: je prends ma dernière facture de la Société wallonne des eaux et la scanne en 300 DPI (mode Mixed Graphics and Text) sur mon combiné Lexmark X74.



Le document possède une mise en page, avec différentes couleurs de fonds et des catactères assez petits en police sans Serif...

Sur le document original (à gauche), OCRAD arrive à reconnaître une partie du document. Exemple: Des acomptes ou des factures intermédiaires, au minimum trimestriels, doivent étre établis conformément á |'article D23O du livre II du Code de |'Eau. Côté tesseract, par contre, rien du tout...

Essayons maintenant d'améliorer la ''qualité'' de l'image. Pour ce faire, nous travaillons grossièrement sur le contraste de manière à atténuer les couleurs de fond, sans altérer la netteté des caractères (à droite).

Sous OCRAD, on observe plutôt une dégradation de la reconnaissance. Par contre, avec tesseract, la reconnaissance est très nettement améliorée, au point de devenir meilleure qu'avec OCRAD. Voici par exemple l'entête de la lettre, qui n'est globalement pas reconnue avec OCRAD:

     Société Wallonne d€S caux s.c.r.l.
     TVA BE0230132.005 — RPM Verviers
     (I) 087/87 87 87 du lundi au vendredi de 8h a 17h
     Q) 24 h/24 en cas de problème technique urgent IIULUJ!!!4!!EU1LlU| I I
     087/34 20 21 Monsieur ROBERT VISEUR
     É Place A. Bastien (G.) 19
     li
     __, Succursale Haine 7011 Gh n
      Digue de Cuesmes, 29 - 7000 MONS
     E haine@swde.be www.swde.be


Autre extrait du document: Des acomptes ou des factures intermédiaires, au minimum trimestriels, doivent être établis conformément a l’artic|e D230 du livre Il du Code de |’Eau (Décret du 27 mai 2004), Les acomptes payes et les factures intermédiaires seront déduits de votre prochaine facture de régularisation.

A noter que le même test réalisé sous OCRAD avec la même lettre scannée en 150 DPI n'a donné lieu à pratiquement aucune reconnaissance.

L'utilisation d'OCRAD ou de Tesseract pour, par exemple, indexer des documents scannés paraît donc envisageable, à condition toutefois, semble-t-il, de pré-traiter l'image dans le cas de Tesseract et de disposer d'une image avec une résolution suffisante (de l'ordre de 300 DPI minimum). Plus que l'apparente lisibilité d'un texte dans une image, la résolution semble d'ailleurs un élément important pour le bon fonctionnement de ces logiciels.

[Commentaires (0)]     [Lien permanent]


Faites connaître ce billet:

 

Publicité:


A propos de

Robert VISEUR Robert VISEUR
Mons (BE), 42 ans
Profil sur LinkedIn Profil sur Twitter


Publicité


Mes services


Mes portails


Mes moteurs


Mes comparateurs





Abonnez-vous à ce blog (RSS)