Navigation


RSS: billets



Nouvelle du 23/07/2008

[Mes centres d'intérêt (Logiciel libre et Open Source)]
[23-07-2008] OCR Open Source: premier contact avec OCRAD

OCRAD est un logiciel OCR utilisable en ligne de commande intégré au projet GNU: ''GNU Ocrad is an OCR (Optical Character Recognition) program based on a feature extraction method. It reads images in pbm (bitmap), pgm (greyscale) or ppm (color) formats and produces text in byte (8-bit) or UTF-8 formats.''

Première tâche pour procéder à un test: se procurer une version compatible M$ Windows. Ca tombe bien, un mainteneur du projet SpamBayes a créé un OCRAD.exe (son objectif: faire de l'OCR sur les images présentes dans les courriels et permettant d'échapper aux antipourriels). Le logiciel est ainsi utilisable en ligne de commande DOS (ex.: C:> ocrad training.ppm >training.txt).

En pratique, les résultats ne sont pas fabuleux mais pas exécrables non plus comparé à Tesseract.

Une application sur un jeu de test utilisé sur Tesseract (l'original fait 598x464 pixels contre 250x194 pour la représentation ci-dessous) suggère une préférence pour les textes en police Arial.


Résultat de la reconnaissance:


Ce texte-ci est ainsi reconnu correctement (Arial 20 points avec un espacement étendu de 1,0pt):


Résultat de la reconnaissance:


Le résultat est plutôt meilleur qu'avec Tesseract (on note une seule erreur: l'accent de ''Genève'', qui est inversé). Sur un texte plus petit, par contre, la reconnaissance ne donne rien de valable. De même, des tests réalisés sur des plaques en noir et blanc, des caractères de plaques en noir et blanc, des captchas composées de chiffres déformés ou de chiffres avec éléments parasites (ci-dessous à gauche) n'ont rien donné.



Seule la captcha nettoyée (à droite ci-dessus) a été correctement reconnue (pour rappel, Tesseract n'y arrivait pas...).

A première vue, OCRAD donne de bons résultat lorsque le texte présente des polices classiques et nettes (ex.: une police sans Serif aux traits assez marqués).

Dans un prochain billet, je reviendrai de la reconnaissance de documents scannés.

[Commentaires (0)]     [Lien permanent]


Faites connaître ce billet:

Votez sur Wikio!   Digg it!   del.icio.us it!   Ajouter à mes favoris Technorati   Scoop it!   Fuzz it!   Tape Moi!   AllActuer Ca!   Nuouz Ca!   Memes Ca!   Pioche Ca!   Blue it!   Bookmark Ca!

 

Publicité:


A propos de

Robert VISEUR Robert VISEUR
Age: 33
Mons, Belgique
Profil sur LinkedIn


Publicité


Mes portails


Mes moteurs


Mes comparateurs


Mes services





Ajouter aux favoris Technorati

Abonnez-vous à ce blog (via Wikio)

Abonnez-vous à ce blog (RSS)