OCR Open Source: premier contact avec pytesser (Tesseract) - 17/07/2008 - RobertViseur.Be - Journal personnel

Navigation


RSS: billets



Nouvelle du 17/07/2008

[Mes centres d'intérêt (Logiciel libre et Open Source)]
[17-07-2008] OCR Open Source: premier contact avec pytesser (Tesseract)

Cela faisait quelques temps que je voulais faire un petit état de l'art en matière de technologies OCR Open Source. La communauté francophone d'Ubuntu nous donne un petit aperçu de l'existant. Le blog TheGlu aussi, qui nous livre une vision bien peu optimiste des technologies Open Source disponibles...

J'ai finalement testé pytesser. D'une part parce qu'il est basé sur tesseract, un logiciel OCR libéré par HP avec l'aide de Google et, bien qu'assez ancien, présenté comme une véritable avancée dans le domaine de l'OCR Open Source. D'autre part parce que ça s'utilise assez facilement, une fois PIL installé sous Python 2.4, et que l'on peut donc rapidement passer aux tests.

Première image: Il s'agit d'une capture d'écran d'une présentation de billet sur le Blog Auto. La photo est dans une résolution correcte, les lettres sont bien découpées avec peu d'éléments parasites (on notera juste l'intext vert souligné, la photo et le lien bleu clair, ainsi que la couleur de fond gris claire).

Seconde image: même texte mais agrandi sous Firefox (agrandissement de la police).

Troisième image: même texte, avec un agrandissement supplémentaire.Résultats:


Pour la première image, la reconnaissance est franchement exécrable. Aucun mot n'est reconnu correctement (à noter que la suppression de la bordure, pas plus que l'utilisation d'une image BMP, ne changent quoi que ce soit au résultat). La seconde image donne déjà de meilleurs résultats, avec quelques fautes comme ''gestatian'' ou ''salan'' (confusion entre ''a'' et ''o''). Le ''SUV'' souligné vert n'est pas reconnu; la photo donne lieu à des caractères parasites. La troisième image donne de meilleurs résulats, si l'on excepte encore quelques erreurs (''l'' reconnus comme ''I'', ''nistoire'' plutôt que ''histoire'',...).

Essayons par acquis de conscience dans une police usuelle (Arial):



Le résultat n'est pas mieux...

Et avec de l'Arial mis en gras?



Pas mieux...

A force de tâtonnements, nous avons finalement réussi à obtenir une reconnaissance (presque) parfaite:




La recette? Un texte bien net, en Arial 20 points, avec un espacement étendu des caractères (1,0 pt sous Open Office). Bref, des conditions assez éloignées de la réalité... Sur des documents davantage bruités comme une lettre administrative scannée (facture), le résultat est d'ailleurs logiquement encore plus mauvais (et parfaitement inexploitable)...

En résumé, cette première approche de l'OCR Open Source nous apparaît assez décevante... Seuls les textes peu bruités en grosses lettres ont fait l'objet d'une reconnaissance satisfaisante (ou améliorable, par exemple via l'utilisation d'un dictionnaire). Pour les autres, le résultat s'avère malheureusement inexploitable...

[Commentaires (1)]     [Lien permanent]


Faites connaître ce billet:

 

Publicité:


A propos de

Robert VISEUR Robert VISEUR
Mons (BE), 40 ans
Profil sur LinkedIn Profil sur Twitter


Publicité


Mes services


Mes portails


Mes moteurs


Mes comparateurs





Abonnez-vous à ce blog (RSS)