Nouvelle du 20/07/2008
[Mes centres d'intérêt (Logiciel libre et Open Source)]
[20-07-2008] Tests supplémentaires de Pytesser et Tesseract
Les test précédents (1, 2, 3) ont donné des résultats mitigés, assez éloignés de ce que l'on peut lire dans certains articles [4]. En pratique, la reconnaissance ne fonctionne correctement que sur des textes dont les caractères sont de grandes tailles et bien espacés les uns des autres. Que ceux qui auraient été inquiétés par mon billet sur la reconnaissance de captchas se rassurent: la plupart du temps, ça ne marche pas... Les deux images ci-dessous (captcha originale et captcha binarisée) n'aboutissent par exemple à aucune reconnaissance:
Pour finir, nous avons voulu regarder l'influence du dictionnaire et de l'entraînement sur la qualité de la reconnaissance. Tesseract peut en effet être configuré pour une langue donnée.
Enrichissement du dictionnaire:
Les résultats peuvent être améliorés par l'enrichissement du dictionnaire (fichier user-words). En effet, Tesseract essaie d'améliorer la reconnaissance en faisant ''coller'' les résultats aux mots d'un dictionnaire [2]. Ainsi, en ajoutant la plupart des mots à reconnaître (koleos, premier, suv, renault, mettait, finalement, terme, suspense, faisant, apparition, salon, geneve, gestation, premier, histoire, dure, longtemps, resultat, valait, peine, lire, suite), la reconnaissance est améliorée.
Avant:
Après:
Reste que l'on part d'un texte écrit en grosses lettres [1], ce qui est rarement le cas en pratique...
Mise à jour vers la version 2.0.1 et utilisation de données d'entraînement pour le français:
Par défaut, Tesseract 2.0.1 [3] utilise la reconnaissance de texte en anglais. Il est possible de forcer la reconnaissance dans une autre langue comme le français.
eng:
fra:
Le résultat n'est pas concluant. De nombreux accents parasites sont ainsi rajoutés en utilisant les données fra...
A noter qu'un texte français en police Verdana (cette dernière appartient bien au corpus d'entraîenement) a dû être agrandi deux fois sous Firefox avant d'enfin donner une reconnaissance acceptable...
Au vu de ces résultats, Tesseract nous apparaît finalement assez décevant et peu exploitable dans la pratique (y compris pour les reconnaissances pour indexation ne nécessitant pas une reconnaissance parfaite), si ce n'est peut-être pour des types bien particuliers de documents et moyennant un entraînement correct.
Sources :
[1] http://www.robertviseur.be/news-20080717 (...)
[2] http://tesseract-ocr.googlecode.com/file (...)
[3] http://tesseract-ocr.googlecode.com/file (...)
[4] http://groundstate.ca/ocr
[Commentaires (0)] [Lien permanent]
Faites connaître ce billet:
Publicité:













Robert VISEUR