Nouvelle du 19/07/2008
[Mes centres d'intérêt (Logiciel libre et Open Source)]
[19-07-2008] Pytesser à côté de la plaque...
Dans une vie antérieure, j'ai travaillé dans une entreprise qui intégrait notamment de la reconnaissance de plaques minéralogiques dans ses applications. Dès lors, je procède à un test rapide pour voir si pytesser peut être d'un quelconque secours sur ce type de problème... A noter que les plaques reprises ci-dessous proviennent de véhicules de location.

En pratique, il n'est pas si évident que cela d'avoir un résultat correct.
Pytesser se rapproche du bon résultat dès lors que la suite de caractères est bien isolée du reste de l'image et que l'image a été ramenée en noir et blanc de manière à faire ressortir les caractères. Malgrè cela, on observe des erreurs grossières de reconnaissance.
A noter que Tesseract a été initialement conçu pour la reconnaissance de textes en anglais [1]. L'usage qui en est fait ici est donc sans doute aussi un peu en dehors du cahier des charges initial ;-). Cela pourrait aussi expliquer, au moins en partie, les mauvais résultats observés en langue française [2]... Un entraînement pour d'autres langues semble par ailleurs possible (''Tesseract 2.0 is fully trainable'') [1, 3].
A noter que la reconnaissance caractère par caractère (testé sur une version 2.0.1 de Tesseract) n'a pas donné de bons résultats (D, Y et 9 bien reconnus; 6 reconnu comme B; pas de résultat pour 8). Un entraînement spécifique permettrait peut-être d'y remédier...
Sources :
[1] http://code.google.com/p/tesseract-ocr/w (...)
[2] http://www.robertviseur.be/news-20080717 (...)
[3] http://forum.ubuntu-fr.org/viewtopic.php (...)
[Commentaires (0)] [Lien permanent]
Faites connaître ce billet:
Publicité:













Robert VISEUR