Première comparaison de Tesseract, OCRAD, GOCR et... PhpOCR - 26/07/2008 - RobertViseur.Be - Journal personnel

Navigation


RSS: billets



Nouvelle du 26/07/2008

[Mes centres d'intérêt (Logiciel libre et Open Source)]
[26-07-2008] Première comparaison de Tesseract, OCRAD, GOCR et... PhpOCR

Edition Web:

Dans le cas de l'extraction de texte issu d'images prévues pour l'édition Web (basse résolution), les résultats sont décevants. Il faut que les lettres soient bien espacées et de grande taille pour obtenir un résultat correct. Tesseract semble accepter les plus petits caractères; OCRAD semble faire moins de fautes en cas de reconnaissance réussie.

Captchas:

La reconnaissance est possible pour des captchas simples. Tesseract semble accepter des caractères davantage déformés. OCRAD semble réussir plus facilement la segmentation lorsque les caractères sont rapprochés. Un pré-traitement de la captcha est souvent souhaitable (suppression d'éléments parasites). GOCR semble plus robuste qu'OCRAD aux éléments parasites tant que les caractères sont bien formés et alignés. PhpOCR permet de reconnaître certaines captchas très simples (éventuellement après un pré-traitement avec GD); pour le reste, il n'est pas vraiment exploitable.

Plaques minéralogiques:

Tesseract donne un résultat médiocre tant sur des plaques minéralogiques (bien cadrées) que sur des caractères isolés. Sans entraînement spécifique, la reconnaissance est cependant partiellement réussie, ce qui laisse espérer de meilleurs résultats après un bon entraînement (non testé). GOCR reconnaît par contre correctement les caractères isolés.

Documents scannés:

La reconnaissance semble possible sur des documents scannés en bonne résolution (300 DPI). OCRAD paraît plus robuste aux éléments parasites (filigrame, fond coloré, etc). Par contre, Tesseract semble fournir une meilleure reconnaissance en cas de pré-traitement de l'image (atténuation des éléments parasites).

En guise de conclusion:

Voici quelques jours, un membre de la liste Python de l'AFUL (python@aful.org) rappelait par ailleurs quatre choses, qui rejoignent ce que nous avons observé. (1) L'OCR est en fait une chaîne composée de plusieurs étapes (prétraitement des images, reconnaissance des caractères, analyse lexicale), assistées par des bases de connaissances (forme des caractères, dictionnaires). (2) Une solution en production peut faire appel à des moteurs différents, utilisés suivant les conditions. (3) Les OCR Open Source ne proposent généralement que des bases de reconnaissances limitées à l'anglais et aux typographie les plus courantes. (4) Les OCR sont souvent adaptés au traitement de documents numérisés en 200 à 300 dpi avec des polices allant de 8 points (si les conditions sont bonnes) à 30 points.

Sources :

[1] http://www.robertviseur.be/news-20080717 (...)
[2] http://www.robertviseur.be/news-20080718 (...)
[3] http://www.robertviseur.be/news-20080719 (...)
[4] http://www.robertviseur.be/news-20080720 (...)
[5] http://www.robertviseur.be/news-20080721 (...)
[6] http://www.robertviseur.be/news-20080722 (...)
[7] http://www.robertviseur.be/news-20080723 (...)
[8] http://www.robertviseur.be/news-20080724 (...)
[9] http://www.robertviseur.be/news-20080725 (...)

[Commentaires (0)]     [Lien permanent]


Faites connaître ce billet:

 

Publicité:


A propos de

Robert VISEUR Robert VISEUR
Mons (BE), 43 ans
Profil sur LinkedIn Profil sur Twitter


Publicité


Mes services


Mes portails


Mes moteurs


Mes comparateurs





Abonnez-vous à ce blog (RSS)