Nouvelle du 25/07/2008
[Mes centres d'intérêt (Logiciel libre et Open Source)]
[25-07-2008] OCR Open Source: premier contact avec GOCR
GOCR est un logiciel OCR sous licence GPL. Une version compilée pour Windows est téléchargeable sur Sourceforge (Windows-binary gocr045.exe v0.45 147kB for Windows users provided by Peter B L Meijer, Nov 2007). Comme OCRAD, elle est utilisable en ligne de commande dans une console DOS (ex.: C:> gocr045 training.ppm >training.txt).
Dans son fonctionnement, GOCR est comparable à OCRAD (comme ce dernier, il demande par ailleurs des images ppm en entrée). Il nous semble cependant donner de moins bons résultats qu'OCRAD, que ce soit pour une image Web ou pour un document scanné. On note par exemple la fréquente confusion entre ''l'' et ''I'', ainsi que l'ajout régulier d'espaces parasites.
Par contre, il s'est montré meilleur pour les captchas. En effet, il reconnaît avec succès les trois captchas ci-dessous (OCRAD ne reconnaissait correctement que la deuxième):
Dans le cas des trois captchas ci-dessous, les deux les plus à droite ont fait l'objet d'une reconnaissance partielle: ''3305'' plutôt que ''33625'' et ''5129---1'' plutôt que ''51291'' (contre ''33s_5'' et ''51zg1'' pour OCRAD).
Il semblerait donc que GOCR accepte mieux qu'OCRAD la présence d'éléments parasites; mais que, comme lui, il nécessite des lettres bien formées et alignées.
GOCR réalise par ailleurs un sans faute sur les caractères tirés de plaques minéralogiques ci-dessus (alors qu'OCRAD ne reconnaît rien).
[Commentaires (0)] [Lien permanent]
Faites connaître ce billet:
Publicité:













Robert VISEUR