Nouvelle du 21/07/2008
[Mes centres d'intérêt (Logiciel libre et Open Source)]
[21-07-2008] PhpOCR: et si les blogueurs testaient avant de poster...?
Dans le cadre de mes tests sur les logiciels OCR Open Source, j'ai eu l'attention attirée par PhpOCR, présenté par un des blogs qui en parlaient comme ''une classe PHP permettant la reconnaissance de caractères dans une image''. D'où des commentaires s'inquiétant de la fin prochaine des captchas, succombant sous les coups des OCR Open Source ''péhachepétisées''.
Bein, non, finalement, rassurez-vous, il suffit de tester 5 minutes le logiciel puis de regarder un peu le code pour se rendre compte du caractère singulièrement inoffensif de l'application ^^.
Bon, pour commencer, il faut savoir qu'il existe deux PhpOCR, un de 2003 (par Janis Putrams) et un de 2006 (par Andrey Kucherenko) [2]. C'est du second dont les sites parlent généralement.
En pratique, dans PhpOCR 2003, la reconnaissance se déroule correctement sur des séquences de chiffres régulièrement disposés sur l'image (il est donc capable de réaliser une découpe en caractères). Il ne faut pas en espérer plus car PhpOCR ne reconnaît que les chiffres. Un simple test sur une phrase puis la consultation du fichier char_inc_6.php (il contient une template sous forme de matrice pour les chiffres allant de 0 à 9, reconfigurable par apprentissage sur base d'une image contenant les chiffres de 0 à 9 alignés, comme celle contenue dans le fichier 0-9.png présent dans le répertoire Docs) suffisent à s'en convaincre...
Donc, vous pouvez dormir sur vos deux oreilles: PhpOCR 2003 ne fait pas de reconnaissance de caractères (l'aide est assez claire: ''Create image with numbers 0 to 9 like in file 0-9.png'') et, non, la fin des captcha ne viendra pas de lui ;-).
PhpOCR 2006 permet pour sa part un entraînement caractère par caractère (chiffre ou lettre).
Ici, nous prenons une captcha nettoyée et binarisée sous Gimp, nous entraînons sur base d'un chiffre (4) et nous testons sur trois chiffres (le premier 4, le 1 et le second 4). Résultat: le 1 n'est pas reconnu; les deux 4 sont bien reconnus comme tels. Pa contre, PhpOCR 2006 ne réalise pas la découpe des séquences de caractères (segmentation), ce qui le rend difficilement exploitable tel quel pour de la reconnaissance de captcha...
En l'état, ces deux PhpOCR sont plus d'intéressantes curiosités mais ne constituent pas une réelle menace pour les systèmes de captcha (quoique... j'y reviens demain!). Quant à parler de solutions OCR en PHP, ça me semble vite dit, au vu des possibilités, encore réduites...
Sources :
[1] http://webscripts.softpedia.com/script/H (...)
[2] http://developer.berlios.de/projects/php (...)
[3] http://mgccl.com/2006/12/03/phpocr
[Commentaires (0)] [Lien permanent]
Faites connaître ce billet:
Publicité:













Robert VISEUR