Nouvelle du 06/09/2007
[Mes travaux]
[06-09-2007] Vous avez dit 'rétrokoi'?
Le problème avec Google, c'est qu'il donne très rapidement de bonnes réponses à de mauvaises questions... Prenez la rétroingénierie de pages Web. Cette expression ''rétroingénierie pages web'' donnera peu de résultats pertinents (si on excepte des pages qui j'ai écrites ou que mon entourage professionnel a écrit...). La requête ''extraction web'' donnera déjà des résultats un peu plus pertinents. Et, avec la requête ''web scrapping'' (ou ''web scrapper'' ou ''web scraper''), c'est franchement le bonheur (merci à P.L. de m'avoir rappelé ce terme)! Ajoutez le nom du langage qui vous intéresse (PHP, Java, Python,...) à votre requête et les résultats se préciseront. Bref, il faut savoir comment nommer ce que l'on cherche (ou, plutôt, savoir comment le plus grand nombre le nomme)... J'avais déjà eu la même expérience avec les résultats -parfois sensiblement différents- suivant que l'on tape ''crawler'', ''spider'', ''web crawler'' ou ''web spider''.
Ca me fera quelques technologies supplémentaires à découvrir.
En attendant, ma propre trousse à outil a pu être testée à plus grande échelle (sur un comparateur de prix spécialisé). L'ensemble marche bien, si l'on excepte un comportement parfois facétieux de l'extracteur (le trame HTML paraît correcte et distinctive mais ne passe pas) et une configuration finalement encore assez lente. Au final, il faut compter pas loin de 20 minutes en moyenne pour avoir un fichier de règles qui fonctionne pour l'essentiel des pages ciblées d'un même site. Il faut cependant, à la vue du code source HTML de certaines boutiques, relativiser ce chiffre...
[Commentaires (0)] [Lien permanent]
Faites connaître ce billet:
Publicité:













Robert VISEUR