Navigation


RSS: billets



Nouvelle du 06/09/2007

[Mes travaux]
[06-09-2007] Vous avez dit 'rétrokoi'?

Le problème avec Google, c'est qu'il donne très rapidement de bonnes réponses à de mauvaises questions... Prenez la rétroingénierie de pages Web. Cette expression ''rétroingénierie pages web'' donnera peu de résultats pertinents (si on excepte des pages qui j'ai écrites ou que mon entourage professionnel a écrit...). La requête ''extraction web'' donnera déjà des résultats un peu plus pertinents. Et, avec la requête ''web scrapping'' (ou ''web scrapper'' ou ''web scraper''), c'est franchement le bonheur (merci à P.L. de m'avoir rappelé ce terme)! Ajoutez le nom du langage qui vous intéresse (PHP, Java, Python,...) à votre requête et les résultats se préciseront. Bref, il faut savoir comment nommer ce que l'on cherche (ou, plutôt, savoir comment le plus grand nombre le nomme)... J'avais déjà eu la même expérience avec les résultats -parfois sensiblement différents- suivant que l'on tape ''crawler'', ''spider'', ''web crawler'' ou ''web spider''.
Ca me fera quelques technologies supplémentaires à découvrir.
En attendant, ma propre trousse à outil a pu être testée à plus grande échelle (sur un comparateur de prix spécialisé). L'ensemble marche bien, si l'on excepte un comportement parfois facétieux de l'extracteur (le trame HTML paraît correcte et distinctive mais ne passe pas) et une configuration finalement encore assez lente. Au final, il faut compter pas loin de 20 minutes en moyenne pour avoir un fichier de règles qui fonctionne pour l'essentiel des pages ciblées d'un même site. Il faut cependant, à la vue du code source HTML de certaines boutiques, relativiser ce chiffre...

[Commentaires (0)]     [Lien permanent]


Faites connaître ce billet:

Votez sur Wikio!   Digg it!   del.icio.us it!   Ajouter à mes favoris Technorati   Scoop it!   Fuzz it!   Tape Moi!   AllActuer Ca!   Nuouz Ca!   Memes Ca!   Pioche Ca!   Blue it!   Bookmark Ca!

 

Publicité:


A propos de

Robert VISEUR Robert VISEUR
Age: 34
Mons, Belgique
Profil sur LinkedIn


Publicité


Mes services


Mes portails


Mes moteurs


Mes comparateurs





Ajouter aux favoris Technorati

Abonnez-vous à ce blog (via Wikio)

Abonnez-vous à ce blog (RSS)