Identifier les robots qui visitent votre site

Au cours d’une même journée, il n’est pas rare que les robots (bots, spiders) des moteurs de recherche crawlent des centaines de pages d’un même site web.

Plus vous étoffez votre site, plus vous publiez régulièrement de nouvelles pages, plus vos backlinks augmentent, plus les visites des robots seront fréquentes (en théorie).

Si par curiosité vous voulez savoir qui vient chez vous ;-) , savoir si Google et les autres moteurs de recherche prennent bien en compte vos nouvelles pages ou si encore vous voulez que votre site ne soit plus crawlé par un moteur de recherche particulier (moteur de recherche d’images par exemple, un moteur qui pompe votre bande passante etc), il est important de savoir identifier les robots envoyés par les moteurs.

Vous trouverez une trace de ces robots dans vos fichiers logs, vos outils statistiques.

Ci-dessous figure une petite liste de sites où vous trouverez le nom de milliers de robots avec le nom de leurs auteurs  :

http://www.user-agents.org/

http://www.useragentstring.com/pages/All/

http://www.httpuseragent.org/list/

http://www.ref-info.com/RobotTxt/User-agent.php?smnu=2

http://www.robotstxt.org/db.html

http://www.botsvsbrowsers.com/

Une simple requête sur Google en général, vous vous permettra également rapidement d’identifier le moteur de recherche en question :-)

Libre à vous ensuite d’agir dans votre fichier robots.txt , dans votre fichier .htaccess pour les bloquer ou pas :-)

En complément de cet article, je vous conseille la lecture d’un billet du blog Seoblackout pour surveiller l’indexation de vos pages dans Google


Comments are closed.