Echange de liens : surveiller de près la directive X-Robots-Tag !

J’ai eu l’idée de rédiger cet article suite à une discussion avec Tiger lors de la soirée SEO Sphère à Paris vendredi dernier. Il m’indiquait que la scène SEO française était, à son sens, peu averti de l’utilisation possible de la directive X-Robots-Tag dans l’entête HTTP des pages web (cela peut être un avantage ! Tout dépend de la couleur de son chapeau
)
A quoi correspond la directive X-Robots-Tag ?
X-Robots-Tag est une directive (facultative) pouvant se trouver dans l’entête HTTP d’une page web au même titre que la directive Server ou encore la directive Content-Type par exemple. Elle a été mis en place par le moteur de recherche Google en 2007 puis adoptée par Yahoo et Bing. L’objectif de la mise en place de cette nouvelle directive est de proposer un moyen supplémentaire de contrôle du passage des robots d’indexation sur un site. Ainsi, cette directive est une alternative à la balise méta robots ou encore au fichier robots.txt qui répondent à ce même objectif.
Quelles sont les valeurs permettant de contrôler un robot d’indexation avec X-robots-tag ?
J’ai dénombré 8 groupes de valeurs possibles pour utiliser cette directive :
- INDEX|NOINDEX : indique au robot si il doit ou non indexer la page
- FOLLOW|NOFOLLOW – indique au crawler si il doit ou non suivre les liens contenus dans la page.
- ALL|NONE – ALL = INDEX, FOLLOW (défaut), NONE = NOINDEX, NOFOLLOW
- NOODP – indique aux moteurs de recherche de ne pas utiliser le titre et la description provenant de l’annuaire DMOZ dans les SERPs
- NOYDIR – indique à Yahoo search de ne pas utiliser le titre et la description provenant de l’annuaire Yahoo dans les SERPs
- NOARCHIVE – indique aux moteurs de recherche de ne pas mettre la page dans leur cache
- NOSNIPPET – indique au robot qu’il ne faut pas afficher de descriptif (snippet) dans la page de résultats
- UNAVAILABLE_AFTER: DATE (au format RFC 850) – indique au robot de désindexer la page après la date indiquée
Quel est le rapport avec la stratégie d’échange de lien ?
Généralement, lorsque l’on procède à un échange de liens avec un partenaire, notre principale soucis est de vérifier au niveau du code source qu’il s’agisse bien d’un lien en dur, que ce lien ne soit pas en nofollow,… Cependant, un partenaire malin peut très bien utiliser la directive X-Robots-Tag: nofollow dans l’entête HTTP de la page concernée pour profiter au maximum de cet échange à votre grand désavantage…On pense rarement à regarder l’en-tête HTTP !
A noter que cette technique peut également se faire avec les valeurs nofollow, none, noindex et unavailable_after.
Comment détecter cette technique de X-Robots-Tag scamming
?
Pour vérifier si ce partenaire ne vous a pas arnaqué, vous pouvez vérifier manuellement l’entête de la page de partenariat avec le plugin firefox Webdeveloper par exemple. Cependant, si vous gérez plusieurs sites web, cela peut être fastidieux ! Voici un script shell permettant d’automatiser tout cela (vous trouverez dans le script des notes importantes) :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | #!/bin/bash ## Description : Ce script permet de détecter si une page web utilise la directive X-Robots-Tag dans son en-tête http. ## Il est important de vérifier l'état de cette directive lors d'un échange de liens par exemple. ## OS : Linux, Mac, Windows avec Cygwin (non testé) ## Requires : curl ## Licence : Creative Commons BY-SA 2.0 ## Version : 0.1 ## Author : Olivier TASSEL <blog CHEZ olivier-tassel.fr> ## Web site : http://www.olivier-tassel.fr/ ## Note : Pour une utilisation intensive de ce script (tâche cron,...), il peut être judicieux de passer l'url de la page en option # Variable url="http://www.olivier-tassel.fr/" # Je récupère la directive X-Robots-Tag dans l'en-tête http de la page # L'option --location permet de récupérer l'en-tête de la nouvelle page si il y a eu une redirection 301 ou 302 par exemple # On aurait pu utiliser l'option --head à la place de --include. Cependant, si la page web bloque les requêtes ayant pour méthode HEAD (un petit malin !?), le script serait bloqué. # Avec l'option --include (qui affiche en sortie l'en-tête + le code source de la page), on utilise la méthode GET, comme ça on est tranquille xRobotsTag="`curl --include --silent --location $url | grep -i 'X-Robots-Tag :'`" if [ "`echo $xRobotsTag | grep -oi noindex`" = "noindex" ] || [ "`echo $xRobotsTag | grep -oi nofollow`" = "nofollow" ] || [ "`echo $xRobotsTag | grep -oi unavailable_after`" = "unavailable_after" ] || [ "`echo $xRobotsTag | grep -oi none`" = "none" ] then echo "On se moque de toi..." else echo "C'est bon, le partenaire est clean ;-)" fi |
Adeptes du black hat SEO, utilisiez-vous cette technique ? Pratiquants du white hat SEO, la surveillance de l’entête faisait-elle partie de vos vérifications ?
P.S. : J’ai une préférence pour les scripts shell au lieu du PHP (même en ligne de commande) car je trouve cela plus pratique pour une utilisation en production. Cependant je sais que certains d’entre vous préfère le PHP ou encore le Perl. Si vous créez un script basé sur celui-ci dans un langage différent, un petit lien vers cet article serait sympa !
Olivier TASSEL



18 h 19 min on septembre 14th, 2009
Argh Merci Olivier !! On voit qu’elles sont utiles, les soirée de la Sphère ! c’était sympa comme article, surtout en ce moment, avec le concours Black hattitude, je vais me méfier maintenant
18 h 32 min on septembre 14th, 2009
Je découvre cette directive …
Encore une fois un article tres instructif de ta part, merci !
18 h 55 min on septembre 14th, 2009
Si on parle du même Rudy, c’est lui qui m’avait parlé de la directive X-robots ! Merci pour l’article
19 h 09 min on septembre 14th, 2009
Et dire que j’étais dans l’impossibilité d’assister a cette soirée. Arghhhh !!!!!
Je découvre aussi cette directive.
Cela serait intéressant d’intégrer ce contrôle dans un outil de vérification d’échange de liens.
19 h 22 min on septembre 14th, 2009
lemoussel, je t’ai tiré des griffes d’Akismet (cf article de Tiger) : tu étais dans la liste des commentaires indésirables…
19 h 52 min on septembre 14th, 2009
Article très instructif, merci à Tiger et à toi.
20 h 07 min on septembre 14th, 2009
Eh oui …..
Quelqu’un a surement imaginé que j’étais un black hattitude de la mort !
Alors que en réalité, je suis un black hamittude.
Merci Olivier, de me sortir du bac
20 h 12 min on septembre 14th, 2009
@Robin, même chose pour toi : blacklistage Askimet. Mollo avec le spam de commentaire pour le concours !
22 h 37 min on septembre 14th, 2009
Merci pour cet article. J’étais complètement passée à côté de cette nouvelle directive. Je ne manquerai pas dorénavant de vérifier si elle est présente pour les partenariats que je gère.
@+, b@
23 h 07 min on septembre 14th, 2009
Ce n’est pas bien de divulguer les secrets comme cela! Comme je vais échanger des liens maintenant?
0 h 35 min on septembre 15th, 2009
@Gnomecorp
Je ne sais pas sur quel ton prendre ton message (ironique ?).
A défaut d’en savoir plus, je t’invite à consulter une mise au point concernant cet article que j’ai posté sur le forum SEO sphère
10 h 28 min on septembre 15th, 2009
Exact, ironie, je pensais que tu l’aurais deviné après vendredi soir.
11 h 11 min on septembre 15th, 2009
Ok, alors mea culpa
J’étais un peu sur les dents au moment de rédiger ce commentaire.
18 h 19 min on septembre 15th, 2009
En tout cas, cela permettra de ne plus se faire prendre s’il y avait déjà des utilisateurs
20 h 56 min on septembre 15th, 2009
Et bien merci pour l’astuce!
…
23 h 36 min on septembre 16th, 2009
Bonjour,
Juste un petit mot pour dire que ton article très intéressant merci pour ce temps passer a partager
Cordialement,
mehdi
16 h 10 min on septembre 17th, 2009
Au final, c’est ce que fait web developper non ?
14 h 19 min on septembre 18th, 2009
Le problème ne se pose pas quand on fait des échanges en dehors des pages « partenaires », si ? Car mettre ce genre de balise sur une page n’étant pas prévu uniquement à un partenaire, ne serait vraiment pas judicieux (voir idiot).
12 h 39 min on septembre 19th, 2009
@Agence Publika…
Effectivement webdevelopper permet de vérifier l’entête HTTP d’une page. Cependant, cela demande une action manuelle.
Ce script permet d’automatiser le process de vérification. C’est un gain de temps non négligeable lorsqu’on a plusieurs sites à gérer !
9 h 36 min on septembre 24th, 2009
Voire plusieurs dizaines de sites à gérer!
Heureusement qu’il reste d’autres techiques.
18 h 05 min on septembre 26th, 2009
Meh, cruelle la technique :/
14 h 28 min on septembre 30th, 2009
« J’ai une préférence pour les scripts shell au lieu du PHP (même en ligne de commande) car je trouve cela plus pratique pour une utilisation en production. » +10 000 ^^
5 h 22 min on octobre 6th, 2009
Car mettre ce genre de balise sur une page n’étant pas prévu uniquement à un partenaire, ne serait vraiment pas tres malin
10 h 24 min on octobre 13th, 2009
très intéressant, tu sais si Seoquake repère quand même les liens nofollow ?
Car il les repère lorsque les liens sont précéder de rel= »nofollow » mais dans ton cas est-ce pareil ?
22 h 29 min on octobre 19th, 2009
@xevonaute
Je n’utilise pas SEOquake mais je ne pense pas qu’il puisse détecter ce nofollow dans le cas exposé ci-dessus. Quelqu’un pour valider ce point ?
22 h 41 min on novembre 14th, 2009
Par ex search status ne le détectera pas (je n’utilise pas seoquake). Par contre n’importe quel outil donnant le http response header l’indiquera
14 h 51 min on décembre 6th, 2009
bonjour je ne fais plus d echange de liens
personnellement c est perte de temps
et surtout aucun respect de bcp webmachin , et oui ,eux faut leur mettre leur merdouille en premiere page, et tout de suite, par contre nous faut attendre que les poules ont des dents
alors non merci
c est un peu la loterie ,et ,est ce vraiment si interressant que ca !!!
car le bla bla bla du il faut …. mais la realite elle est ou !!!
19 h 31 min on décembre 6th, 2009
quel ramassis de connerie !
X-Robots-Tag : noarchive et tu verras que c’est pas pris en compte pour les pages html
21 h 49 min on décembre 6th, 2009
Salut pagetronic|pagetoxic,
Je pense que tu fais allusion (notamment) à l’article de Tiger . Cependant de là à qualifier le reste de « ramassis de connerie » peux-tu étayer ta réponse ? Car je t’avoue que ça fait un peu léger comme argument…Et puis, sauf erreur de ma part, je crois savoir que tu utilises le noarchive sur un de tes sites…;-)
1 h 02 min on décembre 17th, 2009
Tres bon article merci, c’est vrai qu’en white Hat on se mefie moyen de ce genre de gadgets vicieux. Bon apres il faut aussi dire qu’on deale pas avec des requins comme on en trouve dans les business blackhat…
13 h 21 min on janvier 7th, 2010
Très bon article, je pense que je vais l’adapter en php dans pas longtemps histoire de vérifier tout ça !
12 h 42 min on janvier 10th, 2010
Merci pour l’information, allez hop je t’emmène sur mon twitter ^^.