Echange de liens : surveiller de près la directive X-Robots-Tag !

» Posté le 14 sept 2009

Echange de liens et directive x-robots-tag

J’ai eu l’idée de rédiger cet article suite à une discussion avec Tiger lors de la soirée SEO Sphère à Paris vendredi dernier. Il m’indiquait que la scène SEO française était, à son sens, peu averti de l’utilisation possible de la directive X-Robots-Tag dans l’entête HTTP des pages web (cela peut être un avantage ! Tout dépend de la couleur de son chapeau ;-) )

A quoi correspond la directive X-Robots-Tag ?

X-Robots-Tag est une directive (facultative) pouvant se trouver dans l’entête HTTP d’une page web au même titre que la directive Server ou encore la directive Content-Type par exemple. Elle a été mis en place par le moteur de recherche Google en 2007 puis adoptée par Yahoo et Bing. L’objectif de la mise en place de cette nouvelle directive est de proposer un moyen supplémentaire de contrôle du passage des robots d’indexation sur un site. Ainsi, cette directive est une alternative à la balise méta robots ou encore au fichier robots.txt qui répondent à ce même objectif.

Quelles sont les valeurs permettant de contrôler un robot d’indexation avec X-robots-tag ?

J’ai dénombré 8 groupes de valeurs possibles pour utiliser cette directive :

  • INDEX|NOINDEX : indique au robot si il doit ou non indexer la page
  • FOLLOW|NOFOLLOW – indique au crawler si il doit ou non suivre les liens contenus dans la page.
  • ALL|NONE – ALL = INDEX, FOLLOW (défaut), NONE = NOINDEX, NOFOLLOW
  • NOODP – indique aux moteurs de recherche de ne pas utiliser le titre et la description provenant de l’annuaire DMOZ dans les SERPs
  • NOYDIR – indique à Yahoo search de ne pas utiliser le titre et la description provenant de l’annuaire Yahoo dans les SERPs
  • NOARCHIVE – indique aux moteurs de recherche de ne pas mettre la page dans leur cache
  • NOSNIPPET – indique au robot qu’il ne faut pas afficher de descriptif (snippet) dans la page de résultats
  • UNAVAILABLE_AFTER: DATE (au format RFC 850) – indique au robot de désindexer la page après la date indiquée

Quel est le rapport avec la stratégie d’échange de lien ?

Généralement, lorsque l’on procède à un échange de liens avec un partenaire, notre principale soucis est de vérifier au niveau du code source qu’il s’agisse bien d’un lien en dur, que ce lien ne soit pas en nofollow,… Cependant, un partenaire malin peut très bien utiliser la directive X-Robots-Tag: nofollow dans l’entête HTTP de la page concernée pour profiter au maximum de cet échange à votre grand désavantage…On pense rarement à regarder l’en-tête HTTP !

A noter que cette technique peut également se faire avec les valeurs nofollow, none, noindex et unavailable_after.

Comment détecter cette technique de X-Robots-Tag scamming :-) ?

Pour vérifier si ce partenaire ne vous a pas arnaqué, vous pouvez vérifier manuellement l’entête de la page de partenariat avec le plugin firefox Webdeveloper par exemple. Cependant, si vous gérez plusieurs sites web, cela peut être fastidieux ! Voici un script shell permettant d’automatiser tout cela (vous trouverez dans le script des notes importantes) :

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
#!/bin/bash
## Description : Ce script permet de détecter si une page web utilise la directive X-Robots-Tag dans son en-tête http.
##               Il est important de vérifier l'état de cette directive lors d'un échange de liens par exemple.
## OS          : Linux, Mac, Windows avec Cygwin (non testé)
## Requires    : curl
## Licence     : Creative Commons BY-SA 2.0
## Version     : 0.1
## Author      : Olivier TASSEL <blog CHEZ olivier-tassel.fr>
## Web site    : http://www.olivier-tassel.fr/
## Note        : Pour une utilisation intensive de ce script (tâche cron,...), il peut être judicieux de passer l'url de la page en option 
 
# Variable
url="http://www.olivier-tassel.fr/"
 
# Je récupère la directive X-Robots-Tag dans l'en-tête http de la page
# L'option --location permet de récupérer l'en-tête de la nouvelle page si il y a eu une redirection 301 ou 302 par exemple
# On aurait pu utiliser l'option --head à la place de --include. Cependant, si la page web bloque les requêtes ayant pour méthode HEAD (un petit malin !?), le script serait bloqué.
# Avec l'option --include (qui affiche en sortie l'en-tête + le code source de la page), on utilise la méthode GET, comme ça on est tranquille 
xRobotsTag="`curl --include --silent --location $url | grep -i 'X-Robots-Tag :'`"
 
if [ "`echo $xRobotsTag | grep -oi noindex`" = "noindex" ] || [ "`echo $xRobotsTag | grep -oi nofollow`" = "nofollow" ] 
|| [ "`echo $xRobotsTag | grep -oi unavailable_after`" = "unavailable_after" ] || [ "`echo $xRobotsTag | grep -oi none`" = "none" ]
then 
	echo "On se moque de toi..."
else
	echo "C'est bon, le partenaire est clean ;-)"
fi

Adeptes du black hat SEO, utilisiez-vous cette technique ? Pratiquants du white hat SEO, la surveillance de l’entête faisait-elle partie de vos vérifications ?

P.S. : J’ai une préférence pour les scripts shell au lieu du PHP (même en ligne de commande) car je trouve cela plus pratique pour une utilisation en production. Cependant je sais que certains d’entre vous préfère le PHP ou encore le Perl. Si vous créez un script basé sur celui-ci dans un langage différent, un petit lien vers cet article serait sympa !

Catégories: Black hat SEO, Outils


32 Responses to “Echange de liens : surveiller de près la directive X-Robots-Tag !”


  1. Argh Merci Olivier !! On voit qu’elles sont utiles, les soirée de la Sphère ! c’était sympa comme article, surtout en ce moment, avec le concours Black hattitude, je vais me méfier maintenant :)


  2. Je découvre cette directive …
    Encore une fois un article tres instructif de ta part, merci !


  3. Si on parle du même Rudy, c’est lui qui m’avait parlé de la directive X-robots ! Merci pour l’article :-)


  4. Et dire que j’étais dans l’impossibilité d’assister a cette soirée. Arghhhh !!!!!

    Je découvre aussi cette directive.
    Cela serait intéressant d’intégrer ce contrôle dans un outil de vérification d’échange de liens.


  5. lemoussel, je t’ai tiré des griffes d’Akismet (cf article de Tiger) : tu étais dans la liste des commentaires indésirables… :-)


  6. Article très instructif, merci à Tiger et à toi.


  7. Eh oui …..

    Quelqu’un a surement imaginé que j’étais un black hattitude de la mort !
    Alors que en réalité, je suis un black hamittude.

    Merci Olivier, de me sortir du bac :-)


  8. @Robin, même chose pour toi : blacklistage Askimet. Mollo avec le spam de commentaire pour le concours ! ;-)

  9. b@x
    22 h 37 min on septembre 14th, 2009

    Merci pour cet article. J’étais complètement passée à côté de cette nouvelle directive. Je ne manquerai pas dorénavant de vérifier si elle est présente pour les partenariats que je gère.
    @+, b@


  10. Ce n’est pas bien de divulguer les secrets comme cela! Comme je vais échanger des liens maintenant?


  11. @Gnomecorp
    Je ne sais pas sur quel ton prendre ton message (ironique ?).
    A défaut d’en savoir plus, je t’invite à consulter une mise au point concernant cet article que j’ai posté sur le forum SEO sphère


  12. Exact, ironie, je pensais que tu l’aurais deviné après vendredi soir. ;)


  13. Ok, alors mea culpa :-)
    J’étais un peu sur les dents au moment de rédiger ce commentaire.


  14. En tout cas, cela permettra de ne plus se faire prendre s’il y avait déjà des utilisateurs ;-)

  15. Stoff
    20 h 56 min on septembre 15th, 2009

    Et bien merci pour l’astuce!

    :)


  16. Bonjour,

    Juste un petit mot pour dire que ton article très intéressant merci pour ce temps passer a partager :-)
    Cordialement,
    mehdi


  17. Au final, c’est ce que fait web developper non ?

  18. LJee
    14 h 19 min on septembre 18th, 2009

    Le problème ne se pose pas quand on fait des échanges en dehors des pages « partenaires », si ? Car mettre ce genre de balise sur une page n’étant pas prévu uniquement à un partenaire, ne serait vraiment pas judicieux (voir idiot).


  19. @Agence Publika…
    Effectivement webdevelopper permet de vérifier l’entête HTTP d’une page. Cependant, cela demande une action manuelle.
    Ce script permet d’automatiser le process de vérification. C’est un gain de temps non négligeable lorsqu’on a plusieurs sites à gérer !


  20. Voire plusieurs dizaines de sites à gérer!

    Heureusement qu’il reste d’autres techiques. ;-)


  21. Meh, cruelle la technique :/

  22. sid
    14 h 28 min on septembre 30th, 2009

    « J’ai une préférence pour les scripts shell au lieu du PHP (même en ligne de commande) car je trouve cela plus pratique pour une utilisation en production. » +10 000 ^^


  23. Car mettre ce genre de balise sur une page n’étant pas prévu uniquement à un partenaire, ne serait vraiment pas tres malin


  24. très intéressant, tu sais si Seoquake repère quand même les liens nofollow ?
    Car il les repère lorsque les liens sont précéder de rel= »nofollow » mais dans ton cas est-ce pareil ?

  25. Olivier
    22 h 29 min on octobre 19th, 2009

    @xevonaute
    Je n’utilise pas SEOquake mais je ne pense pas qu’il puisse détecter ce nofollow dans le cas exposé ci-dessus. Quelqu’un pour valider ce point ?


  26. Par ex search status ne le détectera pas (je n’utilise pas seoquake). Par contre n’importe quel outil donnant le http response header l’indiquera


  27. bonjour je ne fais plus d echange de liens

    personnellement c est perte de temps
    et surtout aucun respect de bcp webmachin , et oui ,eux faut leur mettre leur merdouille en premiere page, et tout de suite, par contre nous faut attendre que les poules ont des dents

    alors non merci

    c est un peu la loterie ,et ,est ce vraiment si interressant que ca !!!
    car le bla bla bla du il faut …. mais la realite elle est ou !!!

  28. pagetronic
    19 h 31 min on décembre 6th, 2009

    quel ramassis de connerie !
    X-Robots-Tag : noarchive et tu verras que c’est pas pris en compte pour les pages html


  29. Salut pagetronic|pagetoxic,
    Je pense que tu fais allusion (notamment) à l’article de Tiger . Cependant de là à qualifier le reste de « ramassis de connerie » peux-tu étayer ta réponse ? Car je t’avoue que ça fait un peu léger comme argument…Et puis, sauf erreur de ma part, je crois savoir que tu utilises le noarchive sur un de tes sites…;-)


  30. Tres bon article merci, c’est vrai qu’en white Hat on se mefie moyen de ce genre de gadgets vicieux. Bon apres il faut aussi dire qu’on deale pas avec des requins comme on en trouve dans les business blackhat…


  31. Très bon article, je pense que je vais l’adapter en php dans pas longtemps histoire de vérifier tout ça !

  32. Julien
    12 h 42 min on janvier 10th, 2010

    Merci pour l’information, allez hop je t’emmène sur mon twitter ^^.

Blog dofollow Commentaire de qualité, dofollow assuré !

Laisser un commentaire