Référencer - A quoi sert robots.txt

Selon Google Outils pour Webmestres, robot.txt restreint l'accès des robots d'exploration à certaines pages. Les robots sérieux respectent les instructions, même si elles ne sont qu'indicatives puisqu'elles peuvent être contournées.

Les fichiers robot.txt génériques (livrés par exemple avec un cms) vont interdire l'exploration de certains répertoires et donc l'indexation de certaines urls qu'il serait parfois intéressant de libérer. Google donne la liste des urls qu'il n'indexe pas parce que c'est interdit par robot.txt.

On pourrait donc supprimer certaines lignes, voire même le fichier tout entier, comme le recommande Google Outils pour Webmestre, si l'on n'a rien à protéger contre l'indexation.

Les pages qui sont inaccessibles pour Google, soit protégées par mot de passe, comme des pages réservées aux membres, soit interdites d'indexation aux moteurs de recherche par le fichier robots.txt, ne pourront pas non plus être traduites par l'outil de traduction en ligne Google Translate.

Depuis août 2012, Google indique pourquoi une page interdite d'accès par robots.txt n'a pas de description quand elle sort dans ses résultats de recherche avec le le message suivant : "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus"

Le fichier robots.txt peut avoir pour utilité d'indiquer aux robots l'existence et l'adresse d'un site map. En ajoutant dans robots.txt une ligne avec cette syntaxe :
SITEMAP: http://votre-site.fr/sitemap.xml

Un sitemap (ou plan de site pour les robots) répertorie les urls de votre site



Index |Info | Permalien | PDF

Technique

Installer

Sécuriser

Référencer

Fabriquer le web

adHoc

Astuces CSS

Mail, Webmail, courrier etc ...

Piwigo

Écolibre