Google voudrait que le web devienne plus facile à indexer par son moteur de recherche. Pour cela, l'entreprise propose que son protocole d’exclusion des robots devienne un standard officiel du web.
(CCM) — Google vient de demander officiellement la création d'un nouveau standard d'utilisation des fichiers "robots.txt" par les webmasters. Ce protocole normalisé faciliterait la tâche des robots d'indexation – dont son Googlebot maison - lors de leurs visites des pages d'un site Internet.
Les fichiers « robots.txt » sont utilisés par les webmasters pour lister les règles d'indexation des pages de leurs sites par les moteurs de recherche. Ils servent par exemple à interdire l'accès à certains contenus. Les principes du Robots Exclusion Protocol - REP - ont été posés en 1994. Depuis, son fonctionnement a fait ses preuves : il est à la fois souple pour les éditeurs de sites et solide pour des moteurs de recherche sans cesse à l'affût de nouveaux contenus à indexer.
Mais après 25 ans de bons et loyaux services, Google veut mettre de l'ordre dans l'utilisation du REP, que les webmasters ont eu tendance à interpréter dans tous les sens possibles (certains fichiers robots.txt pèsent plusieurs centaines de Mo). Le moteur de recherche veut également mettre à jour les normes pour tenir compte des évolutions récentes du web.
Une demande officielle a donc été transmise à l'IETF - Internet Engineering Task Force - qui gère les protocoles sur Internet. Pour appuyer sa démarche, Google a également annoncé sur son blog (lien en anglais) le passage en open source de son outil de lecture des fichiers robots.txt. Avec son parser, le moteur de recherche a déjà indexé plus de 500 millions de sites au cours des vingt dernières années. Cela représente une expérience incomparable dans la maîtrise des fichiers robots.txt, au point que Google est aujourd'hui capable d'écrire le nouveau standard de l'un des fondements les plus critiques du web.