Le fichier robots.txt est un fichier texte, ASCII, contenant des commandes
à destination des moteurs de recherche, il se place à la racine du site. Sa fonction
est d'informer les robots d'indexation des pages qui peuvent ou ne peuvent pas être visitées.
Tous les moteurs de recherche commencent par chercher ce fichier
robots.txt lors de l'exploration d'un site, blog, cms, wiki.
Un fichier robots.txt n'est pas obligatoire, mais il ne doit pas contenir de
lignes vide. Attention à la sécurité car tout le monde peut voir ce fichier, il pourrait même
aider certaines personnes malveillantes.
Pour préciser le robot concerné par les directives il faut utiliser User-Agent,
la valeur * signifie que les directives s'applique à tous les moteurs de recherche.
User-Agent: *
Pour indiquer les pages à exclure de l'indexation, chaque chemin à exclure est sur
une ligne à part et doit commencer par un slash /.
Disallow:
Quelques exemples de User-Agents.
Google = Googlebot
Alta Vista = Scooter
InfoSeek= InfoSeek Sidewinder
Excite = ArchitextSpider
Lycos = T-Rex
HotBot = Slurp
Voilà = Echo
Pour exclure aucune page, c'est pareil que si il n'y a pas de fichier robots.txt,
sans les messages d'erreurs de log avec Apache.
User-Agent: *
Disallow:
Pour exclure toutes les pages d'un site.
User-Agent: *
Disallow: /
Pour exclure toutes les pages d'un répertoire et ses sous-dossiers.
User-Agent: *
Disallow: /security/
Disallow:
Pour exclure une seul page, html, php ou autre.
User-Agent: *
Disallow: /chemin/fichier.html
Disallow:
Autoriser un seul robot.
User-Agent: Googlebot
Disallow:
User-Agent: *
Disallow: /
Exclure un robot.
User-Agent: Slurp
Disallow: /
User-Agent: *
Disallow: