Contenu | Recherche | Style du site | Accessibilité | Plan du site

Org #!/bin/libre

Docs Debian Événements A propos Contact Product Staff

WebDev LiborDocs

Le fichier robots.txt

A propos du fichier robots.txt

Le fichier robots.txt est un fichier texte, ASCII, contenant des commandes à destination des moteurs de recherche, il se place à la racine du site. Sa fonction est d'informer les robots d'indexation des pages qui peuvent ou ne peuvent pas être visitées. Tous les moteurs de recherche commencent par chercher ce fichier robots.txt lors de l'exploration d'un site, blog, cms, wiki.

Un fichier robots.txt n'est pas obligatoire, mais il ne doit pas contenir de lignes vide. Attention à la sécurité car tout le monde peut voir ce fichier, il pourrait même aider certaines personnes malveillantes.

Les directives robots.txt

Pour préciser le robot concerné par les directives il faut utiliser User-Agent, la valeur * signifie que les directives s'applique à tous les moteurs de recherche.

User-Agent: *

Pour indiquer les pages à exclure de l'indexation, chaque chemin à exclure est sur une ligne à part et doit commencer par un slash /.

Disallow:

Quelques exemples de User-Agents.

Google = Googlebot
Alta Vista = Scooter
InfoSeek= InfoSeek Sidewinder
Excite = ArchitextSpider
Lycos = T-Rex
HotBot = Slurp
Voilà = Echo

Exemple de contenu de fichier robots.txt

Pour exclure aucune page, c'est pareil que si il n'y a pas de fichier robots.txt, sans les messages d'erreurs de log avec Apache.

User-Agent: *
Disallow:

Pour exclure toutes les pages d'un site.

User-Agent: *
Disallow: /

Pour exclure toutes les pages d'un répertoire et ses sous-dossiers.

User-Agent: *
Disallow: /security/
Disallow:

Pour exclure une seul page, html, php ou autre.

User-Agent: *
Disallow: /chemin/fichier.html
Disallow:

Autoriser un seul robot.

User-Agent: Googlebot
Disallow:
User-Agent: *
Disallow: /

Exclure un robot.

User-Agent: Slurp
Disallow: /
User-Agent: *
Disallow:

haut de la page