guiderdoni.net

Bloc notes : spip, css, xhtml, web, standards, mac ...

Accueil > web > Le fichier robots.txt

Articles de cette rubrique

Articles

publie le vendredi 28 octobre 2005 par Alexandra

Le fichier robots.txt

http://www.indicateur.com/reference...

http://www.robotstxt.org/

L’utilité du fichier "robots"

Toutes les pages de votre site sont potentiellement "indexables". C’est-à-dire que toutes les urls peuvent être enregistrées.

C’est quoi un fichier "robots"

- fichier au format texte (.txt).

- à la racine du site, sur le serveur.

Exemple : www.domaine.net/robots.txt.

Il n’en faut qu’un, inutile d’en mettre dans chaque répertoire.

Quel est le contenu de ce fichier ?

Il faut indiquer ici les pages qui ne doivent pas être visitées par les robots des moteurs.

La syntaxe est :

# robots.txt
User-agent: *
Disallow: /noel/
Disallow: /prive/

La ligne "User-agent : *" indique que tous les moteurs sont concernés.

La ligne "Disallow : /noel/" interdit l’accès des moteurs à tout le répertoire noel, toutes les pages sous celui-ci ne seront pas indexées.

Quelques règles de base

Vous pouvez interdire l’accès à certaines pages.
Vous pouvez interdire l’accès à tout le site.
Cette commande permet donc de bloquer certains accès.
Un retour chariot est nécessaire en fin de ligne de commande.

Comment optimiser l’arborescence d’un site

Il est préférable d’utiliser des sous-répertoires plutôt que de mettre toutes les pages à la racine. Il est donc préférable de faire :

- www.domaine.net/rep1/
- www.adcom.fr/rep2/

Attention

- En règle générale et d’après expériences, presque tous les moteurs de recherche comprennent ce fichier.

- Lors de la soumission d’une page sur un moteur celui-ci va automatiquement vérifier la présence d’un fichier "robots" d’interdiction.

Cette technique n’est pas obligatoire, vous pouvez aussi utiliser la balise méta suivante :

<metaname="robots" content="noindex, follow" /> n'indexe pas la page, suit les liens
<metaname="robots" content="noindex, nofollow" /> n'indexe pas la page, ne suit pas les liens
<metaname="robots" content="index, follow" /> indexe la page, suit les liens
<metaname="robots" content="index, nofollow" /> indexe la page, ne suit pas les liens.

http://www.searchengineworld.com/ro...

Il faudra alors le faire sur toutes les pages.

The following allows all robots to visit all files because the wildcard "*" specifies all robots.

User-agent: *
Disallow:

This one keeps all robots out.

User-agent: *
Disallow: /

The next one bars all robots from the cgi-bin and images directories:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

This one bans Roverdog from all files on the server:

User-agent: Roverdog
Disallow: /

This one bans keeps googlebot from getting at the cheese.htm file:

User-agent: googlebot
Disallow: cheese.htm

Forum

Répondre à cet article

2005-2017 - Contenu en GPL http://www.guiderdoni.net - Site réalisé avec SPIP 
rechercher - plan du site - prive - alexandra.guiderdoni@gmail.com
CSS - XHTML - squelette