Formation PUB020 : WordPress, 2023 Mise en ligne d'un site WordPress

22.9 robots.txt


Chaque moteur de recherche utilise des robots qui parcourent les sites Web du monde entier afin d'en indexer le contenu.

Le fichier robots.txt précise aux robots des moteurs de recherche qu'est-ce qu'ils doivent indexer ou non sur votre site Web.

Quelques précautions :

  • Le nom du fichier doit être entièrement en lettres minuscules.
  • Il ne faut pas oublier le « s » à robots.txt.
  • Le fichier ne doit contenir aucune ligne blanche.
  • Il ne doit pas non plus contenir d'informations contradictoires.

Attention : ce fichier ne permet pas de cacher des informations sensibles. Des robots malveillants pourraient l'ignorer.

Il faut donc s'assurer que les configurations au niveau du serveur protègent les données sensibles. Le fichier robots.txt permet cependant d'éviter que du contenu sensible se retrouve sur Google.

Voici quelques consignes à suivre :

  • Le site entier ne devrait jamais être indexé avant que la programmation soit terminée. On pourrait cependant indexer la page d'accueil ou une version préliminaire du site pour permettre aux moteurs de connaître notre site le plus tôt possible.
  • Souvent, on mettra un site en ligne pendant la phase de développement pour permettre au client de le tester. Ce site utilisera une URL temporaire. Il faudra s'assurer que les données de test ne se retrouvent pas sur les moteurs de recherche. Le fichier robots.txt du site temporaire devra donc dire aux robots de ne rien indexer.
  • Si le site contient une zone privilégiée pour les usagers authentifiés, on pourra créer un dossier dans lequel les documents à l'intention de ces internautes seront placés. Ce dossier ne doit surtout pas être indexé.

Le fichier robots.txt est un simple petit fichier texte qui doit être placé à la racine du site Web.

Attention : dans certains environnements de développement, la racine du site Web et la racine du projet sont deux dossiers distincts. Par exemple, sous Laravel, la racine du site Web est le dossier public.

Voici un exemple de fichier robots.txt quand le site est en développement. Il assure que rien ne sera indexé.

Fichier robots.txt

# robots.txt pour le site en développement : rien ne sera indexé
User-agent: *
Disallow: /

Voici un exemple de fichier robots.txt quand le site est mis en production. Il assure que tout sera indexé à l'exception du contenu du dossier gestion, du dossier test et du fichier pagecritique.php.

Fichier robots.txt

# robots.txt pour le site en ligne : tout sera indexé sauf les fichiers et dossiers spécifiés
User-agent: *
Disallow: /gestion/
Disallow: /test/
Disallow: /pageprivee.php

Pour un site WordPress en production, on utilisera plutôt ceci :

Fichier robots.txt

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/

Cette version du fichier robots.txt assure que le site sera indexé en entier.

Fichier robots.txt

# robots.txt pour le site en ligne : tout sera indexé
User-agent: *
Disallow:

Vérifier la validité de votre robots.txt

Google offre un outils très intéressant : l'outil test du fichier robots.txt : https://www.google.com/webmasters/tools/robots-testing-tool. Pour l'utiliser, vous devez avoir configuré un compte sur Google Search Console (anciennement Google Webmasters) et y avoir inscrit votre site.

Il est important d'utiliser cet outil afin de vous assurer que votre fichier robots.txt est conforme. L'outil vous permettra également d'aviser Google de tout changement à votre fichier robots.txt afin que l'indexation soit ajustée plus rapidement que si Google avait réalisé par lui-même ce changement.

Pour plus d'information

« The Web Robots Pages ». robotstxt.org. http://www.robotstxt.org/

« A Standard for Robot Exclusion ». robotstxt.org. http://www.robotstxt.org/orig.html

« Robots.txt Checker ». Motoricerca. http://tool.motoricerca.info/robots-checker.phtml

« A Guide to Robots.txt and Mistakes to Avoid ». Koozai. https://www.koozai.com/blog/search-marketing/a-brief-guide-to-robots-txt-and-five-mistakes-to-avoid/

▼Publicité

Veuillez noter que le contenu de cette fiche vous est partagé à titre gracieux, au meilleur de mes connaissances et sans aucune garantie.
Merci de partager !

Site fièrement hébergé chez A2 Hosting.

Soumettre