Chaque moteur de recherche utilise des robots qui parcourent les sites Web du monde entier afin d'en indexer le contenu.
Le fichier robots.txt précise aux robots des moteurs de recherche qu'est-ce qu'ils doivent indexer ou non sur votre site Web.
Quelques précautions :
Attention : ce fichier ne permet pas de cacher des informations sensibles. Des robots malveillants pourraient l'ignorer.
Il faut donc s'assurer que les configurations au niveau du serveur protègent les données sensibles. Le fichier robots.txt permet cependant d'éviter que du contenu sensible se retrouve sur Google.
Voici quelques consignes à suivre :
Le fichier robots.txt est un simple petit fichier texte qui doit être placé à la racine du site Web.
Attention : dans certains environnements de développement, la racine du site Web et la racine du projet sont deux dossiers distincts. Par exemple, sous Laravel, la racine du site Web est le dossier public.
Voici un exemple de fichier robots.txt quand le site est en développement. Il assure que rien ne sera indexé.
# robots.txt pour le site en développement : rien ne sera indexé
User-agent: *
Disallow: /
Voici un exemple de fichier robots.txt quand le site est mis en production. Il assure que tout sera indexé à l'exception du contenu du dossier gestion, du dossier test et du fichier pagecritique.php.
# robots.txt pour le site en ligne : tout sera indexé sauf les fichiers et dossiers spécifiés
User-agent: *
Disallow: /gestion/
Disallow: /test/
Disallow: /pageprivee.php
Pour un site WordPress en production, on utilisera plutôt ceci :
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Cette version du fichier robots.txt assure que le site sera indexé en entier.
# robots.txt pour le site en ligne : tout sera indexé
User-agent: *
Disallow:
Google offre un outils très intéressant : l'outil test du fichier robots.txt : https://www.google.com/webmasters/tools/robots-testing-tool. Pour l'utiliser, vous devez avoir configuré un compte sur Google Search Console (anciennement Google Webmasters) et y avoir inscrit votre site.
Il est important d'utiliser cet outil afin de vous assurer que votre fichier robots.txt est conforme. L'outil vous permettra également d'aviser Google de tout changement à votre fichier robots.txt afin que l'indexation soit ajustée plus rapidement que si Google avait réalisé par lui-même ce changement.
« The Web Robots Pages ». robotstxt.org. http://www.robotstxt.org/
« A Standard for Robot Exclusion ». robotstxt.org. http://www.robotstxt.org/orig.html
« Robots.txt Checker ». Motoricerca. http://tool.motoricerca.info/robots-checker.phtml
« A Guide to Robots.txt and Mistakes to Avoid ». Koozai. https://www.koozai.com/blog/search-marketing/a-brief-guide-to-robots-txt-and-five-mistakes-to-avoid/
▼Publicité
Site fièrement hébergé chez A2 Hosting.