Qu’est-ce que c’est le fichier robots.txt ?
Un fichier robots.txt
est un fichier texte situé à la racine de votre site.
Il sert à empêcher les robots d’exploration à d’accéder à tout ou une partie d’un site web.
On appelle cela : le protocole d’exclusion des robots.
Il permet donc d’éviter l’indexation par les moteurs de recherche de certaines pages que vous souhaitez privées.
Ce fichier permet également d’indiquer aux moteurs l’adresse du fichier sitemap.xml du site.
Comment ça fonctionne ?
Les robots passent régulièrement sur votre site, ils explorent les URL de ce dernier (oui comme dans Matrix ! ils voient tout !).
Mais, s’il y a un fichier robots.txt, il va d’abord le lire en premier et exclure les contenus que vous lui aurez indiqués.
Pourquoi faire ?
L’objectif principal du fichier robots.txt est donc de manager le temps de crawl du robot en lui interdisant de parcourir des pages à faible valeur ajoutée, mais qui doivent exister pour le parcours utilisateur (panier d’achat, compte client…).
Comment créer un fichier robots.txt ?
Ce fichier doit être d’une taille inférieure à 512 Ko.
Selon Google, le fichier robots.txt est généralement mis en cache pendant 24 heures au maximum (les robots repasseront toutes les 24h).
Il s’installe à la racine de votre site : https://www.adressedemonsite.com/robots.txt
L’adresse peut être un peu différente parfois si vous ne le trouvez pas à celle-ci.
Le nom robots.txt est sensible à la casse, alors pas de majuscule ou cela ne fonctionnera pas.
Les pages visibles : préfixe Allow
Celles invisibles : préfixe Disallow
User-agent:*
Nous demandons à tous les robots !
Disallow: /
Ne rien indexer !
User-agent:*
Nous demandons à tous les robots !
Allow: /
De tout indexer !
L’indication disallow: /* demande aux robots d’indexation de ne visiter aucune page de votre site. Très utile pour cacher la préprod aux crawlers, c’est une véritable arme de destruction massive pour un site en ligne. Cela peut aller très vite.
Ce fichier doit être d’une taille inférieure à 512 Ko
Exemples
**User-agent: ***
Nous demandons à tous les robots !
Disallow: /wp-login.php
Ne pas indexer la page de Connexion/Inscription !
Disallow: /wp-admin
Ne pas indexer le dossier wp-admin
Disallow: /wp-includes
Ne pas indexer le dossier wp-includes
Disallow: /wp-content
Ne pas indexer le dossier wp-content
Allow: /wp-content/uploads/
Voici notre exception, on ne souhaite pas indexer le dossier wp-content mais par contre on veut indexer le sous dossier uploads contenu dans wp-content qui contient nos images, vidéos…
Bloquer des pages spécifiques :
User-agent: * Disallow: /page-a.html Disallow: /page-b.html
Indiquer le fichier sitemap aux robots :
Sitemap: http://www.example.com/sitemap.xml
remplacer l’url par la votre
Un peu plus loin dans l’optimisation :
Disallow: /cgi-bin # Ne pas indexer ce répertoire qui est sensible
Disallow: /.php$ Disallow: /.inc$ Disallow: /.gz$ Disallow: /.cgi$ # Ne pas indexer les fichiers sensibles
Disallow: /trackback # Ne pas indexer les URL de trackback et de ping
Disallow: //feed # Ne pas indexer les flux RSS sauf le principal
Disallow: /*/comments Ne pas indexer les URL de commentaire
Et en plus
User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-content/uploads/ Disallow: /wp-content Disallow: /cgi-bin Disallow: //feed Disallow: /trackback Disallow: //comments Disallow: /.php$ Disallow: /.cgi$ Disallow: /.inc$ Disallow: /*.gz$
Disallow: /*? On désindexe tous les URL ayant des paramètres (duplication de contenu)
On autorise l’accès aux fichiers CSS et JS pour ne pas être pénalisé sur la recherche par mobile.
Allow: /css? Allow: /js?
Disallow: /*.pdf$ Aucun document dont l’URL se termine par « .pdf » ne sera exploré
Comment voir si j’ai bien ce fichier ?
Ajoutez robots.txt à l’adresse de vote site : https://www.adressedemonsite.com/robots.txt
S’il n’y a rien, regardez via FileZilla à la racine de votre site, l’adresse peut être un peu différente parfois.
Le nom robots.txt est sensible à la casse, alors faites-le bien ou cela ne fonctionnera pas.
Tester votre fichier : https://www.google.com/webmasters/tools/robots-testing-tool?siteUrl=https://nomdevotresite.com/
Exemple type :
User-agent: *
# On empêche l’indexation des dossiers sensibles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*.pdf$#
On désindexe toutes les URL ayant des paramètres (duplication de contenu)
Disallow: /*?*
Disallow: /*?# On désindexe la page de connexion (contenu inutile)
Disallow: /wp-login.php
# On autorise l’indexation des images
Allow: /wp-content/uploads
User-agent: Googlebot
# On empêche l’indexation des fichiers sensibles
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.pdf$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Autoriser Ahrefs
User-agent: AhrefsSiteAudit
Allow: /*
User-agent: AhrefsBot
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: https://wpmarmite.com/sitemap_index.xml
Et le fichier Humans.txt s’est quoi ?
C’est une sorte de fichier de remerciement ! on y met les contributeurs du site (un peu comme sur les mentions légales).
https://www.adressedevotresite.com/humans.txt
/* TEAM */Founder:monsieur UntelContact: adresse[at] mailTwitter: @compteFrom:maville
/* THANKS */
Host: OVHTwitter: @OVHContact: support [at] ovhFrom: Montpellier, Hérault, France
Webdesigner: Son NOMTwitter: @compteContact: adresse[at] mailFrom: Montpellier, Hérault, France
/* SITE */Last update: 2020/01/22Language: FrenchSoftware: WordPress
Ressources
Lien vers le site webmaster de Google pour en savoir plus
https://wpmarmite.com/robots-txt-wordpress/