Comment fonctionne le robots.txt

Qu’est-ce que c’est le fichier robots.txt ?

Un fichier robots.txt est un fichier texte situé à la racine de votre site.

Il sert à empêcher les robots d’exploration à d’accéder à tout ou une partie d’un site web.

On appelle cela : le protocole d’exclusion des robots.

Il permet donc d’éviter l’indexation par les moteurs de recherche de certaines pages que vous souhaitez privées.

Ce fichier permet également d’indiquer aux moteurs l’adresse du fichier sitemap.xml du site.

Comment ça fonctionne ?

Les robots passent régulièrement sur votre site, ils explorent les URL de ce dernier (oui comme dans Matrix ! ils voient tout !).

Mais, s’il y a un fichier robots.txt, il va d’abord le lire en premier et exclure les contenus que vous lui aurez indiqués.

Pourquoi faire ?

L’objectif principal du fichier robots.txt est donc de manager le temps de crawl du robot en lui interdisant de parcourir des pages à faible valeur ajoutée, mais qui doivent exister pour le parcours utilisateur (panier d’achat, compte client…).

Comment créer un fichier robots.txt ?

Ce fichier doit être d’une taille inférieure à 512 Ko.

Selon Google, le fichier robots.txt est généralement mis en cache pendant 24 heures au maximum (les robots repasseront toutes les 24h).

Il s’installe à la racine de votre site : https://www.adressedemonsite.com/robots.txt

L’adresse peut être un peu différente parfois si vous ne le trouvez pas à celle-ci.

Le nom robots.txt est sensible à la casse, alors pas de majuscule ou cela ne fonctionnera pas.

Les pages visibles : préfixe Allow

Celles invisibles : préfixe Disallow

User-agent:*

Nous demandons à tous les robots !

Disallow: /

Ne rien indexer !

User-agent:*

Nous demandons à tous les robots !

Allow: /

De tout indexer !

L’indication disallow: /* demande aux robots d’indexation de ne visiter aucune page de votre site. Très utile pour cacher la préprod aux crawlers, c’est une véritable arme de destruction massive pour un site en ligne. Cela peut aller très vite.

Ce fichier doit être d’une taille inférieure à 512 Ko

Exemples

**User-agent: ***

Nous demandons à tous les robots !

Disallow: /wp-login.php

Ne pas indexer la page de Connexion/Inscription !

Disallow: /wp-admin

Ne pas indexer le dossier wp-admin

Disallow: /wp-includes

Ne pas indexer le dossier wp-includes

Disallow: /wp-content

Ne pas indexer le dossier wp-content

Allow: /wp-content/uploads/

Voici notre exception, on ne souhaite pas indexer le dossier wp-content mais par contre on veut indexer le sous dossier uploads contenu dans wp-content qui contient nos images, vidéos…

Bloquer des pages spécifiques :

User-agent: * Disallow: /page-a.html Disallow: /page-b.html

Indiquer le fichier sitemap aux robots :

Sitemap: http://www.example.com/sitemap.xml

remplacer l’url par la votre

Un peu plus loin dans l’optimisation :

Disallow: /cgi-bin # Ne pas indexer ce répertoire qui est sensible

Disallow: /.php$ Disallow: /.inc$ Disallow: /.gz$ Disallow: /.cgi$ # Ne pas indexer les fichiers sensibles

Disallow: /trackback # Ne pas indexer les URL de trackback et de ping

Disallow: //feed # Ne pas indexer les flux RSS sauf le principal

Disallow: /*/comments Ne pas indexer les URL de commentaire

Et en plus

User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-content/uploads/ Disallow: /wp-content Disallow: /cgi-bin Disallow: //feed Disallow: /trackback Disallow: //comments Disallow: /.php$ Disallow: /.cgi$ Disallow: /.inc$ Disallow: /*.gz$

Disallow: /*? On désindexe tous les URL ayant des paramètres (duplication de contenu)

On autorise l’accès aux fichiers CSS et JS pour ne pas être pénalisé sur la recherche par mobile.

Allow: /css? Allow: /js?

Disallow: /*.pdf$ Aucun document dont l’URL se termine par « .pdf » ne sera exploré

Comment voir si j’ai bien ce fichier ?

Ajoutez robots.txt à l’adresse de vote site : https://www.adressedemonsite.com/robots.txt

S’il n’y a rien, regardez via FileZilla à la racine de votre site, l’adresse peut être un peu différente parfois.

Le nom robots.txt est sensible à la casse, alors faites-le bien ou cela ne fonctionnera pas.

Tester votre fichier : https://www.google.com/webmasters/tools/robots-testing-tool?siteUrl=https://nomdevotresite.com/

Exemple type :

User-agent: *

# On empêche l’indexation des dossiers sensibles

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /trackback

Disallow: /feed

Disallow: /comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */feed

Disallow: */comments

Disallow: /*.pdf$#

On désindexe toutes les URL ayant des paramètres (duplication de contenu)

Disallow: /*?*

Disallow: /*?# On désindexe la page de connexion (contenu inutile)

Disallow: /wp-login.php

# On autorise l’indexation des images

Allow: /wp-content/uploads

User-agent: Googlebot

# On empêche l’indexation des fichiers sensibles

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.gz$

Disallow: /*.pdf$

# Autoriser Google Image

User-agent: Googlebot-Image

Disallow:

Allow: /*

# Autoriser Google AdSense

User-agent: Mediapartners-Google*

Disallow:

Allow: /*

# Autoriser Ahrefs

User-agent: AhrefsSiteAudit

Allow: /*

User-agent: AhrefsBot

Allow: /*

# On indique au spider le lien vers notre sitemap

Sitemap: https://wpmarmite.com/sitemap_index.xml

Et le fichier Humans.txt s’est quoi ?

C’est une sorte de fichier de remerciement ! on y met les contributeurs du site (un peu comme sur les mentions légales).

https://www.adressedevotresite.com/humans.txt

/* TEAM */Founder:monsieur UntelContact: adresse[at] mailTwitter: @compteFrom:maville

/* THANKS */

Host: OVHTwitter: @OVHContact: support [at] ovhFrom: Montpellier, Hérault, France

Webdesigner: Son NOMTwitter: @compteContact: adresse[at] mailFrom: Montpellier, Hérault, France

/* SITE */Last update: 2020/01/22Language: FrenchSoftware: WordPress

Ressources

Lien vers le site webmaster de Google pour en savoir plus

Pour Prestashop

https://wpmarmite.com/robots-txt-wordpress/

The ultimate guide to robots.txt