⚙️ SEO Technique

Optimisation du fichier robots.txt
— Guide Complet 2026

Le fichier robots.txt est votre première ligne de communication avec Googlebot. Mal configuré, il peut exclure des pages entières de l'index ou gaspiller votre crawl budget. Ce guide vous donne toutes les clés pour le maîtriser.

✍️ Par l'équipe SEOExpert 📅 Mis à jour : juin 2026 ⏱ 12 min de lecture 🎯 Niveau : Intermédiaire
robots.txt crawl budget Googlebot indexation SEO technique
1
fichier par site — placé à la racine du domaine
500 Ko
taille maximale lue par Googlebot
≠ noindex
robots.txt bloque le crawl, pas l'indexation
24h
délai moyen de prise en compte par Google

Le fichier robots.txt est l'un des éléments les plus simples — et les plus mal compris — du SEO technique. En quelques lignes, il peut orienter Googlebot vers vos pages importantes, lui éviter de perdre du temps sur des URLs inutiles, et protéger certaines zones de votre site.

Mais une seule directive mal placée peut catastrophiquement bloquer tout votre site. Des agences entières ont vu leur trafic s'effondrer du jour au lendemain à cause d'un Disallow: / oublié après une refonte.

🚨

Erreur critique fréquente : lors d'une refonte ou d'un passage en préproduction, les développeurs bloquent souvent l'ensemble du site avec Disallow: /. Si cette directive n'est pas retirée lors de la mise en ligne, Google désinscrit progressivement toutes vos pages de l'index. Vérifiez votre robots.txt immédiatement après chaque déploiement.


📐 Syntaxe et Structure du fichier robots.txt

Le fichier robots.txt obéit au protocole REP (Robots Exclusion Protocol). Sa structure est simple mais sa précision est essentielle. Voici les éléments fondamentaux :

User-agent
Identifie le robot ciblé. User-agent: * s'applique à tous les robots. Vous pouvez cibler un bot spécifique : User-agent: Googlebot, Googlebot-Image, Bingbot… Les règles s'appliquent au groupe User-agent qui les précède directement.
Disallow
Interdit le crawl d'un chemin ou d'une URL. Disallow: /admin/ bloque tout le répertoire admin. Disallow: (vide) ou Allow: / signifie que tout est autorisé. Attention : Disallow: / bloque TOUT le site.
Allow
Autorise explicitement un chemin dans une zone bloquée. Prend précédence sur Disallow quand les deux règles s'appliquent. Exemple : bloquer /private/ mais autoriser /private/legal.html.
Sitemap
Indique l'URL de votre sitemap XML à tous les robots qui lisent ce fichier. Bonne pratique systématique, même si vous soumettez votre sitemap dans Search Console. Accepte plusieurs lignes Sitemap pour plusieurs sitemaps.
Crawl-delay
Non supporté par Googlebot (utilisez plutôt la Search Console). Encore utilisé par Bing et certains crawlers tiers. Définit un délai en secondes entre deux requêtes du bot.

🃏 Wildcards supportées

Google supporte deux types de wildcards dans les chemins :

Wildcard Signification Exemple Support
* N'importe quelle séquence de caractères Disallow: /*? — bloque toutes les URLs avec paramètres Google ✓
$ Fin de l'URL (correspond exactement) Disallow: /*.pdf $ — bloque uniquement les .pdf Google ✓

💻 Exemples Concrets par Type de Site

🏠 Site vitrine / Blog

Pour un site simple, l'objectif est de bloquer uniquement les zones d'administration et les pages sans valeur SEO (résultats de recherche interne, pages de tags génériques…).

📄 robots.txt — Site vitrine / Blog
# ═══════════════════════════════════════ # robots.txt — Site vitrine # Dernière mise à jour : 2026-06-01 # ═══════════════════════════════════════ User-agent: * # Administration Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php # Recherche interne et filtres Disallow: /?s= Disallow: /search/ # Pages techniques WordPress Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /xmlrpc.php Disallow: /trackback/ # Flux RSS (facultatif) Disallow: /feed/ Disallow: */feed/ # Sitemap Sitemap: https://votredomaine.com/sitemap.xml

🛒 Site e-commerce

Les sites e-commerce génèrent massivement des URLs non-indexables : paniers, comptes clients, filtres de navigation à facettes, pages de tri, confirmations de commande… Un robots.txt bien configuré préserve votre crawl budget pour les pages produits et catégories.

🛒 robots.txt — E-commerce (WooCommerce / Shopify)
# ═══════════════════════════════════════ # robots.txt — E-commerce # ═══════════════════════════════════════ User-agent: * # Espaces personnels Disallow: /mon-compte/ Disallow: /panier/ Disallow: /commander/ Disallow: /checkout/ Disallow: /commande-recue/ # Filtres de navigation à facettes Disallow: /*?couleur= Disallow: /*?taille= Disallow: /*?tri= Disallow: /*?page= # Administration Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php # Recherche interne Disallow: /?s= Disallow: /recherche/ # Règles spécifiques Googlebot Images User-agent: Googlebot-Image Allow: /wp-content/uploads/ # Sitemaps Sitemap: https://boutique.com/sitemap_index.xml Sitemap: https://boutique.com/sitemap-produits.xml

⚙️ Application SaaS / Plateforme web

Pour un SaaS, l'enjeu est de ne laisser indexer que les pages marketing publiques, et d'exclure totalement l'application elle-même (tableaux de bord, paramètres, données utilisateurs…).

⚙️ robots.txt — SaaS / Application
# ═══════════════════════════════════════ # robots.txt — SaaS # Pages publiques indexées, app bloquée # ═══════════════════════════════════════ User-agent: * # Application complète (authentifiée) Disallow: /app/ Disallow: /dashboard/ Disallow: /settings/ Disallow: /api/ Disallow: /auth/ Disallow: /login Disallow: /register Disallow: /reset-password # Pages publiques : autorisées (pas besoin de les lister) # / → page d'accueil # /features/ → fonctionnalités # /pricing/ → tarifs # /blog/ → contenu SEO Sitemap: https://app.votredomaine.com/sitemap.xml

🚫 Les 7 Erreurs robots.txt les Plus Dangereuses

Ces erreurs sont régulièrement détectées lors d'audits SEO techniques. Certaines peuvent anéantir votre référencement en quelques jours.

🔴
Bloquer tout le site
User-agent: * Disallow: /

Erreur numéro 1 post-refonte. Bloque Googlebot sur tout le site. Impact catastrophique en 2–3 semaines.

🔴
Bloquer les ressources CSS/JS
Disallow: /wp-content/ Disallow: /assets/

Google ne peut plus rendre vos pages correctement. Cela nuit aux Core Web Vitals et à la compréhension du contenu.

🟠
Confondre robots.txt et noindex

Bloquer une page dans robots.txt ne l'empêche pas d'être indexée si des backlinks pointent vers elle. Utilisez <meta name="robots" content="noindex"> pour ça.

🟠
Slash manquant sur les dossiers
Disallow: /admin ← bloque aussi /administrator, /admin2… Disallow: /admin/ ← correct

Sans le slash final, la règle s'applique à tout ce qui commence par /admin, y compris des pages légitimes.

🟡
Sitemap absent ou invalide

Ne pas déclarer le Sitemap dans robots.txt est une occasion manquée. Vérifiez que l'URL du sitemap est accessible et retourne un code HTTP 200.

🟡
Règles contradictoires
Disallow: /blog/ Allow: /blog/article-1 # Laquelle s'applique ? La plus spécifique.

En cas de conflit, Google applique la règle la plus longue/spécifique. Testez toujours avec le testeur GSC.

🟡
Sensibilité à la casse
Disallow: /Admin/ ← ne bloque pas /admin/ Disallow: /admin/ ← correct

Les chemins sont sensibles à la casse. /Admin/ et /admin/ sont deux chemins différents pour Googlebot.


📊 robots.txt et Crawl Budget : Stratégie Avancée

Le crawl budget représente le nombre de pages que Googlebot est prêt à explorer sur votre site dans un intervalle de temps donné. Pour les sites de petite à moyenne taille (< 1 000 pages), ce n'est généralement pas un problème critique. Mais pour les e-commerces, plateformes ou sites à fort volume de contenu, c'est un levier SEO important.

📌

Règle des 80/20 : sur la plupart des sites e-commerce, 20 % des URLs (produits, catégories, pages guides) génèrent 80 % du trafic. Le but est de concentrer le crawl budget sur ces 20 % en bloquant les URLs à faible valeur SEO.

🎯 URLs candidates au blocage robots.txt

Type d'URL Exemple Recommandation Raison
/panier/ /cart?id=abc Bloquer Aucune valeur SEO, contenu dynamique non pertinent
/?page=N /blog/?page=14 Évaluer Pages de pagination profondes souvent peu utiles
/?tri=prix-asc /chaussures/?tri=prix-asc Bloquer Contenu dupliqué, paramètres de tri
/search/ /recherche/?q=rouge Bloquer Résultats de recherche interne sans valeur
/tag/ /tag/promotion/ Évaluer Tags WordPress souvent peu différenciés
/wp-json/ /wp-json/wp/v2/posts Bloquer API REST WordPress, contenu technique non destiné aux moteurs
/sitemap.xml /sitemap.xml Autoriser Ne jamais bloquer le sitemap

🔬 Comment Tester et Valider votre robots.txt

Avant de déployer une modification, testez toujours vos règles. Une erreur de syntaxe peut avoir des conséquences irréversibles à court terme.

  • 1
    Google Search Console → Outils d'inspection
    Allez dans GSC › Paramètres › Testeur robots.txt. Entrez une URL et vérifiez si Googlebot peut l'explorer. C'est l'outil de référence — il utilise le même parseur que Google.
  • 2
    Accéder directement à votre fichier
    Ouvrez votredomaine.com/robots.txt dans votre navigateur. Vérifiez qu'il retourne bien un code HTTP 200 (pas 404, pas 500). Un robots.txt inaccessible est ignoré par Google — ce qui équivaut à tout autoriser.
  • 3
    Screaming Frog — simulation de crawl
    En version gratuite (500 URLs), Screaming Frog respecte votre robots.txt et vous indique quelles pages sont bloquées. Idéal pour un audit rapide avant/après modification.
  • 4
    Rapport Couverture dans GSC
    Après modification, surveillez le rapport Couverture (Index). Une augmentation des URLs en statut « Exclues — bloquées par robots.txt » peut signaler un blocage involontaire.
  • 5
    Outil Bing Webmaster Tools
    Si vous ciblez aussi Bing, testez votre robots.txt dans Bing Webmaster Tools. Bingbot a quelques différences de comportement, notamment sur le support de Crawl-delay.
💡

Bonne pratique : versionnez votre fichier robots.txt dans votre dépôt Git et documentez chaque modification avec la date et la raison du changement. En cas de chute de trafic inexpliquée, c'est l'un des premiers fichiers à vérifier.


✅ Checklist robots.txt à Vérifier Maintenant

✅ Checklist robots.txt — Points de contrôle
☐ Le fichier est accessible sur /robots.txt (HTTP 200) ☐ Aucun "Disallow: /" global non intentionnel ☐ Les ressources CSS/JS ne sont pas bloquées ☐ Le sitemap.xml est déclaré et accessible ☐ Les zones sensibles sont bloquées (admin, panier, compte) ☐ Les paramètres d'URL sans valeur SEO sont bloqués ☐ Pas de conflit entre Disallow et Allow sur les mêmes chemins ☐ Les règles sont testées dans Google Search Console ☐ Le fichier fait moins de 500 Ko ☐ Il n'y a pas de règles Crawl-delay pour Googlebot

🔍

Votre robots.txt est-il correctement configuré ?

Un audit SEO technique gratuit pour vérifier votre robots.txt, votre sitemap, vos balises meta et l'ensemble de votre configuration d'indexation.

✅ Audit offert sans engagement ⏱ Réponse sous 24 h 📊 Rapport détaillé inclus 🔒 100 % confidentiel

❓ FAQ — robots.txt et SEO

Les questions les plus fréquentes sur la configuration et l'impact SEO du fichier robots.txt.

Quelle est la différence entre robots.txt et la balise noindex ?

robots.txt bloque le crawl : Googlebot ne visitera pas la page, mais elle peut quand même apparaître dans l'index si des liens externes pointent vers elle. La balise <meta name="robots" content="noindex"> ou l'en-tête HTTP X-Robots-Tag: noindex bloquent l'indexation, pas le crawl. Pour exclure définitivement une page de l'index, utilisez noindex (et laissez Googlebot accéder à la page pour le lire).

Google est-il obligé de respecter mon robots.txt ?

Non. Le protocole robots.txt est une convention volontaire, pas une obligation légale. Googlebot le respecte scrupuleusement, tout comme Bingbot et la plupart des crawlers légitimes. En revanche, les scrapers malveillants et certains bots agressifs l'ignorent délibérément. Pour protéger des données sensibles, l'authentification serveur reste la seule garantie fiable.

Combien de temps Google met-il à prendre en compte une modification ?

Googlebot relit le fichier robots.txt en moyenne toutes les 24 heures, mais peut aller jusqu'à plusieurs jours sur les sites peu fréquentés. Pour forcer une relecture rapide, soumettez le fichier via Google Search Console (Paramètres › Testeur robots.txt) et demandez manuellement l'exploration. Les effets sur l'indexation peuvent mettre 1 à 2 semaines à se stabiliser.

Peut-on avoir plusieurs fichiers robots.txt (sous-domaines) ?

Oui. Chaque sous-domaine possède son propre fichier robots.txt indépendant. blog.exemple.com/robots.txt est distinct de app.exemple.com/robots.txt et de exemple.com/robots.txt. Veillez à configurer chaque fichier séparément selon les besoins SEO propres à chaque sous-domaine.

Faut-il utiliser Crawl-delay pour Googlebot ?

Non. Google ignore la directive Crawl-delay. Si Googlebot crawle trop vite votre site et affecte ses performances, ajustez la vitesse de crawl directement dans Google Search Console (Paramètres › Vitesse d'exploration). Crawl-delay est en revanche respecté par Bingbot et d'autres crawlers.