Quelle est la différence entre robots.txt et la balise noindex ?

robots.txt bloque le crawl de la page par Googlebot, mais ne garantit pas son exclusion de l'index. La balise noindex empêche l'indexation mais nécessite que Googlebot puisse accéder à la page pour la lire.

Google est-il obligé de respecter mon robots.txt ?

Non, c'est une convention volontaire. Googlebot et Bingbot le respectent, mais les scrapers malveillants peuvent l'ignorer. Pour protéger des données sensibles, l'authentification serveur est nécessaire.

Faut-il utiliser Crawl-delay pour Googlebot ?

Non. Google ignore la directive Crawl-delay. Ajustez la vitesse de crawl directement dans Google Search Console si nécessaire.

Optimisation robots.txt — Guide Complet pour le SEO en 202

fichier par site — placé à la racine du domaine

500 Ko

taille maximale lue par Googlebot

≠ noindex

robots.txt bloque le crawl, pas l'indexation

24h

délai moyen de prise en compte par Google

Le fichier robots.txt est l'un des éléments les plus simples — et les plus mal compris — du SEO technique. En quelques lignes, il peut orienter Googlebot vers vos pages importantes, lui éviter de perdre du temps sur des URLs inutiles, et protéger certaines zones de votre site.

Mais une seule directive mal placée peut catastrophiquement bloquer tout votre site. Des agences entières ont vu leur trafic s'effondrer du jour au lendemain à cause d'un Disallow: / oublié après une refonte.

🚨

Erreur critique fréquente : lors d'une refonte ou d'un passage en préproduction, les développeurs bloquent souvent l'ensemble du site avec Disallow: /. Si cette directive n'est pas retirée lors de la mise en ligne, Google désinscrit progressivement toutes vos pages de l'index. Vérifiez votre robots.txt immédiatement après chaque déploiement.

📐 Syntaxe et Structure du fichier robots.txt

Le fichier robots.txt obéit au protocole REP (Robots Exclusion Protocol). Sa structure est simple mais sa précision est essentielle. Voici les éléments fondamentaux :

User-agent

Identifie le robot ciblé. User-agent: * s'applique à tous les robots. Vous pouvez cibler un bot spécifique : User-agent: Googlebot, Googlebot-Image, Bingbot… Les règles s'appliquent au groupe User-agent qui les précède directement.

Disallow

Interdit le crawl d'un chemin ou d'une URL. Disallow: /admin/ bloque tout le répertoire admin. Disallow: (vide) ou Allow: / signifie que tout est autorisé. Attention : Disallow: / bloque TOUT le site.

Allow

Autorise explicitement un chemin dans une zone bloquée. Prend précédence sur Disallow quand les deux règles s'appliquent. Exemple : bloquer /private/ mais autoriser /private/legal.html.

Sitemap

Indique l'URL de votre sitemap XML à tous les robots qui lisent ce fichier. Bonne pratique systématique, même si vous soumettez votre sitemap dans Search Console. Accepte plusieurs lignes Sitemap pour plusieurs sitemaps.

Crawl-delay

Non supporté par Googlebot (utilisez plutôt la Search Console). Encore utilisé par Bing et certains crawlers tiers. Définit un délai en secondes entre deux requêtes du bot.

🃏 Wildcards supportées

Google supporte deux types de wildcards dans les chemins :

Wildcard	Signification	Exemple	Support
*	N'importe quelle séquence de caractères	`Disallow: /*?` — bloque toutes les URLs avec paramètres	Google ✓
$	Fin de l'URL (correspond exactement)	`Disallow: /*.pdf $` — bloque uniquement les .pdf	Google ✓

💻 Exemples Concrets par Type de Site

🏠 Site vitrine / Blog

Pour un site simple, l'objectif est de bloquer uniquement les zones d'administration et les pages sans valeur SEO (résultats de recherche interne, pages de tags génériques…).

📄 robots.txt — Site vitrine / Blog

# ═══════════════════════════════════════
# robots.txt — Site vitrine
# Dernière mise à jour : 2026-06-01
# ═══════════════════════════════════════

User-agent: *

# Administration
Disallow: /wp-admin/
Allow:    /wp-admin/admin-ajax.php

# Recherche interne et filtres
Disallow: /?s=
Disallow: /search/

# Pages techniques WordPress
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /xmlrpc.php
Disallow: /trackback/

# Flux RSS (facultatif)
Disallow: /feed/
Disallow: */feed/

# Sitemap
Sitemap: https://votredomaine.com/sitemap.xml
          

🛒 Site e-commerce

Les sites e-commerce génèrent massivement des URLs non-indexables : paniers, comptes clients, filtres de navigation à facettes, pages de tri, confirmations de commande… Un robots.txt bien configuré préserve votre crawl budget pour les pages produits et catégories.

🛒 robots.txt — E-commerce (WooCommerce / Shopify)

# ═══════════════════════════════════════
# robots.txt — E-commerce
# ═══════════════════════════════════════

User-agent: *

# Espaces personnels
Disallow: /mon-compte/
Disallow: /panier/
Disallow: /commander/
Disallow: /checkout/
Disallow: /commande-recue/

# Filtres de navigation à facettes
Disallow: /*?couleur=
Disallow: /*?taille=
Disallow: /*?tri=
Disallow: /*?page=

# Administration
Disallow: /wp-admin/
Allow:    /wp-admin/admin-ajax.php

# Recherche interne
Disallow: /?s=
Disallow: /recherche/

# Règles spécifiques Googlebot Images
User-agent: Googlebot-Image
Allow: /wp-content/uploads/

# Sitemaps
Sitemap: https://boutique.com/sitemap_index.xml
Sitemap: https://boutique.com/sitemap-produits.xml
          

⚙️ Application SaaS / Plateforme web

Pour un SaaS, l'enjeu est de ne laisser indexer que les pages marketing publiques, et d'exclure totalement l'application elle-même (tableaux de bord, paramètres, données utilisateurs…).

⚙️ robots.txt — SaaS / Application

# ═══════════════════════════════════════
# robots.txt — SaaS
# Pages publiques indexées, app bloquée
# ═══════════════════════════════════════

User-agent: *

# Application complète (authentifiée)
Disallow: /app/
Disallow: /dashboard/
Disallow: /settings/
Disallow: /api/
Disallow: /auth/
Disallow: /login
Disallow: /register
Disallow: /reset-password

# Pages publiques : autorisées (pas besoin de les lister)
# /               → page d'accueil
# /features/      → fonctionnalités
# /pricing/       → tarifs
# /blog/          → contenu SEO

Sitemap: https://app.votredomaine.com/sitemap.xml
          

🚫 Les 7 Erreurs robots.txt les Plus Dangereuses

Ces erreurs sont régulièrement détectées lors d'audits SEO techniques. Certaines peuvent anéantir votre référencement en quelques jours.

🔴

Bloquer tout le site

User-agent: *
Disallow: /
              

Erreur numéro 1 post-refonte. Bloque Googlebot sur tout le site. Impact catastrophique en 2–3 semaines.

🔴

Bloquer les ressources CSS/JS

Disallow: /wp-content/
Disallow: /assets/
              

Google ne peut plus rendre vos pages correctement. Cela nuit aux Core Web Vitals et à la compréhension du contenu.

🟠

Confondre robots.txt et noindex

Bloquer une page dans robots.txt ne l'empêche pas d'être indexée si des backlinks pointent vers elle. Utilisez <meta name="robots" content="noindex"> pour ça.

🟠

Slash manquant sur les dossiers

Disallow: /admin  ← bloque aussi /administrator, /admin2…
Disallow: /admin/ ← correct
              

Sans le slash final, la règle s'applique à tout ce qui commence par /admin, y compris des pages légitimes.

🟡

Sitemap absent ou invalide

Ne pas déclarer le Sitemap dans robots.txt est une occasion manquée. Vérifiez que l'URL du sitemap est accessible et retourne un code HTTP 200.

🟡

Règles contradictoires

Disallow: /blog/
Allow: /blog/article-1
# Laquelle s'applique ? La plus spécifique.
              

En cas de conflit, Google applique la règle la plus longue/spécifique. Testez toujours avec le testeur GSC.

🟡

Sensibilité à la casse

Disallow: /Admin/  ← ne bloque pas /admin/
Disallow: /admin/ ← correct
              

Les chemins sont sensibles à la casse. /Admin/ et /admin/ sont deux chemins différents pour Googlebot.

📊 robots.txt et Crawl Budget : Stratégie Avancée

Le crawl budget représente le nombre de pages que Googlebot est prêt à explorer sur votre site dans un intervalle de temps donné. Pour les sites de petite à moyenne taille (< 1 000 pages), ce n'est généralement pas un problème critique. Mais pour les e-commerces, plateformes ou sites à fort volume de contenu, c'est un levier SEO important.

📌

Règle des 80/20 : sur la plupart des sites e-commerce, 20 % des URLs (produits, catégories, pages guides) génèrent 80 % du trafic. Le but est de concentrer le crawl budget sur ces 20 % en bloquant les URLs à faible valeur SEO.

🎯 URLs candidates au blocage robots.txt

Type d'URL	Exemple	Recommandation	Raison
/panier/	`/cart?id=abc`	Bloquer	Aucune valeur SEO, contenu dynamique non pertinent
/?page=N	`/blog/?page=14`	Évaluer	Pages de pagination profondes souvent peu utiles
/?tri=prix-asc	`/chaussures/?tri=prix-asc`	Bloquer	Contenu dupliqué, paramètres de tri
/search/	`/recherche/?q=rouge`	Bloquer	Résultats de recherche interne sans valeur
/tag/	`/tag/promotion/`	Évaluer	Tags WordPress souvent peu différenciés
/wp-json/	`/wp-json/wp/v2/posts`	Bloquer	API REST WordPress, contenu technique non destiné aux moteurs
/sitemap.xml	`/sitemap.xml`	Autoriser	Ne jamais bloquer le sitemap

🔬 Comment Tester et Valider votre robots.txt

Avant de déployer une modification, testez toujours vos règles. Une erreur de syntaxe peut avoir des conséquences irréversibles à court terme.

1

Google Search Console → Outils d'inspection
Allez dans GSC › Paramètres › Testeur robots.txt. Entrez une URL et vérifiez si Googlebot peut l'explorer. C'est l'outil de référence — il utilise le même parseur que Google.
2

Accéder directement à votre fichier
Ouvrez votredomaine.com/robots.txt dans votre navigateur. Vérifiez qu'il retourne bien un code HTTP 200 (pas 404, pas 500). Un robots.txt inaccessible est ignoré par Google — ce qui équivaut à tout autoriser.
3

Screaming Frog — simulation de crawl
En version gratuite (500 URLs), Screaming Frog respecte votre robots.txt et vous indique quelles pages sont bloquées. Idéal pour un audit rapide avant/après modification.
4

Rapport Couverture dans GSC
Après modification, surveillez le rapport Couverture (Index). Une augmentation des URLs en statut « Exclues — bloquées par robots.txt » peut signaler un blocage involontaire.
5

Outil Bing Webmaster Tools
Si vous ciblez aussi Bing, testez votre robots.txt dans Bing Webmaster Tools. Bingbot a quelques différences de comportement, notamment sur le support de Crawl-delay.

💡

Bonne pratique : versionnez votre fichier robots.txt dans votre dépôt Git et documentez chaque modification avec la date et la raison du changement. En cas de chute de trafic inexpliquée, c'est l'un des premiers fichiers à vérifier.

✅ Checklist robots.txt à Vérifier Maintenant

              ✅ Checklist robots.txt — Points de contrôle
            

☐ Le fichier est accessible sur /robots.txt (HTTP 200)
☐ Aucun "Disallow: /" global non intentionnel
☐ Les ressources CSS/JS ne sont pas bloquées
☐ Le sitemap.xml est déclaré et accessible
☐ Les zones sensibles sont bloquées (admin, panier, compte)
☐ Les paramètres d'URL sans valeur SEO sont bloqués
☐ Pas de conflit entre Disallow et Allow sur les mêmes chemins
☐ Les règles sont testées dans Google Search Console
☐ Le fichier fait moins de 500 Ko
☐ Il n'y a pas de règles Crawl-delay pour Googlebot
          

🔍

Votre robots.txt est-il correctement configuré ?

Un audit SEO technique gratuit pour vérifier votre robots.txt, votre sitemap, vos balises meta et l'ensemble de votre configuration d'indexation.

🎯 Demander l'audit gratuit 📋 En savoir plus

✅ Audit offert sans engagement ⏱ Réponse sous 24 h 📊 Rapport détaillé inclus 🔒 100 % confidentiel

Optimisation du fichier robots.txt
— Guide Complet 2026

📐 Syntaxe et Structure du fichier robots.txt

🃏 Wildcards supportées

💻 Exemples Concrets par Type de Site

🏠 Site vitrine / Blog

🛒 Site e-commerce

⚙️ Application SaaS / Plateforme web

🚫 Les 7 Erreurs robots.txt les Plus Dangereuses

📊 robots.txt et Crawl Budget : Stratégie Avancée

🎯 URLs candidates au blocage robots.txt

🔬 Comment Tester et Valider votre robots.txt

✅ Checklist robots.txt à Vérifier Maintenant

Votre robots.txt est-il correctement configuré ?

❓ FAQ — robots.txt et SEO

📐 Syntaxe et Structure du fichier robots.txt

🃏 Wildcards supportées

💻 Exemples Concrets par Type de Site

🏠 Site vitrine / Blog

🛒 Site e-commerce

⚙️ Application SaaS / Plateforme web

🚫 Les 7 Erreurs robots.txt les Plus Dangereuses

📊 robots.txt et Crawl Budget : Stratégie Avancée

🎯 URLs candidates au blocage robots.txt

🔬 Comment Tester et Valider votre robots.txt

✅ Checklist robots.txt à Vérifier Maintenant

📚 Articles Complémentaires

Votre robots.txt est-il correctement configuré ?

❓ FAQ — robots.txt et SEO