Robots.txt — Contrôler l'exploration de votre boutique PrestaShop

Le fichier robots.txt est la première ligne de communication entre votre boutique en ligne et les robots d'exploration des moteurs de recherche. Correctement configuré, il protège votre budget crawl, évite l'indexation de contenus dupliqués et oriente Googlebot vers vos pages les plus stratégiques. Mal configuré, il peut bloquer l'indexation de vos fiches produits et effondrer votre visibilité SEO en quelques heures.

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre domaine (https://votre-boutique.com/robots.txt) qui indique aux robots d'exploration quelles parties du site ils sont autorisés ou non à explorer. Il s'agit d'une convention du protocole d'exclusion des robots (REP), respectée par Google, Bing, et la quasi-totalité des crawlers légitimes.

Il est important de comprendre que robots.txt contrôle l'exploration (crawl), pas l'indexation. Une page bloquée dans robots.txt peut encore apparaître dans Google si elle est liée depuis d'autres sites — pour empêcher l'indexation, il faut utiliser la balise noindex.

Syntaxe des directives robots.txt

Un fichier robots.txt est composé de blocs appelés records, chacun ciblant un ou plusieurs agents utilisateurs (robots). Les directives principales sont :

User-agent: Identifie le robot concerné. User-agent: * s'applique à tous les robots ; User-agent: Googlebot cible uniquement Google.
Disallow: Interdit l'exploration d'un chemin. Disallow: /admin/ bloque tout le répertoire admin.
Allow: Autorise explicitement un chemin même dans un répertoire bloqué. Utile pour autoriser des CSS ou JS dans un dossier sinon interdit.
Sitemap: Indique l'emplacement du sitemap XML. Sitemap: https://votre-boutique.com/sitemap.xml — cette ligne n'est pas une directive d'exploration mais une information de découverte.
Crawl-delay: Suggère un délai entre les requêtes du robot. Ignoré par Googlebot mais respecté par Bing et d'autres.

Robots.txt pour PrestaShop : les règles essentielles

PrestaShop génère de nombreuses URLs techniques qui ne doivent pas être indexées. Un robots.txt bien configuré pour PrestaShop doit couvrir les cas suivants :

🚫

Répertoires à bloquer

Bloquez /admin/, /modules/, /cache/, /install/, /config/ et /tools/. Ces répertoires techniques n'ont aucune valeur SEO et consomment inutilement votre budget crawl.

🔗

Navigation à facettes

Les URLs générées par les filtres produits (couleur, taille, marque) créent des milliers de doublons. Bloquez les paramètres de filtrage avec des règles Disallow ciblées.

🛒

Pages transactionnelles

Bloquez /panier, /commande, /identification, /mon-compte et leurs variantes. Ces pages nécessitent une session active et n'ont aucune valeur pour les moteurs de recherche.

Voici un exemple de robots.txt optimisé pour PrestaShop :

Exemple robots.txt PrestaShop

User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /panier
Disallow: /commande
Disallow: /identification
Disallow: /mon-compte
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://votre-boutique.com/sitemap.xml

Erreurs critiques à éviter

Certaines erreurs dans robots.txt peuvent avoir des conséquences catastrophiques sur votre référencement :

Bloquer les fichiers CSS et JavaScript : Google a besoin de charger les ressources de votre site pour évaluer l'expérience utilisateur. Bloquer ces fichiers dégrade votre score Core Web Vitals mesuré par Googlebot.
Disallow: / (racine entière) : Erreur classique lors d'une mise en développement — bloquer toute la boutique empêche l'indexation complète. Toujours vérifier avant mise en production.
Bloquer les images produits : Si votre répertoire /img/ est bloqué, Google Images ne peut pas indexer vos photos, vous privant d'une source de trafic significative.
Oublier les variantes de protocole : Votre robots.txt doit correspondre au protocole de votre site (HTTPS). Un site HTTPS avec un robots.txt référencé en HTTP peut générer des incohérences.
Bloquer et canonical simultanément : Si une page est bloquée par robots.txt, Google ne peut pas lire sa balise canonical — les deux directives entrent en conflit.

Robots.txt ne garantit pas la non-indexation

Une page bloquée dans robots.txt peut encore apparaître dans les résultats Google si elle reçoit des liens entrants. Google affichera l'URL sans titre ni description. Pour exclure définitivement une page, utilisez la balise <meta name="robots" content="noindex"> ou l'en-tête HTTP X-Robots-Tag.

Tester et valider votre robots.txt

Google Search Console propose un outil de test robots.txt intégré qui permet de simuler le comportement de Googlebot face à n'importe quelle URL de votre site. Il indique si l'URL est autorisée ou bloquée, et quelle règle s'applique. C'est l'outil indispensable après chaque modification de votre robots.txt.

Pour accéder à cet outil : Google Search Console → Ancien outil de test robots.txt (dans les outils hérités), ou utilisez directement l'inspecteur d'URL qui indique si une page est bloquée par robots.txt.

Tester Lexiik sur votre boutique PrestaShop