Le budget de crawl désigne le nombre de pages qu'un moteur de recherche comme Googlebot accepte d'explorer sur votre site dans un laps de temps donné. Pour les boutiques PrestaShop comptant des milliers de références produits, comprendre et optimiser ce budget est essentiel pour s'assurer que toutes vos pages importantes sont bien indexées.
Qu'est-ce que le budget de crawl ?
Google définit le budget de crawl par deux composantes : la limite de crawl (crawl rate limit) et la demande de crawl (crawl demand). La limite de crawl correspond à la fréquence maximale à laquelle Googlebot peut explorer votre site sans le surcharger — elle dépend de la vitesse de réponse de votre serveur et des signaux de santé de votre site. La demande de crawl reflète l'intérêt de Google pour vos pages, en fonction de leur popularité, de leur fraîcheur et de leur autorité.
Pourquoi le budget de crawl est-il crucial pour l'e-commerce ?
Un site e-commerce de taille moyenne génère facilement des dizaines de milliers d'URLs : pages produits, variantes, pages de catégories, résultats de filtres, pages de pagination… Googlebot dispose de ressources limitées. Si votre budget de crawl est gaspillé sur des URLs sans valeur SEO, vos pages produits importantes risquent d'être explorées moins fréquemment — voire ignorées lors des mises à jour de l'index.
PrestaShop et la navigation à facettes
Comment Google priorise les pages à crawler
PageRank interne
Les pages les plus liées en interne reçoivent davantage d'attention de la part de Googlebot. Un bon maillage interne oriente le budget de crawl vers vos pages prioritaires.
Fraîcheur du contenu
Les pages fréquemment mises à jour (nouveaux produits, prix modifiés) sont revisitées plus souvent. Les pages statiques et anciennes reçoivent moins de visites de crawl.
Popularité & autorité
Les URLs qui reçoivent des backlinks externes ou un trafic organique élevé sont considérées comme plus importantes et explorées en priorité.
Comment optimiser votre budget de crawl
- Bloquer les URLs inutiles via le fichier robots.txt (paramètres de tri, pages de pagination profonde, URLs de filtres facettes)
- Corriger toutes les erreurs 404 et les chaînes de redirections qui gaspillent le budget
- Soumettre un sitemap XML à jour dans Google Search Console pour guider Googlebot
- Utiliser des balises canoniques pour indiquer la version principale de pages dupliquées
- Améliorer la vitesse du serveur pour augmenter la limite de crawl autorisée
- Supprimer ou noindexer les pages à faible valeur (pages de filtres, doublons de pagination)