Robots.txt — De crawling van jouw PrestaShop-webwinkel beheren

Het robots.txt-bestand is de eerste communicatielijn tussen jouw webwinkel en de crawlrobots van zoekmachines. Correct geconfigureerd beschermt het jouw crawlbudget, voorkomt het indexering van dubbele content en stuurt Googlebot naar jouw meest strategische pagina's. Verkeerd geconfigureerd kan het de indexering van jouw productpagina's blokkeren en jouw SEO-zichtbaarheid binnen enkele uren doen instorten.

Wat is het robots.txt-bestand?

Het robots.txt-bestand is een tekstbestand dat in de root van jouw domein staat (https://jouw-webwinkel.com/robots.txt) en crawlrobots aangeeft welke delen van de site ze wel of niet mogen verkennen. Het is een conventie van het Robots Exclusion Protocol (REP), nageleefd door Google, Bing en vrijwel alle legitieme crawlers.

Het is belangrijk te begrijpen dat robots.txt de crawling beheert, niet de indexering. Een pagina geblokkeerd in robots.txt kan nog steeds in Google verschijnen als er naar gelinkt wordt vanaf andere sites — om indexering te voorkomen, dien je de noindex-tag te gebruiken.

Syntaxis van robots.txt-directives

Een robots.txt-bestand bestaat uit blokken die records worden genoemd, elk gericht op één of meer user-agents (robots). De belangrijkste directives zijn:

User-agent: Identificeert de betrokken robot. User-agent: * geldt voor alle robots; User-agent: Googlebot richt zich uitsluitend op Google.
Disallow: Verbiedt het verkennen van een pad. Disallow: /admin/ blokkeert de gehele admin-map.
Allow: Staat expliciet een pad toe, ook in een geblokkeerde map. Handig om CSS- of JS-bestanden toe te staan in een anders geblokkeerde map.
Sitemap: Geeft de locatie van de XML-sitemap aan. Sitemap: https://jouw-webwinkel.com/sitemap.xml — dit is geen crawlingdirective maar een ontdekkingsinformatie.
Crawl-delay: Suggereert een vertraging tussen aanvragen van de robot. Genegeerd door Googlebot maar nageleefd door Bing en anderen.

Robots.txt voor PrestaShop: de essentiële regels

PrestaShop genereert veel technische URL's die niet geïndexeerd mogen worden. Een goed geconfigureerd robots.txt-bestand voor PrestaShop moet de volgende gevallen dekken:

🚫

Te blokkeren mappen

Blokkeer /admin/, /modules/, /cache/, /install/, /config/ en /tools/. Deze technische mappen hebben geen SEO-waarde en verspillen onnodig jouw crawlbudget.

🔗

Facetnavigatie

URL's gegenereerd door productfilters (kleur, maat, merk) creëren duizenden duplicaten. Blokkeer de filterparameters met gerichte Disallow-regels.

🛒

Transactionele pagina's

Blokkeer /winkelwagen, /bestelling, /inloggen, /mijn-account en hun varianten. Deze pagina's vereisen een actieve sessie en hebben geen waarde voor zoekmachines.

Hier is een voorbeeld van een geoptimaliseerd robots.txt-bestand voor PrestaShop:

Voorbeeld robots.txt PrestaShop

User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /winkelwagen
Disallow: /bestelling
Disallow: /inloggen
Disallow: /mijn-account
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://jouw-webwinkel.com/sitemap.xml

Kritieke fouten die je moet vermijden

Bepaalde fouten in robots.txt kunnen catastrofale gevolgen hebben voor jouw SEO:

CSS- en JavaScript-bestanden blokkeren: Google moet de resources van jouw site laden om de gebruikerservaring te beoordelen. Het blokkeren van deze bestanden verslechtert jouw Core Web Vitals-score gemeten door Googlebot.
Disallow: / (volledige root): Klassieke fout tijdens een ontwikkelomgeving — de volledige webwinkel blokkeren voorkomt volledige indexering. Controleer altijd vóór productie.
Productafbeeldingen blokkeren: Als jouw /img/-map geblokkeerd is, kan Google Afbeeldingen jouw foto's niet indexeren, waardoor je een aanzienlijke verkeersbron mist.
Protocolvarianten vergeten: Jouw robots.txt moet overeenkomen met het protocol van jouw site (HTTPS). Een HTTPS-site met een robots.txt die als HTTP wordt gerefereerd kan inconsistenties veroorzaken.
Blokkeren en canonical tegelijk gebruiken: Als een pagina geblokkeerd is door robots.txt, kan Google de canonical-tag niet lezen — de twee directives conflicteren met elkaar.

Robots.txt garandeert geen niet-indexering

Een pagina geblokkeerd in robots.txt kan nog steeds in de Google-resultaten verschijnen als er inkomende links naar zijn. Google toont de URL dan zonder titel of beschrijving. Om een pagina definitief uit te sluiten, gebruik je de tag <meta name="robots" content="noindex"> of de HTTP-header X-Robots-Tag.

Jouw robots.txt testen en valideren

Google Search Console biedt een ingebouwde robots.txt-testtool waarmee je het gedrag van Googlebot voor elke URL van jouw site kunt simuleren. Het geeft aan of de URL is toegestaan of geblokkeerd, en welke regel van toepassing is. Dit is de onmisbare tool na elke wijziging van jouw robots.txt.

Om toegang te krijgen tot deze tool: Google Search Console → Oudere robots.txt-testtool (in de verouderde tools), of gebruik direct de URL-inspecteur die aangeeft of een pagina geblokkeerd is door robots.txt.

Lexiik testen op jouw PrestaShop-webwinkel