Die Datei robots.txt ist die erste Kommunikationsebene zwischen Ihrem Online-Shop und den Suchmaschinen-Crawlern. Korrekt konfiguriert schützt sie Ihr Crawl-Budget, verhindert die Indexierung doppelter Inhalte und lenkt Googlebot zu Ihren strategisch wichtigsten Seiten. Falsch konfiguriert kann sie die Indexierung Ihrer Produktseiten blockieren und Ihre SEO-Sichtbarkeit innerhalb weniger Stunden ruinieren.
Was ist die robots.txt-Datei?
Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis Ihrer Domain liegt (https://ihr-shop.de/robots.txt) und Crawlern mitteilt, welche Bereiche Ihrer Website sie erkunden dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol (REP), das von Google, Bing und nahezu allen seriösen Crawlern respektiert wird.
Wichtig zu verstehen: robots.txt kontrolliert das Crawling, nicht die Indexierung. Eine in robots.txt gesperrte Seite kann noch immer bei Google erscheinen, wenn sie eingehende Links von anderen Websites erhält — um die Indexierung zu verhindern, müssen Sie den noindex-Meta-Tag verwenden.
Syntax der robots.txt-Direktiven
Eine robots.txt-Datei besteht aus Blöcken, sogenannten Records, die jeweils einen oder mehrere User-Agents (Roboter) ansprechen. Die wichtigsten Direktiven sind:
- User-agent: Identifiziert den betroffenen Roboter.
User-agent: *gilt für alle Roboter;User-agent: Googlebotzielt nur auf Google ab. - Disallow: Verbietet das Crawlen eines Pfades.
Disallow: /admin/sperrt das gesamte Admin-Verzeichnis. - Allow: Erlaubt einen Pfad ausdrücklich, auch innerhalb eines gesperrten Verzeichnisses. Nützlich, um CSS- oder JS-Dateien in einem ansonsten gesperrten Ordner zuzulassen.
- Sitemap: Gibt den Speicherort Ihrer XML-Sitemap an.
Sitemap: https://ihr-shop.de/sitemap.xml— dies ist ein Entdeckungshinweis, keine Crawl-Direktive. - Crawl-delay: Empfiehlt eine Verzögerung zwischen Crawler-Anfragen. Wird von Googlebot ignoriert, aber von Bing und anderen respektiert.
Robots.txt für PrestaShop: die wesentlichen Regeln
PrestaShop generiert viele technische URLs, die niemals indexiert werden sollten. Eine gut konfigurierte robots.txt für PrestaShop muss folgende Fälle abdecken:
Zu sperrende Verzeichnisse
Sperren Sie /admin/, /modules/, /cache/, /install/, /config/ und /tools/. Diese technischen Verzeichnisse haben keinen SEO-Wert und verbrauchen unnötig Ihr Crawl-Budget.
Facettierte Navigation
URLs, die durch Produktfilter (Farbe, Größe, Marke) generiert werden, erzeugen Tausende von Duplikaten. Sperren Sie Filterparameter mit gezielten Disallow-Regeln.
Transaktionsseiten
Sperren Sie /warenkorb, /bestellung, /anmelden, /mein-konto und deren Varianten. Diese Seiten erfordern eine aktive Session und haben keinen Wert für Suchmaschinen.
Beispiel robots.txt für PrestaShop
User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /warenkorb
Disallow: /bestellung
Disallow: /anmelden
Disallow: /mein-konto
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://ihr-shop.de/sitemap.xmlKritische Fehler, die Sie vermeiden müssen
Bestimmte robots.txt-Fehler können katastrophale Folgen für Ihr Suchmaschinen-Ranking haben:
- CSS- und JavaScript-Dateien sperren: Google muss die Ressourcen Ihrer Website laden, um die Nutzererfahrung zu bewerten. Das Sperren dieser Dateien verschlechtert Ihren Core-Web-Vitals-Score aus Googlebots Perspektive.
- Disallow: / (gesamtes Stammverzeichnis): Ein klassischer Fehler im Entwicklungsmodus — das Sperren des gesamten Shops verhindert die vollständige Indexierung. Immer vor dem Go-Live prüfen.
- Produktbilder sperren: Wenn Ihr /img/-Verzeichnis gesperrt ist, kann Google Images Ihre Fotos nicht indexieren, was Ihnen eine bedeutende Traffic-Quelle wegnimmt.
- Protokollvarianten vergessen: Ihre robots.txt muss dem Protokoll Ihrer Website (HTTPS) entsprechen. Eine HTTPS-Website mit einer über HTTP referenzierten robots.txt kann Inkonsistenzen erzeugen.
- Gleichzeitiges Sperren und Canonical-Angabe: Wenn eine Seite durch robots.txt gesperrt ist, kann Google ihren Canonical-Tag nicht lesen — die beiden Direktiven stehen im Widerspruch.
Robots.txt garantiert keine Nicht-Indexierung
<meta name="robots" content="noindex"> oder den HTTP-Header X-Robots-Tag.Ihre robots.txt testen und validieren
Die Google Search Console enthält ein integriertes robots.txt-Testtool, mit dem Sie das Verhalten von Googlebot gegenüber jeder URL Ihrer Website simulieren können. Es zeigt an, ob die URL erlaubt oder gesperrt ist und welche Regel greift. Dies ist das unverzichtbare Tool nach jeder Änderung an Ihrer robots.txt.
So finden Sie das Tool: Google Search Console → Altes robots.txt-Testtool (unter Legacy-Tools) oder nutzen Sie direkt das URL-Prüftool, das anzeigt, ob eine Seite durch robots.txt gesperrt ist.