Robots.txt — Kontrolowanie indeksowania Twojego sklepu PrestaShop

Plik robots.txt to pierwsza linia komunikacji między Twoim sklepem internetowym a crawlerami wyszukiwarek. Prawidłowo skonfigurowany chroni Twój budżet crawlowania, zapobiega indeksowaniu zduplikowanych treści i kieruje Googlebota do Twoich najważniejszych strategicznie stron. Źle skonfigurowany może zablokować indeksowanie kart produktów i zniszczyć widoczność SEO Twojego sklepu w ciągu kilku godzin.

Czym jest plik robots.txt?

Plik robots.txt to zwykły plik tekstowy umieszczony w katalogu głównym Twojej domeny (https://twoj-sklep.pl/robots.txt), który informuje crawlery, które części witryny mogą lub nie mogą być eksplorowane. Zgodny jest z Robots Exclusion Protocol (REP), respektowanym przez Google, Bing i praktycznie wszystkie legalne crawlery.

Kluczowe jest zrozumienie, że robots.txt kontroluje crawlowanie, a nie indeksowanie. Strona zablokowana w robots.txt może nadal pojawiać się w Google, jeśli otrzymuje linki przychodzące z innych witryn — aby zapobiec indeksowaniu, należy użyć meta tagu noindex.

Składnia dyrektyw robots.txt

Plik robots.txt składa się z bloków zwanych rekordami, z których każdy dotyczy jednego lub kilku agentów użytkownika (botów). Główne dyrektywy to:

User-agent: Identyfikuje docelowego robota. User-agent: * dotyczy wszystkich robotów; User-agent: Googlebot celuje wyłącznie w Google.
Disallow: Zabrania crawlowania ścieżki. Disallow: /admin/ blokuje cały katalog administracyjny.
Allow: Jawnie zezwala na ścieżkę nawet w zablokowanym katalogu. Przydatne do umożliwienia dostępu do plików CSS lub JS w folder inaczej zablokowanym.
Sitemap: Wskazuje lokalizację mapy witryny XML. Sitemap: https://twoj-sklep.pl/sitemap.xml — to wskazówka odkrycia, a nie dyrektywa crawlowania.
Crawl-delay: Sugeruje opóźnienie między żądaniami crawlera. Ignorowane przez Googlebota, ale respektowane przez Bing i innych.

Robots.txt dla PrestaShop: niezbędne zasady

PrestaShop generuje wiele technicznych adresów URL, które nigdy nie powinny być indeksowane. Dobrze skonfigurowany robots.txt dla PrestaShop musi obejmować następujące przypadki:

🚫

Katalogi do zablokowania

Zablokuj /admin/, /modules/, /cache/, /install/, /config/ i /tools/. Te techniczne katalogi nie mają wartości SEO i niepotrzebnie pochłaniają Twój budżet crawlowania.

🔗

Nawigacja fasetowa

Adresy URL generowane przez filtry produktów (kolor, rozmiar, marka) tworzą tysiące duplikatów. Zablokuj parametry filtrowania za pomocą precyzyjnych reguł Disallow.

🛒

Strony transakcyjne

Zablokuj /koszyk, /zamowienie, /logowanie, /moje-konto i ich warianty. Te strony wymagają aktywnej sesji i nie mają żadnej wartości dla wyszukiwarek.

Przykładowy robots.txt dla PrestaShop

User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /koszyk
Disallow: /zamowienie
Disallow: /logowanie
Disallow: /moje-konto
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://twoj-sklep.pl/sitemap.xml

Krytyczne błędy do uniknięcia

Pewne błędy w robots.txt mogą mieć katastrofalne konsekwencje dla Twojego rankingu w wyszukiwarkach:

Blokowanie plików CSS i JavaScript: Google musi ładować zasoby Twojej witryny, aby ocenić doświadczenie użytkownika. Blokowanie tych plików obniża Twój wynik Core Web Vitals mierzony przez Googlebota.
Disallow: / (cały katalog główny): Klasyczny błąd w trybie deweloperskim — zablokowanie całego sklepu uniemożliwia pełne indeksowanie. Zawsze sprawdzaj przed uruchomieniem na produkcji.
Blokowanie zdjęć produktów: Jeśli katalog /img/ jest zablokowany, Google Images nie może indeksować Twoich zdjęć, pozbawiając Cię znaczącego źródła ruchu.
Zapomnienie o wariantach protokołu: Twój robots.txt musi odpowiadać protokołowi Twojej witryny (HTTPS). Witryna HTTPS z robots.txt odwołującym się przez HTTP może generować niespójności.
Jednoczesne blokowanie i canonical: Jeśli strona jest zablokowana przez robots.txt, Google nie może odczytać jej tagu canonical — obie dyrektywy są ze sobą sprzeczne.

Robots.txt nie gwarantuje braku indeksowania

Strona zablokowana w robots.txt może nadal pojawiać się w wynikach wyszukiwania Google, jeśli otrzymuje linki przychodzące. Google wyświetli adres URL bez tytułu ani opisu. Aby definitywnie wykluczyć stronę, użyj tagu <meta name="robots" content="noindex"> lub nagłówka HTTP X-Robots-Tag.

Testowanie i walidacja robots.txt

Google Search Console zawiera wbudowane narzędzie do testowania robots.txt, które pozwala symulować zachowanie Googlebota wobec dowolnego adresu URL w Twojej witrynie. Wskazuje, czy adres URL jest dozwolony czy zablokowany, oraz która reguła ma zastosowanie. To niezbędne narzędzie po każdej modyfikacji robots.txt.

Aby uzyskać dostęp do narzędzia: Google Search Console → Stare narzędzie do testowania robots.txt (w starszych narzędziach) lub użyj bezpośrednio narzędzia do inspekcji adresów URL, które wskazuje, czy strona jest zablokowana przez robots.txt.

Przetestuj Lexiik w swoim sklepie PrestaShop