Plik robots.txt to pierwsza linia komunikacji między Twoim sklepem internetowym a crawlerami wyszukiwarek. Prawidłowo skonfigurowany chroni Twój budżet crawlowania, zapobiega indeksowaniu zduplikowanych treści i kieruje Googlebota do Twoich najważniejszych strategicznie stron. Źle skonfigurowany może zablokować indeksowanie kart produktów i zniszczyć widoczność SEO Twojego sklepu w ciągu kilku godzin.
Czym jest plik robots.txt?
Plik robots.txt to zwykły plik tekstowy umieszczony w katalogu głównym Twojej domeny (https://twoj-sklep.pl/robots.txt), który informuje crawlery, które części witryny mogą lub nie mogą być eksplorowane. Zgodny jest z Robots Exclusion Protocol (REP), respektowanym przez Google, Bing i praktycznie wszystkie legalne crawlery.
Kluczowe jest zrozumienie, że robots.txt kontroluje crawlowanie, a nie indeksowanie. Strona zablokowana w robots.txt może nadal pojawiać się w Google, jeśli otrzymuje linki przychodzące z innych witryn — aby zapobiec indeksowaniu, należy użyć meta tagu noindex.
Składnia dyrektyw robots.txt
Plik robots.txt składa się z bloków zwanych rekordami, z których każdy dotyczy jednego lub kilku agentów użytkownika (botów). Główne dyrektywy to:
- User-agent: Identyfikuje docelowego robota.
User-agent: *dotyczy wszystkich robotów;User-agent: Googlebotceluje wyłącznie w Google. - Disallow: Zabrania crawlowania ścieżki.
Disallow: /admin/blokuje cały katalog administracyjny. - Allow: Jawnie zezwala na ścieżkę nawet w zablokowanym katalogu. Przydatne do umożliwienia dostępu do plików CSS lub JS w folder inaczej zablokowanym.
- Sitemap: Wskazuje lokalizację mapy witryny XML.
Sitemap: https://twoj-sklep.pl/sitemap.xml— to wskazówka odkrycia, a nie dyrektywa crawlowania. - Crawl-delay: Sugeruje opóźnienie między żądaniami crawlera. Ignorowane przez Googlebota, ale respektowane przez Bing i innych.
Robots.txt dla PrestaShop: niezbędne zasady
PrestaShop generuje wiele technicznych adresów URL, które nigdy nie powinny być indeksowane. Dobrze skonfigurowany robots.txt dla PrestaShop musi obejmować następujące przypadki:
Katalogi do zablokowania
Zablokuj /admin/, /modules/, /cache/, /install/, /config/ i /tools/. Te techniczne katalogi nie mają wartości SEO i niepotrzebnie pochłaniają Twój budżet crawlowania.
Nawigacja fasetowa
Adresy URL generowane przez filtry produktów (kolor, rozmiar, marka) tworzą tysiące duplikatów. Zablokuj parametry filtrowania za pomocą precyzyjnych reguł Disallow.
Strony transakcyjne
Zablokuj /koszyk, /zamowienie, /logowanie, /moje-konto i ich warianty. Te strony wymagają aktywnej sesji i nie mają żadnej wartości dla wyszukiwarek.
Przykładowy robots.txt dla PrestaShop
User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /koszyk
Disallow: /zamowienie
Disallow: /logowanie
Disallow: /moje-konto
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://twoj-sklep.pl/sitemap.xmlKrytyczne błędy do uniknięcia
Pewne błędy w robots.txt mogą mieć katastrofalne konsekwencje dla Twojego rankingu w wyszukiwarkach:
- Blokowanie plików CSS i JavaScript: Google musi ładować zasoby Twojej witryny, aby ocenić doświadczenie użytkownika. Blokowanie tych plików obniża Twój wynik Core Web Vitals mierzony przez Googlebota.
- Disallow: / (cały katalog główny): Klasyczny błąd w trybie deweloperskim — zablokowanie całego sklepu uniemożliwia pełne indeksowanie. Zawsze sprawdzaj przed uruchomieniem na produkcji.
- Blokowanie zdjęć produktów: Jeśli katalog /img/ jest zablokowany, Google Images nie może indeksować Twoich zdjęć, pozbawiając Cię znaczącego źródła ruchu.
- Zapomnienie o wariantach protokołu: Twój robots.txt musi odpowiadać protokołowi Twojej witryny (HTTPS). Witryna HTTPS z robots.txt odwołującym się przez HTTP może generować niespójności.
- Jednoczesne blokowanie i canonical: Jeśli strona jest zablokowana przez robots.txt, Google nie może odczytać jej tagu canonical — obie dyrektywy są ze sobą sprzeczne.
Robots.txt nie gwarantuje braku indeksowania
<meta name="robots" content="noindex"> lub nagłówka HTTP X-Robots-Tag.Testowanie i walidacja robots.txt
Google Search Console zawiera wbudowane narzędzie do testowania robots.txt, które pozwala symulować zachowanie Googlebota wobec dowolnego adresu URL w Twojej witrynie. Wskazuje, czy adres URL jest dozwolony czy zablokowany, oraz która reguła ma zastosowanie. To niezbędne narzędzie po każdej modyfikacji robots.txt.
Aby uzyskać dostęp do narzędzia: Google Search Console → Stare narzędzie do testowania robots.txt (w starszych narzędziach) lub użyj bezpośrednio narzędzia do inspekcji adresów URL, które wskazuje, czy strona jest zablokowana przez robots.txt.