Il file robots.txt è il primo canale di comunicazione tra il tuo negozio online e i crawler dei motori di ricerca. Configurato correttamente, protegge il tuo crawl budget, impedisce l'indicizzazione di contenuti duplicati e guida Googlebot verso le pagine più strategicamente importanti. Mal configurato, può bloccare l'indicizzazione delle schede prodotto e far crollare la tua visibilità SEO nel giro di poche ore.
Che cos'è il file robots.txt?
Il file robots.txt è un file di testo semplice collocato nella directory radice del tuo dominio (https://il-tuo-negozio.it/robots.txt) che indica ai crawler quali parti del sito possono o non possono essere esplorate. Segue il Robots Exclusion Protocol (REP), rispettato da Google, Bing e dalla quasi totalità dei crawler legittimi.
È fondamentale capire che robots.txt controlla la scansione (crawl), non l'indicizzazione. Una pagina bloccata in robots.txt può comunque apparire su Google se riceve link in entrata da altri siti — per impedire l'indicizzazione occorre usare il meta tag noindex.
Sintassi delle direttive robots.txt
Un file robots.txt è composto da blocchi chiamati record, ognuno dei quali si rivolge a uno o più user agent (robot). Le direttive principali sono:
- User-agent: Identifica il robot di destinazione.
User-agent: *si applica a tutti i robot;User-agent: Googlebotsi rivolge esclusivamente a Google. - Disallow: Vieta la scansione di un percorso.
Disallow: /admin/blocca l'intera directory admin. - Allow: Autorizza esplicitamente un percorso anche all'interno di una directory bloccata. Utile per consentire file CSS o JS in una cartella altrimenti vietata.
- Sitemap: Indica la posizione della sitemap XML.
Sitemap: https://il-tuo-negozio.it/sitemap.xml— questa è un'indicazione di scoperta, non una direttiva di crawling. - Crawl-delay: Suggerisce un ritardo tra le richieste del crawler. Ignorato da Googlebot ma rispettato da Bing e altri.
Robots.txt per PrestaShop: le regole essenziali
PrestaShop genera numerosi URL tecnici che non dovrebbero mai essere indicizzati. Un robots.txt ben configurato per PrestaShop deve coprire i seguenti casi:
Directory da bloccare
Blocca /admin/, /modules/, /cache/, /install/, /config/ e /tools/. Queste directory tecniche non hanno valore SEO e consumano inutilmente il tuo crawl budget.
Navigazione a faccette
Gli URL generati dai filtri prodotto (colore, taglia, marca) creano migliaia di duplicati. Blocca i parametri di filtro con regole Disallow mirate.
Pagine transazionali
Blocca /carrello, /ordine, /accesso, /il-mio-account e le relative varianti. Queste pagine richiedono una sessione attiva e non hanno alcun valore per i motori di ricerca.
Esempio robots.txt per PrestaShop
User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /carrello
Disallow: /ordine
Disallow: /accesso
Disallow: /il-mio-account
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://il-tuo-negozio.it/sitemap.xmlErrori critici da evitare
Alcuni errori nel robots.txt possono avere conseguenze catastrofiche sul tuo posizionamento nei motori di ricerca:
- Bloccare i file CSS e JavaScript: Google deve caricare le risorse del tuo sito per valutare l'esperienza utente. Bloccare questi file degrada il tuo punteggio Core Web Vitals come misurato da Googlebot.
- Disallow: / (intera radice): Un errore classico in modalità sviluppo — bloccare l'intero negozio impedisce l'indicizzazione completa. Controlla sempre prima di andare online.
- Bloccare le immagini prodotto: Se la directory /img/ è bloccata, Google Images non può indicizzare le tue foto, privandoti di una fonte di traffico significativa.
- Dimenticare le varianti di protocollo: Il tuo robots.txt deve corrispondere al protocollo del tuo sito (HTTPS). Un sito HTTPS con robots.txt referenziato tramite HTTP può generare incongruenze.
- Blocco e canonical in contemporanea: Se una pagina è bloccata da robots.txt, Google non può leggerne il tag canonical — le due direttive si contraddicono.
Robots.txt non garantisce la non indicizzazione
<meta name="robots" content="noindex"> oppure l'intestazione HTTP X-Robots-Tag.Testare e validare il tuo robots.txt
Google Search Console include uno strumento di test robots.txt integrato che ti permette di simulare il comportamento di Googlebot su qualsiasi URL del tuo sito. Indica se l'URL è consentito o bloccato e quale regola si applica. È lo strumento indispensabile dopo ogni modifica al tuo robots.txt.
Per accedere allo strumento: Google Search Console → Tester robots.txt precedente (negli strumenti legacy) oppure usa direttamente lo strumento Controllo URL, che indica se una pagina è bloccata da robots.txt.