Robots.txt — Controlar o rastreamento da sua loja PrestaShop

O arquivo robots.txt é a primeira linha de comunicação entre a sua loja online e os rastreadores dos motores de busca. Configurado corretamente, protege o seu crawl budget, evita a indexação de conteúdo duplicado e orienta o Googlebot para as suas páginas mais estratégicas. Mal configurado, pode bloquear a indexação das suas fichas de produto e destruir a sua visibilidade SEO em poucas horas.

O que é o arquivo robots.txt?

O arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu domínio (https://sua-loja.pt/robots.txt) que indica aos rastreadores quais partes do site podem ou não podem ser exploradas. Segue o Robots Exclusion Protocol (REP), respeitado pelo Google, Bing e pela grande maioria dos rastreadores legítimos.

É fundamental compreender que robots.txt controla o rastreamento (crawl), não a indexação. Uma página bloqueada no robots.txt pode ainda aparecer no Google se receber links de outros sites — para impedir a indexação, é necessário usar a meta tag noindex.

Sintaxe das diretivas robots.txt

Um arquivo robots.txt é composto por blocos chamados records, cada um direcionado a um ou mais agentes de utilizador (robots). As principais diretivas são:

User-agent: Identifica o robot visado. User-agent: * aplica-se a todos os robots; User-agent: Googlebot visa apenas o Google.
Disallow: Proíbe o rastreamento de um caminho. Disallow: /admin/ bloqueia todo o diretório de administração.
Allow: Autoriza explicitamente um caminho mesmo dentro de um diretório bloqueado. Útil para permitir ficheiros CSS ou JS numa pasta que, de outra forma, estaria restrita.
Sitemap: Indica a localização do sitemap XML. Sitemap: https://sua-loja.pt/sitemap.xml — esta é uma dica de descoberta, não uma diretiva de rastreamento.
Crawl-delay: Sugere um atraso entre as requisições do rastreador. Ignorado pelo Googlebot, mas respeitado pelo Bing e outros.

Robots.txt para PrestaShop: as regras essenciais

O PrestaShop gera muitos URLs técnicos que nunca deveriam ser indexados. Um robots.txt bem configurado para PrestaShop deve cobrir os seguintes casos:

🚫

Diretórios a bloquear

Bloqueie /admin/, /modules/, /cache/, /install/, /config/ e /tools/. Estes diretórios técnicos não têm valor SEO e consomem desnecessariamente o seu crawl budget.

🔗

Navegação por facetas

Os URLs gerados pelos filtros de produto (cor, tamanho, marca) criam milhares de duplicados. Bloqueie os parâmetros de filtragem com regras Disallow específicas.

🛒

Páginas transacionais

Bloqueie /carrinho, /encomenda, /login, /minha-conta e as suas variantes. Estas páginas requerem uma sessão ativa e não têm qualquer valor para os motores de busca.

Exemplo robots.txt para PrestaShop

User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /carrinho
Disallow: /encomenda
Disallow: /login
Disallow: /minha-conta
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://sua-loja.pt/sitemap.xml

Erros críticos a evitar

Certos erros no robots.txt podem ter consequências catastróficas para o seu posicionamento nos motores de busca:

Bloquear ficheiros CSS e JavaScript: O Google precisa de carregar os recursos do seu site para avaliar a experiência do utilizador. Bloquear esses ficheiros degrada a sua pontuação Core Web Vitals medida pelo Googlebot.
Disallow: / (raiz completa): Um erro clássico no modo de desenvolvimento — bloquear toda a loja impede a indexação completa. Verifique sempre antes de colocar online.
Bloquear imagens de produto: Se o seu diretório /img/ estiver bloqueado, o Google Images não pode indexar as suas fotos, privando-o de uma fonte significativa de tráfego.
Esquecer as variantes de protocolo: O seu robots.txt deve corresponder ao protocolo do seu site (HTTPS). Um site HTTPS com robots.txt referenciado via HTTP pode gerar inconsistências.
Bloqueio e canonical em simultâneo: Se uma página estiver bloqueada pelo robots.txt, o Google não consegue ler a sua tag canonical — as duas diretivas entram em conflito.

Robots.txt não garante a não indexação

Uma página bloqueada no robots.txt pode ainda aparecer nos resultados do Google se receber links de entrada. O Google mostrará o URL sem título nem descrição. Para excluir definitivamente uma página, use a tag <meta name="robots" content="noindex"> ou o cabeçalho HTTP X-Robots-Tag.

Testar e validar o seu robots.txt

O Google Search Console inclui uma ferramenta de teste robots.txt integrada que lhe permite simular o comportamento do Googlebot em qualquer URL do seu site. Indica se o URL é permitido ou bloqueado e qual regra se aplica. É a ferramenta indispensável após qualquer modificação ao seu robots.txt.

Para aceder à ferramenta: Google Search Console → Testador antigo de robots.txt (nas ferramentas legadas) ou use diretamente a ferramenta de inspeção de URL, que indica se uma página está bloqueada pelo robots.txt.

Testar o Lexiik na sua loja PrestaShop