O arquivo robots.txt é a primeira linha de comunicação entre a sua loja online e os rastreadores dos motores de busca. Configurado corretamente, protege o seu crawl budget, evita a indexação de conteúdo duplicado e orienta o Googlebot para as suas páginas mais estratégicas. Mal configurado, pode bloquear a indexação das suas fichas de produto e destruir a sua visibilidade SEO em poucas horas.
O que é o arquivo robots.txt?
O arquivo robots.txt é um arquivo de texto simples colocado na raiz do seu domínio (https://sua-loja.pt/robots.txt) que indica aos rastreadores quais partes do site podem ou não podem ser exploradas. Segue o Robots Exclusion Protocol (REP), respeitado pelo Google, Bing e pela grande maioria dos rastreadores legítimos.
É fundamental compreender que robots.txt controla o rastreamento (crawl), não a indexação. Uma página bloqueada no robots.txt pode ainda aparecer no Google se receber links de outros sites — para impedir a indexação, é necessário usar a meta tag noindex.
Sintaxe das diretivas robots.txt
Um arquivo robots.txt é composto por blocos chamados records, cada um direcionado a um ou mais agentes de utilizador (robots). As principais diretivas são:
- User-agent: Identifica o robot visado.
User-agent: *aplica-se a todos os robots;User-agent: Googlebotvisa apenas o Google. - Disallow: Proíbe o rastreamento de um caminho.
Disallow: /admin/bloqueia todo o diretório de administração. - Allow: Autoriza explicitamente um caminho mesmo dentro de um diretório bloqueado. Útil para permitir ficheiros CSS ou JS numa pasta que, de outra forma, estaria restrita.
- Sitemap: Indica a localização do sitemap XML.
Sitemap: https://sua-loja.pt/sitemap.xml— esta é uma dica de descoberta, não uma diretiva de rastreamento. - Crawl-delay: Sugere um atraso entre as requisições do rastreador. Ignorado pelo Googlebot, mas respeitado pelo Bing e outros.
Robots.txt para PrestaShop: as regras essenciais
O PrestaShop gera muitos URLs técnicos que nunca deveriam ser indexados. Um robots.txt bem configurado para PrestaShop deve cobrir os seguintes casos:
Diretórios a bloquear
Bloqueie /admin/, /modules/, /cache/, /install/, /config/ e /tools/. Estes diretórios técnicos não têm valor SEO e consomem desnecessariamente o seu crawl budget.
Navegação por facetas
Os URLs gerados pelos filtros de produto (cor, tamanho, marca) criam milhares de duplicados. Bloqueie os parâmetros de filtragem com regras Disallow específicas.
Páginas transacionais
Bloqueie /carrinho, /encomenda, /login, /minha-conta e as suas variantes. Estas páginas requerem uma sessão ativa e não têm qualquer valor para os motores de busca.
Exemplo robots.txt para PrestaShop
User-agent: *
Disallow: /admin/
Disallow: /modules/
Disallow: /cache/
Disallow: /install/
Disallow: /carrinho
Disallow: /encomenda
Disallow: /login
Disallow: /minha-conta
Disallow: /*?order=
Disallow: /*?id_currency=
Allow: /modules/lexiikbridge/
Sitemap: https://sua-loja.pt/sitemap.xmlErros críticos a evitar
Certos erros no robots.txt podem ter consequências catastróficas para o seu posicionamento nos motores de busca:
- Bloquear ficheiros CSS e JavaScript: O Google precisa de carregar os recursos do seu site para avaliar a experiência do utilizador. Bloquear esses ficheiros degrada a sua pontuação Core Web Vitals medida pelo Googlebot.
- Disallow: / (raiz completa): Um erro clássico no modo de desenvolvimento — bloquear toda a loja impede a indexação completa. Verifique sempre antes de colocar online.
- Bloquear imagens de produto: Se o seu diretório /img/ estiver bloqueado, o Google Images não pode indexar as suas fotos, privando-o de uma fonte significativa de tráfego.
- Esquecer as variantes de protocolo: O seu robots.txt deve corresponder ao protocolo do seu site (HTTPS). Um site HTTPS com robots.txt referenciado via HTTP pode gerar inconsistências.
- Bloqueio e canonical em simultâneo: Se uma página estiver bloqueada pelo robots.txt, o Google não consegue ler a sua tag canonical — as duas diretivas entram em conflito.
Robots.txt não garante a não indexação
<meta name="robots" content="noindex"> ou o cabeçalho HTTP X-Robots-Tag.Testar e validar o seu robots.txt
O Google Search Console inclui uma ferramenta de teste robots.txt integrada que lhe permite simular o comportamento do Googlebot em qualquer URL do seu site. Indica se o URL é permitido ou bloqueado e qual regra se aplica. É a ferramenta indispensável após qualquer modificação ao seu robots.txt.
Para aceder à ferramenta: Google Search Console → Testador antigo de robots.txt (nas ferramentas legadas) ou use diretamente a ferramenta de inspeção de URL, que indica se uma página está bloqueada pelo robots.txt.