O que é robots.txt?
robots.txt é um arquivo de texto na raiz do site que orienta os robôs de busca sobre quais áreas eles podem ou não rastrear, controlando o acesso dos rastreadores ao conteúdo.
O robots.txt fica no endereço raiz do domínio, no formato site.com.br/robots.txt, e é o primeiro arquivo que muitos robôs consultam antes de rastrear as páginas. Nele você escreve regras com comandos como User-agent, para indicar a qual robô a regra se aplica, e Disallow, para pedir que determinadas pastas ou URLs não sejam rastreadas.
É importante entender o que o robots.txt faz e o que ele não faz. Ele controla o rastreamento, ou seja, o acesso do robô ao conteúdo, mas não é a ferramenta correta para impedir que uma página apareça no Google. Uma URL bloqueada no robots.txt ainda pode ser indexada se houver links apontando para ela, só que sem que o buscador leia seu conteúdo. Para realmente manter uma página fora dos resultados, o caminho é a diretiva noindex, e nesse caso a página precisa estar liberada para rastreamento.
Por estar na raiz e afetar o site inteiro, o robots.txt é um arquivo sensível. Uma regra mal escrita pode bloquear todo o site por engano, derrubando o tráfego orgânico. Também é comum apontar nele o endereço do sitemap, ajudando os robôs a encontrarem a lista de URLs do site.
Como aplicar na prática
Crie um arquivo chamado robots.txt na raiz do domínio e use Disallow apenas para áreas que realmente não devem ser rastreadas, como painéis administrativos, carrinhos e páginas internas de busca. Nunca use o robots.txt para tentar esconder uma página dos resultados, porque para isso o correto é a diretiva noindex com a página liberada para rastreio. Inclua a linha apontando o endereço do seu sitemap e teste o arquivo no Google Search Console antes e depois de qualquer alteração, para não bloquear o site inteiro sem querer.
Quer isso funcionando no seu site?
A srvs cuida do SEO e do GEO do seu negócio de ponta a ponta. Comece com um diagnóstico gratuito.
Termos relacionados
Rastreamento (crawl)
Rastreamento, ou crawl, é o processo em que os robôs dos buscadores percorrem o site seguindo links para descobrir e ler o conteúdo das páginas antes de decidir indexá-las.
Sitemap XML
Sitemap XML é um arquivo que lista as URLs importantes de um site para ajudar os buscadores a encontrar, rastrear e entender quais páginas merecem ser indexadas.
Indexação
Indexação é o processo em que o Google guarda uma página em seu índice depois de rastreá-la, tornando-a apta a aparecer nos resultados de busca.
SEO técnico
SEO técnico é a parte do SEO que garante que os buscadores consigam rastrear, entender e indexar um site sem barreiras, cuidando de velocidade, estrutura, indexação e dados estruturados.