O que é Rastreamento (crawl)?
Rastreamento, ou crawl, é o processo em que os robôs dos buscadores percorrem o site seguindo links para descobrir e ler o conteúdo das páginas antes de decidir indexá-las.
O rastreamento é a primeira etapa do funcionamento da busca. Robôs como o Googlebot navegam pela web seguindo links de uma página para outra, baixando o código de cada URL para entender o que ela contém. Só depois de ser rastreada uma página pode ser avaliada para indexação. Se o robô não consegue acessar o conteúdo, ele simplesmente não tem o que analisar.
Vários fatores influenciam o rastreamento: a estrutura de links internos, a velocidade e a estabilidade do servidor, o arquivo robots.txt e a qualidade geral do site. O Google trabalha com a ideia de orçamento de rastreamento, que é a quantidade de páginas que ele se dispõe a rastrear em um período. Em sites grandes, desperdiçar esse orçamento com URLs sem valor, páginas duplicadas ou erros pode atrasar o rastreio do que realmente importa.
Vale separar rastreamento de indexação. Rastrear é ler a página; indexar é guardar a página no índice para que ela possa aparecer nas buscas. Uma página pode ser rastreada e mesmo assim não ser indexada, e também pode ser bloqueada no rastreamento e ainda assim acabar listada nos resultados a partir de links externos, sem que o conteúdo seja lido.
Como aplicar na prática
Facilite o trabalho dos robôs com uma arquitetura de links internos clara, para que as páginas importantes estejam a poucos cliques da home, e com um servidor rápido e estável. Mantenha o robots.txt liberando o que precisa ser rastreado e bloqueando apenas áreas sem valor de busca, evite cadeias longas de redirecionamento e corrija erros e páginas quebradas que consomem orçamento à toa. Acompanhe as estatísticas de rastreamento no Google Search Console para identificar gargalos e desperdícios.
Quer isso funcionando no seu site?
A srvs cuida do SEO e do GEO do seu negócio de ponta a ponta. Comece com um diagnóstico gratuito.
Termos relacionados
Indexação
Indexação é o processo em que o Google guarda uma página em seu índice depois de rastreá-la, tornando-a apta a aparecer nos resultados de busca.
robots.txt
robots.txt é um arquivo de texto na raiz do site que orienta os robôs de busca sobre quais áreas eles podem ou não rastrear, controlando o acesso dos rastreadores ao conteúdo.
Link interno
Link interno é um link que conecta duas páginas do mesmo site, ajudando os usuários a navegar e os buscadores a descobrir, entender e distribuir a relevância entre as páginas.
Google Search Console
Google Search Console é uma ferramenta gratuita do Google que mostra como o seu site aparece na busca, com dados de cliques, impressões, posições, palavras-chave, problemas de indexação e saúde técnica das páginas.