Robots.txt : O que são e como criar

O arquivo robots.txt fica na raiz de qualquer site e pode ser encontrado em www.example.com/robots.txt. O robots.txt é um arquivo de texto simples que segue o Protocolo de exclusão de robôs. Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia (ou permite) o acesso de um determinado rastreador a um caminho de arquivo (página ou pasta) especificado no site.

O robots.txt é uma parte frequentemente esquecida em SEO e nas auditorias técnicas. Mesmo sendo uma parte importante de qualquer conjunto de ferramentas de SEO.

Exemplo robots txt

Este ficheiro pode ser usado para diversos fins, desde que os mecanismos de pesquisa saibam onde ir para localizar o sitemap dos seus sites até que páginas rastrear e indexar e não rastrear. Além de ser uma óptima ferramenta para gerir o crawl budget de sites.

Por exemplo, se tiver páginas duplicadas ou páginas desactualizadas e queira que o Google não aceda a uma delas.

Crawl Budget

O crawl budget ou orçamento do rastreamento é o método que o Google usa para rastrear e indexar as páginas dos sites com eficiência. Por maior que seja o Google, o motor de busca ainda têm um número limitado de recursos disponíveis para rastrear e indexar o conteúdo de seus sites.

Especialmente se tiver um site com muito conteúdo fornecido em javascript.

Se o seu site for grande como um site de comércio eletrónico, por exemplo, e você tiver milhares de páginas com muitos URLs gerados automaticamente, o Google poderá não rastrear todas essas páginas e você perderá muita oportunidade de tráfego e de visibilidade.

O Google já confirmou que ter muitos URLs de baixo valor pode afectar negativamente o rastreamento e a indexação de um site. É aí que ter um arquivo robots.txt pode ajudar com os factores que afectam o orçamento de rastreamento de sites.

Analisar o robots.txt é fundamental numa auditoria de SEO.

Você pode usar o arquivo para ajudar a gerir o crawl budget, certificando-se de que os mecanismos de pesquisa estejam gastando o seu tempo no site da maneira mais eficiente possível (especialmente se você tiver um site grande) e rastreando apenas as páginas importantes sem perder tempo páginas como login, inscrição ou páginas de agradecimento.

Porque precisa do robots.txt?

Antes que um robot como o Googlebot, Bingbot, etc. rastreie uma página da Web, primeiro ele verifica se existe, de facto, um arquivo robots.txt e, se houver, geralmente respeitará as instruções encontradas nesse arquivo.

Um arquivo robots.txt pode ser uma ferramenta poderosa para SEO, pois é uma óptima maneira de controlar como os rastreadores/bots de motores de busca acedem determinadas áreas do site. Lembre-se de que precisa entender como o arquivo robots.txt funciona ou acidentalmente poderá bloquear o Googlebot ou qualquer outro bot e eles não serão capazes de rastrear todo o seu site. Isos fará com que possa não encontrar o seu site nos resultados de pesquisa.

Quando feito correctamente, é possível controlar coisas como:

  • Bloqueio de acesso a secções inteiras do seu site (ambiente de desenvolvimento e armazenamento, etc.)
  • Impedir que as páginas internas de resultados de pesquisa dos seus sites sejam rastreadas, indexadas ou exibidas nos resultados de pesquisa.
  • Especificar a localização do seu sitemap ou sitemaps
  • Optimizar o orçamento de rastreamento, bloquear o acesso a páginas de baixo valor (login, obrigado, carrinhos de compras, etc.)
  • Impedir que determinados arquivos (imagens, PDFs, etc.) sejam indexados

Exemplos de Robots.txt

Seguem-se alguns exemplos de como pode usar o arquivo robots.txt no seu site.

  1. Permitir que todos os rastreadores/robots da web acessem todo o conteúdo do site:
User-agent: *
Disallow:

Bloquear todos os rastreadores / bots da Web de todo o conteúdo do site:

User-agent: *
Disallow: /

É muito fácil cometer um erro ao criar os robots.txt do seu site, pois a diferença de bloquear todo o seu site e de o seu site ser visto é uma simples barra invertida.

Bloqueio de rastreadores / bots da Web específicos de uma pasta específica:

User-agent: Googlebot
Disallow: /

Bloqueio de rastreadores / bots da web de uma página específica do seu site:

User-agent: 
Disallow: /cart.html

Exclua todos os robôs de parte do servidor:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Para confirmar que os robots.txt estão bem construídos, que as páginas que deseja bloquear estão realmente bloqueadas, pode utilizar a Google Search Console e testar página por página.

O Google fornece ainda um guia de especificações do robots.txt que pode ajudar a melhor entender como o Google lida com o arquivo.

O tamanho máximo do arquivo robots.txt – para o Google – é de 500 KB, por isso é importante estar atento do tamanho do arquivo robots.txt.

Como criar um arquivo robots.txt

Criar um arquivo robots.txt para o seu site é um processo bastante simples, mas também é fácil cometer um erro. Não deixe que isso o desencoraje de criar ou modificar um arquivo de robôs.

Este artigo do Google orienta você pelo processo de criação de arquivos robots.txt e deve ajudá-lo a obter uma criação confortável

Melhores práticas para construir robots.txt:

  1. Certifique-se de que todas as páginas importantes sejam rastreáveis e que o conteúdo que não forneça qualquer valor real seja bloqueado.
  2. Não bloqueie recursos JavaScript e arquivos CSS
  3. Faça sempre uma rápida verificação do seu arquivo para se certificar de que nada mudou por acidente
  4. Coloque o arquivo robots.txt no directório raiz do seu site para que ele seja encontrado
  5. O arquivo Robots.txt faz distinção entre maiúsculas e minúsculas, o arquivo deve ser chamado de “robots.txt” (sem outras variações)
  6. Não use o arquivo robots.txt para ocultar informações privadas do utilizador, pois elas estarão visíveis
  7. Adicione o local do sitemaps ao seu arquivo robots.txt.
  8. Verifique se você não está a bloquear nenhum conteúdo ou secções do seu website que você deseja que o Google encontre

Erros comuns nos robots.txt

“indexada, mas bloqueada pelo robots.txt”! O sitemap contém urls bloqueados pelo arquivo robots.txt. Este é dos erros mais comuns que encontramos nos alertas do Google Serach Console.

Este erro acontece quando nos sitemaps está uma página que estamos a bloquear nos robots.txt. Basicamente, estamos a pedir no sitemap que o Google leia uma página ao mesmo tempo que estamos a dizer ao Google -a través do arquivo robots.txt – que não pode aceder àquela página.

Este erro acontece muitas vezes em sites que utilizam wordpress ou blogs que utilizar plugins que disparam sitemaps para páginas de tags e categorias.

Para corrigir basta decidir se retira as páginas do sitemap ou se, de facto, elas não deveriam estar a ser bloqueadas pelo robots.txt.

Usar o Screaming Frog – uma das principais ferramentas de SEO – ajudará a encontrar páginas erradamente bloqueadas.

 

2 comentários em “Robots.txt : O que são e como criar”

  1. Oi. Meu nome e Kris. Encontrei o seu site por acaso e eu realmente gostei. Há muita informação útil que ajuda com SEO. Além de Screaming Frog eu também uso Majesticseo seo para tarefas relacionadas com otimização SEO.
    Saudações.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *