Como implementar Hreflang Tag

hreflang tag Holytrap

Hreflang tag é uma alternate, inserida no código html das páginas de um site ou nos sitemaps, para indicar ao Google que aquele conteúdo possui versões em diferentes idiomas e/ou para diferentes países.

Para aqueles que são mais meticulosos: 

hreflang não é tecnicamente uma tag, é um atributo. Mas é comum ser chamado de tag.

A sua utilização é importante para indicar qual o conteúdo mais adequado para Google em cada país ou, no caso de haver mais de uma língua oficial no país, qual a página correcta consoante o idioma do navegador.

Mesmo que não utilize hreflang tag é possível que o Google consiga perceber que página deve ser mostrada em cada um dos países. No entanto, em geral, é melhor indicar explicitamente as páginas específicas a idiomas ou regiões.

O Google explica neste vídeo como e quando implementar as hreflang tags:

Métodos para implementar hreflang tags

HTML

Adicione elementos ao cabeçalho da página para informar o Google sobre todas as variações de idioma e região de uma página. Isso será útil se você não tiver um sitemap ou não puder especificar cabeçalhos de resposta HTTP para o site.

Cada variação da página deve incluir um conjunto de elementos para cada variante da página, incluindo para ela mesma. O conjunto de links é idêntico para todas as versões da página.

<link rel=”alternate” hreflang=”lang_code” href=”url_of_page” />

Um exemplo de boa implementação das hreflang tag é o site da Holy Trap, um escape room no Algarve que procura atrair tráfego de Portugal, mas também do mercado inglês.

hreflang tag Holytrap

Cabeçalho HTTP

É possível retornar um cabeçalho HTTP com a resposta GET da página para informar o Google sobre todas as variantes de idioma e região de uma página. Isso é útil para arquivos não HTML, como PDFs.

Este é o formato do cabeçalho:

Link: <url1>; rel="alternate"; hreflang="lang_code_1", <url2>; rel="alternate"; hreflang="lang_code_2", ...

Sitemap

É possível usar um sitemap para informar o Google sobre todas as variantes de idioma e região de cada URL. Para fazer isso, adicione um elemento <loc> que especifique um único URL, com entradas filhas <xhtml:link> que listem todas as variantes de idioma/localidade da página, incluindo ela mesma. Assim, se você tiver três versões de uma página, o sitemap terá três entradas, cada uma com três entradas filhas idênticas.

Regras do sitemap:

  • Especifique o namespace xhtml da seguinte forma:
    xmlns:xhtml="http://www.w3.org/1999/xhtml"
  • Crie um elemento <url> separado para cada URL.
  • Cada elemento <url> precisa incluir um filho <loc> indicando o URL da página.
  • Cada elemento <url> precisa ter um elemento filho <xhtml:link rel="alternate" hreflang="supported_language-code"> que liste todas as versões alternativas da página, incluindo ela mesma.  A ordem desses elementos filhos <xhtml:link> não importa, mas mantê-los na mesma ordem facilita a verificação de erros.

Porque são as tags Hreflang tão importantes?

As tags do Hreflang ajudam os mecanismos de pesquisa a entender qual a versão do conteúdo é exibida para qual público-alvo.

Atenção:

hreflang é apenas uma directiva para o Google. Por vezes o Google entende que há outras páginas que melhor respondem ao utilizador e ignora a tag. Mas isso não significa que as hreflang não têm valor.

O Google já não confia tanto nos ccTLDs como o principal indicador de localização. Em vez disso, o motor de busca está tomar decisões sobre o fornecimento de conteúdo com base nas configurações do utilizador, do local e do idioma, aumentando assim a importância da tag Hreflang.

É também importante utilizar hreflang para evitar que o Google entenda conteúdos parecidos ou iguais como duplicados. Se há duas páginas semelhantes mas com target para países diferentes o Google deve ser avisado através destas tags.

Quais são os problemas mais comuns com tags Hreflang?

Ao longo dos anos, analisámos milhares de tags de Hreflang e, muitas vezes, vimos os mesmos tipos de erros.

Códigos Incorretos

Um dos problemas mais comuns é o uso de linguagem inventada ou códigos de país. Geralmente, os códigos oficiais são diferentes para o idioma e o país, portanto, as suas tags são diferentes.

Bons exemplos disso:

Sueco – não é SE-SE mas SV-SE. SV para Svenska, o nome da língua sueca
Japonês – não é JP-JP mas JA-JP para japonês
O Reino Unido – O código oficial do país para o Reino Unido é GB não no Reino Unido, portanto o código correto é EN-GB não EN-UK.
Você não precisa se lembrar desses códigos, pois pode encontrar facilmente uma lista dos dois tipos de código on-line:

http://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
Os códigos de país estão aqui: http://en.wikipedia.org/wiki/ISO_3166-1_alpha-2

Tag Hreflang de auto-referência ausente

Ao listar todas as tags do Hreflang, seja na página ou no arquivo do sitemap, inclua uma tag no idioma actual. Portanto, se você estiver a fornecer tags Hreflang de uma página ou sitemap alemão, certifique-se de que há um Hreflang alemão e as dos outros mercados.

Conflitos com tags canônicas

Certifique-se de que a tag de auto-referência usa o mesmo URL da tag canónica (canonical tag) na página ao adicionar Hreflang tag. Se as duas tags entrarem em conflicto, isso apenas confundirá os mecanismos de busca.

URLs de tags do Hreflang que não estão correctas

Pode ser um URL que redirecciona ou uma página que não está mais activa. Fazer um crawl com o ScreamingFrog é suficiente para encontrar esses problemas.

A análise de erros das hreflang tags fazem parte de qualquer análise de SEO técnico.

Veja aqui como fazer uma Auditoria SEO, passo por passo.

Robots.txt : O que são e como criar

Exemplo robots txt

O arquivo robots.txt fica na raiz de qualquer site e pode ser encontrado em www.example.com/robots.txt. O robots.txt é um arquivo de texto simples que segue o Protocolo de exclusão de robôs. Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia (ou permite) o acesso de um determinado rastreador a um caminho de arquivo (página ou pasta) especificado no site.

O robots.txt é uma parte frequentemente esquecida em SEO e nas auditorias técnicas. Mesmo sendo uma parte importante de qualquer conjunto de ferramentas de SEO.

Exemplo robots txt

Este ficheiro pode ser usado para diversos fins, desde que os mecanismos de pesquisa saibam onde ir para localizar o sitemap dos seus sites até que páginas rastrear e indexar e não rastrear. Além de ser uma óptima ferramenta para gerir o crawl budget de sites.

Por exemplo, se tiver páginas duplicadas ou páginas desactualizadas e queira que o Google não aceda a uma delas.

Crawl Budget

O crawl budget ou orçamento do rastreamento é o método que o Google usa para rastrear e indexar as páginas dos sites com eficiência. Por maior que seja o Google, o motor de busca ainda têm um número limitado de recursos disponíveis para rastrear e indexar o conteúdo de seus sites.

Especialmente se tiver um site com muito conteúdo fornecido em javascript.

Se o seu site for grande como um site de comércio eletrónico, por exemplo, e você tiver milhares de páginas com muitos URLs gerados automaticamente, o Google poderá não rastrear todas essas páginas e você perderá muita oportunidade de tráfego e de visibilidade.

O Google já confirmou que ter muitos URLs de baixo valor pode afectar negativamente o rastreamento e a indexação de um site. É aí que ter um arquivo robots.txt pode ajudar com os factores que afectam o orçamento de rastreamento de sites.

Analisar o robots.txt é fundamental numa auditoria de SEO.

Você pode usar o arquivo para ajudar a gerir o crawl budget, certificando-se de que os mecanismos de pesquisa estejam gastando o seu tempo no site da maneira mais eficiente possível (especialmente se você tiver um site grande) e rastreando apenas as páginas importantes sem perder tempo páginas como login, inscrição ou páginas de agradecimento.

Porque precisa do robots.txt?

Antes que um robot como o Googlebot, Bingbot, etc. rastreie uma página da Web, primeiro ele verifica se existe, de facto, um arquivo robots.txt e, se houver, geralmente respeitará as instruções encontradas nesse arquivo.

Um arquivo robots.txt pode ser uma ferramenta poderosa para SEO, pois é uma óptima maneira de controlar como os rastreadores/bots de motores de busca acedem determinadas áreas do site. Lembre-se de que precisa entender como o arquivo robots.txt funciona ou acidentalmente poderá bloquear o Googlebot ou qualquer outro bot e eles não serão capazes de rastrear todo o seu site. Isos fará com que possa não encontrar o seu site nos resultados de pesquisa.

Quando feito correctamente, é possível controlar coisas como:

  • Bloqueio de acesso a secções inteiras do seu site (ambiente de desenvolvimento e armazenamento, etc.)
  • Impedir que as páginas internas de resultados de pesquisa dos seus sites sejam rastreadas, indexadas ou exibidas nos resultados de pesquisa.
  • Especificar a localização do seu sitemap ou sitemaps
  • Optimizar o orçamento de rastreamento, bloquear o acesso a páginas de baixo valor (login, obrigado, carrinhos de compras, etc.)
  • Impedir que determinados arquivos (imagens, PDFs, etc.) sejam indexados

Exemplos de Robots.txt

Seguem-se alguns exemplos de como pode usar o arquivo robots.txt no seu site.

  1. Permitir que todos os rastreadores/robots da web acessem todo o conteúdo do site:
User-agent: *
Disallow:

Bloquear todos os rastreadores / bots da Web de todo o conteúdo do site:

User-agent: *
Disallow: /

É muito fácil cometer um erro ao criar os robots.txt do seu site, pois a diferença de bloquear todo o seu site e de o seu site ser visto é uma simples barra invertida.

Bloqueio de rastreadores / bots da Web específicos de uma pasta específica:

User-agent: Googlebot
Disallow: /

Bloqueio de rastreadores / bots da web de uma página específica do seu site:

User-agent: 
Disallow: /cart.html

Exclua todos os robôs de parte do servidor:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Para confirmar que os robots.txt estão bem construídos, que as páginas que deseja bloquear estão realmente bloqueadas, pode utilizar a Google Search Console e testar página por página.

O Google fornece ainda um guia de especificações do robots.txt que pode ajudar a melhor entender como o Google lida com o arquivo.

O tamanho máximo do arquivo robots.txt – para o Google – é de 500 KB, por isso é importante estar atento do tamanho do arquivo robots.txt.

Como criar um arquivo robots.txt

Criar um arquivo robots.txt para o seu site é um processo bastante simples, mas também é fácil cometer um erro. Não deixe que isso o desencoraje de criar ou modificar um arquivo de robôs.

Este artigo do Google orienta você pelo processo de criação de arquivos robots.txt e deve ajudá-lo a obter uma criação confortável

Melhores práticas para construir robots.txt:

  1. Certifique-se de que todas as páginas importantes sejam rastreáveis e que o conteúdo que não forneça qualquer valor real seja bloqueado.
  2. Não bloqueie recursos JavaScript e arquivos CSS
  3. Faça sempre uma rápida verificação do seu arquivo para se certificar de que nada mudou por acidente
  4. Coloque o arquivo robots.txt no directório raiz do seu site para que ele seja encontrado
  5. O arquivo Robots.txt faz distinção entre maiúsculas e minúsculas, o arquivo deve ser chamado de “robots.txt” (sem outras variações)
  6. Não use o arquivo robots.txt para ocultar informações privadas do utilizador, pois elas estarão visíveis
  7. Adicione o local do sitemaps ao seu arquivo robots.txt.
  8. Verifique se você não está a bloquear nenhum conteúdo ou secções do seu website que você deseja que o Google encontre

Erros comuns nos robots.txt

“indexada, mas bloqueada pelo robots.txt”! O sitemap contém urls bloqueados pelo arquivo robots.txt. Este é dos erros mais comuns que encontramos nos alertas do Google Serach Console.

Este erro acontece quando nos sitemaps está uma página que estamos a bloquear nos robots.txt. Basicamente, estamos a pedir no sitemap que o Google leia uma página ao mesmo tempo que estamos a dizer ao Google -a través do arquivo robots.txt – que não pode aceder àquela página.

Este erro acontece muitas vezes em sites que utilizam wordpress ou blogs que utilizar plugins que disparam sitemaps para páginas de tags e categorias.

Para corrigir basta decidir se retira as páginas do sitemap ou se, de facto, elas não deveriam estar a ser bloqueadas pelo robots.txt.

Usar o Screaming Frog – uma das principais ferramentas de SEO – ajudará a encontrar páginas erradamente bloqueadas.