Introdução ao Robots.txt

Robots.txt: Aprenda a dominar o arquivo de diretrizes do Google para otimizar seu site

O robots.txt é uma especificação de páginas padrão do HTTP e se trata de uma página que informa os crawlers (sistemas automatizados de navegação) de motores de pesquisa sobre as partes da página ou site em geral que você deseja permitir, bloquear ou limitar acesso. Esse arquivo texto simples é um pedido respeitado pela maioria dos agentes de indexação do mundo.

O primeiro registro sobre o robots.txt foi feito em 1994 por Dave Kearns e era chamado de "robots exclusion standard". Este arquivo ajuda a direcionar, priorizar e garantir qualquer ação do crawler no site que lhe foi encomendado para pesquisar.

Como o Robots.txt funciona?

A principal função do robots.txt é impedir os crawlers de acessar determinados endereços na internet ou restringi-los ao visitar certas partes da sua página em um intervalo determinado. Geralmente o arquivo está no diretório raiz (/) de seu site e se chama "robots.txt".

Cada regra contida no arquivo robots.txt é normalmente expressa em uma linha do tipo User-agent: seguido da especificação sobre qual área ou recurso o crawler não pode ou pode acessar. Essas regras são chamadas de padrões de exibição.

Um exemplo de robots.txt para proibir um único agente de pesquisa, Google, é assim:
User-agent: Googlebot
Disallow: /proibida/

O que o que quer dizer "Disallow"? Significa não permitido aquele que recebeu o "User-agent". Então, neste exemplo, não há restrição ao Googlebot sobre como e quando pesquisar, mas é impedido de acessar diretamente as páginas no "/proibida/" diretório.

Em outras palavras: O GoogleBot é o crawler utilizado pelo motor de busca da Google e a sintaxe para permitir que ele acceda à um determinado conteúdo seria usar User-agent: googlebot, seguido do path (url) do recurso em questão com uma diretiva "Allow", como o exemplo abaixo:
User-agent: googlebot
Allow: /permitido/

No entanto, na verdade, este exemplo não faz nada especial já que "Allow" e "Disallow" são sinônimos de permitir e proibir. Uma instrução "Disallow" impede o agente de pesquisa de acessar determinadas URLs no seu site, enquanto uma instrução "Allow" permite apenas acessar essas URLs. No entanto, muitos editores usam a palavra "Disallow" porque é mais rápido.

Referência do User-agent e do Directive em Robots.txt:
- user-agent: indica o software/bot que está usando o robots.txt;

- disallow: proíbe a acesso de certos agentes em certas páginas do site;
- allow: permite o acesso de certos agentes nas páginas especificadas pelo usuário.

Como criar um arquivo Robots.txt para o seu website?
1 - Crie uma nova pasta em seu servidor (por exemplo, nomeando-a "robots"). Adicione dentro da mesma, a partir do seu painel de controle ou ftp do servidor, um novo arquivo com o nome robots.txt;
2 - Acesse o arquivo para iniciar a criação, adicione em seguida um dos padrões:
User-agent: Googlebot Disallow: /
Aqui o que eles fazem: User-agent, se refere à informação sobre qual browser estamos nos configurando (na presente ocasião: "GoogleBot"). A directive "Disallow", impede o bot de acessar o diretório mencionado ("/"), que são todas as pastas do site. É uma forma muito eficaz de deixar o google vê o seu conteúdo para indexação sem atrapalhar, já que esse arquivo está dentro de um diretório não aberto.
3 - Salve os dados;
4 - Faça logoff.
Ao executar essas etapas e salvar suas informações no formato descrito acima, o Google será informatado por esse arquivo do robots.txt que não pode acessar a sua home page. No entanto, você deve informar ao Google se deseja acessar a área de contato, blogs e demais recursos de sua página para ele se preocupar apenas em indexá-los, sem acessar esses arquivos (por exemplo, caso haja arquivo de log no final do link que permita o Google a acessar a home page após analisá-lo).
5 - Depois de configurado e salvo seu arquivo de robots.txt corretamente no diretório "robots" na sua raiz, deve-se ajustar as opções de suas pastas de htaccess com o seguinte:
"Options +FollowSymlinks
RewriteEngine on
RewriteCond %{REQUEST_URI} ^/robots
RewriteRule .* - [L]"
Nesta configuração, estamos informando para todas as solicitações iniciarem no arquivo do robots.txt.

Domine os segredos do arquivo robots.txt e consiga otimizar seu site para o Google, aumentando o engajamento e alcance orgânico. Descubra como gerar mais tráfego com nossa guia completa!
Referências: Robots.txt, arquivo de diretrizes, otimização de site, Google, SEO, tráfego, engajamento,

SEO

SEO (Search Engine Optimization) é o conjunto de técnicas usadas para melhorar o posicionamento de páginas nos mecanismos de busca, aumentar tráfego orgânico e tornar conteúdos mais visíveis para quem pesquisa no Google.