Gerador de robots.txt

Controle quais crawlers podem entrar antes que mecanismos de busca, bots de IA ou ambientes de teste encontrem os caminhos errados.

Editor de regras

Use * para todos os crawlers ou informe um nome específico, como Googlebot.

Um caminho por linha. Comece cada caminho com /.

Use regras allow para substituir uma regra disallow mais ampla.

Aponte crawlers para o sitemap para facilitar a descoberta de URLs públicas.

Prévia do arquivo: robots.txt

Referência de robots.txt

User-agent: *

Corresponde a todo crawler e costuma ser usado como grupo de regras padrão.

Disallow: /private/

Pede que crawlers compatíveis não solicitem caminhos dentro do diretório /private/.

Allow: /private/image.jpg

Permite acesso a um arquivo específico mesmo quando um caminho pai está bloqueado.

Sitemap: URL

Aponta crawlers para o sitemap para que descubram URLs públicas com mais eficiência.

Perguntas frequentes

Preciso de um arquivo robots.txt?

Não é obrigatório, mas é útil para declarar regras de rastreamento e informar o local do sitemap. Sem ele, crawlers compatíveis podem solicitar qualquer URL pública que descobrirem.

Posso enviar esse arquivo direto mesmo sem ser técnico?

Sim. O gerador segue o protocolo padrão de exclusão de robôs. Para um site de marketing comum, o preset que permite tudo mais a URL do sitemap costuma bastar.

Como bloqueio ChatGPT ou outros crawlers de IA?

Use o preset de bloqueio de crawlers de IA. Ele adiciona regras de disallow para crawlers comuns relacionados a IA, mas robots.txt é voluntário. Ele orienta crawlers educados, não funciona como segurança de acesso.

Robots.txt protege páginas privadas?

Não. robots.txt é público e não deve ser usado como proteção. Dashboards privados, builds de teste e arquivos de clientes ainda precisam de autenticação, controles noindex ou restrições de rede.

Qual é a diferença entre noindex e Disallow?

Disallow diz aos crawlers para não buscar um caminho. noindex diz aos mecanismos de busca para não manter uma página nos resultados. Se um crawler não puder buscar a página por causa do disallow, talvez ele nem veja a tag noindex da página.