Gerador de robots.txt
Controle quais crawlers podem entrar antes que mecanismos de busca, bots de IA ou ambientes de teste encontrem os caminhos errados.
Editor de regras
Use * para todos os crawlers ou informe um nome específico, como Googlebot.
Um caminho por linha. Comece cada caminho com /.
Use regras allow para substituir uma regra disallow mais ampla.
Aponte crawlers para o sitemap para facilitar a descoberta de URLs públicas.
Prévia do arquivo: robots.txt
Referência de robots.txt
User-agent: *
Corresponde a todo crawler e costuma ser usado como grupo de regras padrão.
Disallow: /private/
Pede que crawlers compatíveis não solicitem caminhos dentro do diretório /private/.
Allow: /private/image.jpg
Permite acesso a um arquivo específico mesmo quando um caminho pai está bloqueado.
Sitemap: URL
Aponta crawlers para o sitemap para que descubram URLs públicas com mais eficiência.
Perguntas frequentes
Preciso de um arquivo robots.txt?
Não é obrigatório, mas é útil para declarar regras de rastreamento e informar o local do sitemap. Sem ele, crawlers compatíveis podem solicitar qualquer URL pública que descobrirem.
Posso enviar esse arquivo direto mesmo sem ser técnico?
Sim. O gerador segue o protocolo padrão de exclusão de robôs. Para um site de marketing comum, o preset que permite tudo mais a URL do sitemap costuma bastar.
Como bloqueio ChatGPT ou outros crawlers de IA?
Use o preset de bloqueio de crawlers de IA. Ele adiciona regras de disallow para crawlers comuns relacionados a IA, mas robots.txt é voluntário. Ele orienta crawlers educados, não funciona como segurança de acesso.
Robots.txt protege páginas privadas?
Não. robots.txt é público e não deve ser usado como proteção. Dashboards privados, builds de teste e arquivos de clientes ainda precisam de autenticação, controles noindex ou restrições de rede.
Qual é a diferença entre noindex e Disallow?
Disallow diz aos crawlers para não buscar um caminho. noindex diz aos mecanismos de busca para não manter uma página nos resultados. Se um crawler não puder buscar a página por causa do disallow, talvez ele nem veja a tag noindex da página.