Robots.txt 生成器
在搜索引擎、AI bots 或 staging 链接暴露错误路径前,先控制哪些 crawlers 可以进入。
规则编辑器
用 * 代表所有 crawler,或输入特定 crawler 名称,例如 Googlebot。
每行一个 path。每个 path 请以 / 开头。
使用 allow rules 覆盖较广的 disallow rule。
把爬虫指向 sitemap,让公开网址更容易被发现。
文档预览:robots.txt
Robots.txt 参考
User-agent: *
匹配每个 crawler,通常作为默认 rule group。
Disallow: /private/
请合规 crawler 不要请求 /private/ 目录内路径。
Allow: /private/image.jpg
即使 parent path 被 disallow,也允许 crawler 访问特定文件。
Sitemap: 网址
把爬虫指向 sitemap,让它们更有效率地发现公开网址。
常见问题
我一定需要 robots.txt 吗?
不一定,但它很适合提供爬虫明确的爬取规则和 sitemap 位置。没有 robots.txt 时,合规爬虫可以请求任何它发现的公开网址。
我不是技术人员,也可以直接上传这个文件吗?
可以。生成器遵循标准 robots exclusion protocol。一般营销网站通常使用 allow-all 范本加 sitemap 网址就够。
如何封锁 ChatGPT 或其他 AI crawlers?
使用 Block AI crawlers preset。它会为常见 AI 相关 crawler 加入 disallow rules,但 robots.txt 是自愿遵守的规则,只控制礼貌 crawler,不是访问安全。
robots.txt 能保护私密页面吗?
不能。robots.txt 是公开文件,不应当作保护。私人控制台、预备环境构建结果和客户文件仍需要验证、noindex 控制或网络层级限制。
noindex 和 Disallow 有什么不同?
Disallow 告诉 crawler 不要抓取某路径。noindex 告诉搜索引擎不要把页面保留在搜索结果。如果 crawler 因 disallow 无法抓页面,它可能看不到页面层级 noindex tag。