Robots.txt 生成器

在搜索引擎、AI bots 或 staging 链接暴露错误路径前,先控制哪些 crawlers 可以进入。

规则编辑器

用 * 代表所有 crawler,或输入特定 crawler 名称,例如 Googlebot。

每行一个 path。每个 path 请以 / 开头。

使用 allow rules 覆盖较广的 disallow rule。

把爬虫指向 sitemap,让公开网址更容易被发现。

文档预览:robots.txt

Robots.txt 参考

User-agent: *

匹配每个 crawler,通常作为默认 rule group。

Disallow: /private/

请合规 crawler 不要请求 /private/ 目录内路径。

Allow: /private/image.jpg

即使 parent path 被 disallow,也允许 crawler 访问特定文件。

Sitemap: 网址

把爬虫指向 sitemap,让它们更有效率地发现公开网址。

常见问题

我一定需要 robots.txt 吗?

不一定,但它很适合提供爬虫明确的爬取规则和 sitemap 位置。没有 robots.txt 时,合规爬虫可以请求任何它发现的公开网址。

我不是技术人员,也可以直接上传这个文件吗?

可以。生成器遵循标准 robots exclusion protocol。一般营销网站通常使用 allow-all 范本加 sitemap 网址就够。

如何封锁 ChatGPT 或其他 AI crawlers?

使用 Block AI crawlers preset。它会为常见 AI 相关 crawler 加入 disallow rules,但 robots.txt 是自愿遵守的规则,只控制礼貌 crawler,不是访问安全。

robots.txt 能保护私密页面吗?

不能。robots.txt 是公开文件,不应当作保护。私人控制台、预备环境构建结果和客户文件仍需要验证、noindex 控制或网络层级限制。

noindex 和 Disallow 有什么不同?

Disallow 告诉 crawler 不要抓取某路径。noindex 告诉搜索引擎不要把页面保留在搜索结果。如果 crawler 因 disallow 无法抓页面,它可能看不到页面层级 noindex tag。