Robots.txt 產生器

在搜尋引擎、AI bots 或 staging 洩漏找到錯誤路徑前,先控制哪些 crawlers 可以進入。

規則編輯器

用 * 代表所有 crawler,或輸入特定 crawler 名稱,例如 Googlebot。

每行一個 path。每個 path 請以 / 開頭。

使用 allow rules 覆蓋較廣的 disallow rule。

把爬蟲指向 sitemap,讓公開網址更容易被發現。

檔案預覽:robots.txt

Robots.txt 參考

User-agent: *

匹配每個 crawler,通常作為預設 rule group。

Disallow: /private/

請合規 crawler 不要請求 /private/ 目錄內路徑。

Allow: /private/image.jpg

即使 parent path 被 disallow,也允許 crawler 存取特定檔案。

Sitemap: 網址

把爬蟲指向 sitemap,讓它們更有效率地發現公開網址。

常見問題

我一定需要 robots.txt 嗎?

不一定,但它很適合提供爬蟲明確的爬取規則和 sitemap 位置。沒有 robots.txt 時,合規爬蟲可以請求任何它發現的公開網址。

我不是技術人員,也可以直接上傳這個檔案嗎?

可以。產生器遵循標準 robots exclusion protocol。一般行銷網站通常使用 allow-all 範本加 sitemap 網址就夠。

如何封鎖 ChatGPT 或其他 AI crawlers?

使用 Block AI crawlers preset。它會為常見 AI 相關 crawler 加入 disallow rules,但 robots.txt 是自願遵守的規則,只控制禮貌 crawler,不是存取安全。

robots.txt 能保護私密頁面嗎?

不能。robots.txt 是公開檔案,不應當作保護。私人儀表板、預備環境建置結果和客戶檔案仍需要驗證、noindex 控制或網路層級限制。

noindex 和 Disallow 有什麼不同?

Disallow 告訴 crawler 不要抓取某路徑。noindex 告訴搜尋引擎不要把頁面保留在搜尋結果。如果 crawler 因 disallow 無法抓頁面,它可能看不到頁面層級 noindex tag。