Robots.txt 產生器
在搜尋引擎、AI bots 或 staging 洩漏找到錯誤路徑前,先控制哪些 crawlers 可以進入。
規則編輯器
用 * 代表所有 crawler,或輸入特定 crawler 名稱,例如 Googlebot。
每行一個 path。每個 path 請以 / 開頭。
使用 allow rules 覆蓋較廣的 disallow rule。
把爬蟲指向 sitemap,讓公開網址更容易被發現。
檔案預覽:robots.txt
Robots.txt 參考
User-agent: *
匹配每個 crawler,通常作為預設 rule group。
Disallow: /private/
請合規 crawler 不要請求 /private/ 目錄內路徑。
Allow: /private/image.jpg
即使 parent path 被 disallow,也允許 crawler 存取特定檔案。
Sitemap: 網址
把爬蟲指向 sitemap,讓它們更有效率地發現公開網址。
常見問題
我一定需要 robots.txt 嗎?
不一定,但它很適合提供爬蟲明確的爬取規則和 sitemap 位置。沒有 robots.txt 時,合規爬蟲可以請求任何它發現的公開網址。
我不是技術人員,也可以直接上傳這個檔案嗎?
可以。產生器遵循標準 robots exclusion protocol。一般行銷網站通常使用 allow-all 範本加 sitemap 網址就夠。
如何封鎖 ChatGPT 或其他 AI crawlers?
使用 Block AI crawlers preset。它會為常見 AI 相關 crawler 加入 disallow rules,但 robots.txt 是自願遵守的規則,只控制禮貌 crawler,不是存取安全。
robots.txt 能保護私密頁面嗎?
不能。robots.txt 是公開檔案,不應當作保護。私人儀表板、預備環境建置結果和客戶檔案仍需要驗證、noindex 控制或網路層級限制。
noindex 和 Disallow 有什麼不同?
Disallow 告訴 crawler 不要抓取某路徑。noindex 告訴搜尋引擎不要把頁面保留在搜尋結果。如果 crawler 因 disallow 無法抓頁面,它可能看不到頁面層級 noindex tag。