robots.txt生成
検索エンジン、AIクローラー、ステージングURLが意図しないパスを見つける前に、クローラーへの案内を整理します。
ルール編集
* はすべてのクローラーに一致します。Googlebotなどの具体名も入力できます。
1行に1パス。各パスは / から始めます。
広いDisallowルールの例外を作るときに使います。
クローラーにsitemapを知らせると、公開URLを見つけてもらいやすくなります。
ファイルプレビュー: robots.txt
robots.txtの書き方
User-agent: *
すべてのクローラーに一致します。既定のルールグループとしてよく使います。
Disallow: /private/
対応するクローラーに /private/ 配下を取得しないよう依頼します。
Allow: /private/image.jpg
親パスが拒否されていても、特定のファイルだけ取得を許可します。
Sitemap: URL
クローラーにsitemapの場所を伝え、公開URLを見つけやすくします。
よくある質問
robots.txt は必ず必要ですか?
必須ではありませんが、クローラー向けのルールとsitemapの場所を明示できます。ない場合、対応するクローラーは見つけた公開URLを取得できます。
詳しくなくてもそのままアップロードできますか?
はい。標準的なrobots exclusion protocolに沿って生成します。一般的なマーケティングサイトでは、すべて許可のプリセットとsitemap URLだけで足りることもあります。
ChatGPT などのAIクローラーを止めるには?
AIクローラー拒否のプリセットを使います。ただしrobots.txtは任意遵守の仕組みです。クローラーへの案内であり、アクセス制御ではありません。
robots.txt で非公開ページを守れますか?
いいえ。robots.txt自体は公開ファイルです。非公開ダッシュボード、ステージング環境、顧客向けファイルには、認証、noindex、ネットワーク制限などを使います。
noindex と Disallow は何が違いますか?
Disallowはクローラーにパスを取得しないよう伝えます。noindexは検索結果に残さない指示です。Disallowで取得できないページのnoindexタグは、クローラーに見えない場合があります。