AI エージェント対応Web セキュリティWeb 担当者

robots.txt で AI クローラを用途別制御

ドメイン番人4 分で読めます
目次

この記事でわかること

  • AI クローラを「学習」「検索」など用途別に制御するという考え方
  • Cloudflare の Content Signals が robots.txt に何を書き足す仕組みなのか
  • 中小企業サイトでの具体的な書き方と、必ず知っておくべき限界

「全部止める / 全部通す」では困る

AI クローラへの対応は「通すか、止めるか」の二択で語られがちです。しかし実際には、検索や問い合わせ代行で見つけてもらう経路は残したい、一方で学習データとして無断利用されるのは避けたい、という中間のニーズが多いはずです。

この「用途別に意思を伝える」ための仕組みが、Cloudflare が 2025 年 9 月に発表した Content Signals Policy です。すでに 380 万を超えるドメインに展開されています。どのボットを名指しで許可・ブロックするかはGPTBot / ClaudeBot の許可・ブロック判断で扱います。本記事は、その手前にある「用途別に制御する仕組み」に絞って解説します。

Content Signals は robots.txt に何を足すのか

Content Signals は、見慣れた robots.txtアクセス後の利用用途(use after access)に関する希望 を書き足すものです。追加されるのは次の 2 つです。

  • 人間可読のポリシーブロック: 利用用途の希望を文章で記載する部分
  • 機械可読の 1 行: クローラが解釈できる短いシグナル

機械可読シグナルは、たとえば次のように書きます。

robots.txt に書く Content Signals の例

  • search=yes: 検索インデックスでの利用は可
  • ai-train=no: AI の学習データ用途は不可

Cloudflare のデフォルト構成は search=yes かつ ai-train=no です。検索で見つけてもらう経路は開けたまま、学習用途には「ノー」と表明する、という現実的な初期値になっています。

注目したいのは、推論時の入力に関わる ai-input シグナルは中立(neutral)のままロールアウトされている 点です。Cloudflare は「顧客の選好を勝手に推測しない」と表明しており、ここを可にするか不可にするかはサイト運営者が自分の方針として決めることになります。

必ず知っておくべき限界: シグナル ≠ ブロック

ここが本記事で最も重要な点です。Content Signals は「お願い」であって、技術的に通信を遮断する「ブロック」ではありません。

シグナルに準拠するかどうかはボット側の任意であり、無視する事業者もありえます。これは Cloudflare 自身が明言しています。つまり、ai-train=no と書いても、それを尊重しないクローラには効果がありません。

シグナルは「お願い」であってブロックではない

「robots.txt に書いたから絶対に学習されない」と考えるのは誤りです。意思表示として価値はありますが、確実に止めたい相手がいる場合は、サーバ側やネットワーク側でのアクセス制御を併用します。用途別制御は「方針を明示する手段」、技術的遮断は「強制する手段」と切り分けると整理しやすくなります。

よくある質問

Content Signals を書けば AI に学習されなくなりますか

いいえ。準拠はボット側の任意で、無視する事業者もありえます。確実に学習を防ぎたい場合は、シグナルの表明に加えて、サーバやネットワークでのアクセス制御を併用してください。

既存の robots.txt を全部書き換える必要がありますか

いいえ。Content Signals は既存の robots.txt に人間可読のポリシーと機械可読の 1 行を 足す 仕組みです。これまでの記述を消す必要はありません。

ai-input はどう設定すればよいですか

既定では中立のままで、サイト側が方針を決める前提になっています。検索や問い合わせ代行で見つけてもらいたいなら開ける、推論時の利用も避けたいなら不可にする、というように自社の方針に合わせて判断します。迷う場合は中立のままでも構いません。

まとめ

  • AI クローラ制御は「全部止める / 全部通す」ではなく、用途別に意思を伝える時代へ
  • Cloudflare の Content Signals は robots.txt に人間可読ポリシーと機械可読シグナルを足す仕組み
  • デフォルトは search=yes(検索可)かつ ai-train=no(学習不可)、ai-input は中立
  • シグナルは「お願い」であってブロックではなく、準拠は任意。確実に止めるには技術的遮断を併用する

自社サイトの AI 対応状況を確認しませんか

robots.txt はAI エージェント対応とはの土台となる要素です。自社サイトが用途別制御を含む基盤を整えられているかは、AI エージェント対応チェックで確認できます。DNS・SPF / DKIM / DMARC・SSL を含むインフラ全体の状態は、ドメイン番人の無料診断で数十秒でチェックできます。単発のチェックツールは無料ツール一覧にまとめています。

次の一歩は無料診断から。