AI エージェント対応Web セキュリティWeb 担当者

GPTBot ClaudeBot 許可とブロック判断

ドメイン番人5 分で読めます
目次

この記事でわかること

  • GPTBot・ClaudeBot をはじめとする主要な AI クローラの User-Agent 一覧
  • robots.txt で特定のボットを許可・ブロックする書き方
  • 「学習は止める / 検索は通す」など、用途で判断する考え方
  • robots.txt は「お願い」であり、確実に止めるには別の手段が要るという限界

主要な AI クローラの一覧

AI クローラは「サイトを訪れる AI 由来のプログラム」の総称ですが、その中身は用途ごとに分かれています。同じ提供元でも、学習データを集めるためのボットと、検索や問い合わせ代行のためのボットでは User-Agent(名乗り)が異なります。これを混同せず、トークン単位で扱うことが第一歩です。

代表的なものを用途別に整理すると次のとおりです。

主要な AI クローラと許可・ブロックの判断

提供元 User-Agent おもな用途
OpenAI GPTBot 学習用クロール
OpenAI OAI-SearchBot 検索
OpenAI ChatGPT-User ユーザー操作時の取得
Anthropic ClaudeBot / Claude-Web / anthropic-ai クロール
Google Google-Extended Gemini 学習のオプトアウト用
各社ほか CCBot(Common Crawl)/ PerplexityBot / Bytespider(ByteDance)/ Applebot-Extended / Amazonbot / Meta-ExternalAgent 学習・検索など

注意したいのは Google-Extended です。これは Gemini の学習に使うかどうかを指定するためのトークンで、通常の検索クロールを担う Googlebot とは別物です。Google-Extended を止めても、Google 検索の掲載順位には影響しません。

robots.txt での許可・ブロックの書き方

robots.txt はサイトのルート(https://example.com/robots.txt)に置くテキストファイルで、User-agent: で対象ボットを指定し、その下の Disallow: / Allow: でアクセス可否を伝えます。

robots.txt の書き方

たとえば「学習用の GPTBot と CCBot は止めたいが、検索系の OAI-SearchBot は通したい」場合はこう書きます。

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

Disallow: / でサイト全体を対象にし、特定のディレクトリだけ止めたいときは Disallow: /private/ のようにパスを指定します。ブロックしたいボットの数だけ User-agent: のブロックを並べていきます。

用途で判断する 3 つの軸

どのボットを許可し、どれを止めるかは、次の 3 点で考えると整理しやすくなります。

  1. 検索や AI 経由の流入を得たいか: ChatGPT や Perplexity の回答に自社が引用されると、新しい流入経路になります。検索系(OAI-SearchBot など)を止めると、この経路も閉じてしまいます
  2. 学習データに使われたくないか: 自社の文章や画像を学習に使われたくないなら、学習用クロール(GPTBot・CCBot・Google-Extended など)を止める判断になります
  3. サーバ負荷: アクセス頻度が高く負荷が気になるボットは、流入価値と天秤にかけて制限を検討します

多くの中小企業にとって現実的な出発点は、学習用途(GPTBot など)は止める / 検索・操作系(OAI-SearchBot など)は通すという方針です。流入の入口を残しつつ、学習への提供だけを抑えられます。用途別の細かな制御の仕組みについては、robots.txt で AI クローラを用途別制御(Content Signals)で解説しています。

robots.txt は「お願い」だという限界

ここが最も大切な注意点です。robots.txt は、ボットに対する「ここは読まないでください」というお願いにすぎません。記述に従うかどうかはボット側の任意であり、技術的に強制する仕組みではありません。

良識的なボットの多くは robots.txt を尊重しますが、すべてが従う保証はありません。アクセスを確実に止めたい場合は、WAF や Cloudflare などのサーバ側のブロック機能で、リクエスト自体を遮断する必要があります。robots.txt は方針表明、サーバ側ブロックは強制執行、と役割を分けて考えてください。

よくある質問

AI クローラは全部ブロックすべきですか

一概には言えません。学習用途は止めたいが、検索や問い合わせ代行で自社を見つけてもらう経路は残したい、というケースが多いはずです。用途別に分けて判断するのが現実的です。

Google-Extended を止めると検索順位に影響しますか

影響しません。Google-Extended は Gemini の学習用に分かれたトークンで、検索クロールを担う Googlebot とは別だからです。

robots.txt に書けば確実にブロックできますか

いいえ。robots.txt はお願いであり、準拠はボット側の任意です。確実に遮断したいときは WAF や Cloudflare などのサーバ側ブロックを併用してください。

まとめ

  • AI クローラは用途ごとにトークンが分かれている。GPTBot は学習用、OAI-SearchBot は検索用
  • robots.txt では User-agent: ごとに Disallow: / Allow: で可否を伝える
  • 中小企業の出発点は「学習は止める / 検索は通す」が現実的
  • robots.txt はお願いにすぎず、確実に止めるならサーバ側ブロックが必要
  • 仕組みの全体像はAI エージェント対応とはもあわせて参照

自社サイトの設定を確認しませんか

robots.txt や DNS、SSL といった Web インフラが正しく整っているかは、ドメイン番人の無料診断で数十秒で確認できます。個別のチェックツールは無料ツール一覧にまとめています。

次の一歩は無料診断から。