GPTBot ClaudeBot 許可とブロック判断
目次
この記事でわかること
- GPTBot・ClaudeBot をはじめとする主要な AI クローラの User-Agent 一覧
- robots.txt で特定のボットを許可・ブロックする書き方
- 「学習は止める / 検索は通す」など、用途で判断する考え方
- robots.txt は「お願い」であり、確実に止めるには別の手段が要るという限界
主要な AI クローラの一覧
AI クローラは「サイトを訪れる AI 由来のプログラム」の総称ですが、その中身は用途ごとに分かれています。同じ提供元でも、学習データを集めるためのボットと、検索や問い合わせ代行のためのボットでは User-Agent(名乗り)が異なります。これを混同せず、トークン単位で扱うことが第一歩です。
代表的なものを用途別に整理すると次のとおりです。
| 提供元 | User-Agent | おもな用途 |
|---|---|---|
| OpenAI | GPTBot | 学習用クロール |
| OpenAI | OAI-SearchBot | 検索 |
| OpenAI | ChatGPT-User | ユーザー操作時の取得 |
| Anthropic | ClaudeBot / Claude-Web / anthropic-ai | クロール |
| Google-Extended | Gemini 学習のオプトアウト用 | |
| 各社ほか | CCBot(Common Crawl)/ PerplexityBot / Bytespider(ByteDance)/ Applebot-Extended / Amazonbot / Meta-ExternalAgent | 学習・検索など |
注意したいのは Google-Extended です。これは Gemini の学習に使うかどうかを指定するためのトークンで、通常の検索クロールを担う Googlebot とは別物です。Google-Extended を止めても、Google 検索の掲載順位には影響しません。
robots.txt での許可・ブロックの書き方
robots.txt はサイトのルート(https://example.com/robots.txt)に置くテキストファイルで、User-agent: で対象ボットを指定し、その下の Disallow: / Allow: でアクセス可否を伝えます。
たとえば「学習用の GPTBot と CCBot は止めたいが、検索系の OAI-SearchBot は通したい」場合はこう書きます。
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /
Disallow: / でサイト全体を対象にし、特定のディレクトリだけ止めたいときは Disallow: /private/ のようにパスを指定します。ブロックしたいボットの数だけ User-agent: のブロックを並べていきます。
用途で判断する 3 つの軸
どのボットを許可し、どれを止めるかは、次の 3 点で考えると整理しやすくなります。
- 検索や AI 経由の流入を得たいか: ChatGPT や Perplexity の回答に自社が引用されると、新しい流入経路になります。検索系(OAI-SearchBot など)を止めると、この経路も閉じてしまいます
- 学習データに使われたくないか: 自社の文章や画像を学習に使われたくないなら、学習用クロール(GPTBot・CCBot・Google-Extended など)を止める判断になります
- サーバ負荷: アクセス頻度が高く負荷が気になるボットは、流入価値と天秤にかけて制限を検討します
多くの中小企業にとって現実的な出発点は、学習用途(GPTBot など)は止める / 検索・操作系(OAI-SearchBot など)は通すという方針です。流入の入口を残しつつ、学習への提供だけを抑えられます。用途別の細かな制御の仕組みについては、robots.txt で AI クローラを用途別制御(Content Signals)で解説しています。
robots.txt は「お願い」だという限界
ここが最も大切な注意点です。robots.txt は、ボットに対する「ここは読まないでください」というお願いにすぎません。記述に従うかどうかはボット側の任意であり、技術的に強制する仕組みではありません。
良識的なボットの多くは robots.txt を尊重しますが、すべてが従う保証はありません。アクセスを確実に止めたい場合は、WAF や Cloudflare などのサーバ側のブロック機能で、リクエスト自体を遮断する必要があります。robots.txt は方針表明、サーバ側ブロックは強制執行、と役割を分けて考えてください。
よくある質問
AI クローラは全部ブロックすべきですか
一概には言えません。学習用途は止めたいが、検索や問い合わせ代行で自社を見つけてもらう経路は残したい、というケースが多いはずです。用途別に分けて判断するのが現実的です。
Google-Extended を止めると検索順位に影響しますか
影響しません。Google-Extended は Gemini の学習用に分かれたトークンで、検索クロールを担う Googlebot とは別だからです。
robots.txt に書けば確実にブロックできますか
いいえ。robots.txt はお願いであり、準拠はボット側の任意です。確実に遮断したいときは WAF や Cloudflare などのサーバ側ブロックを併用してください。
まとめ
- AI クローラは用途ごとにトークンが分かれている。GPTBot は学習用、OAI-SearchBot は検索用
- robots.txt では
User-agent:ごとにDisallow:/Allow:で可否を伝える - 中小企業の出発点は「学習は止める / 検索は通す」が現実的
- robots.txt はお願いにすぎず、確実に止めるならサーバ側ブロックが必要
- 仕組みの全体像はAI エージェント対応とはもあわせて参照
自社サイトの設定を確認しませんか
robots.txt や DNS、SSL といった Web インフラが正しく整っているかは、ドメイン番人の無料診断で数十秒で確認できます。個別のチェックツールは無料ツール一覧にまとめています。