ChatGPTにサイトコンテンツが利用されるのをrobots.txtでブロック
2023/08/18
大切な資産でもあるサイトとそのサイトに掲載しているコンテンツ、そのままにしておくとChatGPTに利用されてしまうかも?
今回はChatGPTが運用するクローラーをrobots.txtでブロックする方法をご紹介します。
目次-Contents-
■ChatGPTのユーザーエージェントはGPTBot
ChatGPT の開発/提供元である OpenAI は、ウェブクローラに関係する技術ドキュメントを最近新たに公開しました。その中で、OpenAI が使用するクローラーのユーザーエージェント (UA: User Agenet) は GPTBot であることが分かりました。
完全な UA 文字列は次のとおりです。
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
また、ウェブクローラに関係する技術ドキュメントでGPTBotの使用用途も以下のように発表しています。
“Web pages crawled with the GPTBot user agent may potentially be used to improve future models and are filtered to remove sources that require paywall access, are known to gather personally identifiable information (PII), or have text that violates our policies. Allowing GPTBot to access your site can help AI models become more accurate and improve their general capabilities and safety. Below, we also share how to disallow GPTBot from accessing your site.”
上記を翻訳すると
“GPTBotユーザーエージェントでクロールされたWeb ページは、将来のモデルを改善するために使用される可能性があります。またそれらのWeb ページは、ペイウォールアクセスを必要とするソース、個人を特定できる情報 (PII) を収集することが知られているソース、またはポリシーに違反するテキストを含むソースを削除するために、フィルタリングされます。 GPTBot がサイトにアクセスできるようにすると、AI モデルの精度が向上し、一般的な機能と安全性が向上します。”
となっています。
■GPTBotはrobots.txtでブロック可能
ChatGPTが活用しているGPTBotはGoogleやBingなどの一般的な検索エンジンのクローラーと同様にrobots.txtのルールに従っているため、robots.txtでブロックすることが可能です。
●サイト全体のクロールを拒否する場合
サイト全体でのGPTBotのクロールを拒否したい場合はrobots.txtに以下のように記述をしてください。
User-agent: GPTBot
Disallow: /
これであなたのサイト全体にGPTBotがクロールすることができなくなります。
●サイト内の特定URLへのクロールを拒否する場合
サイト内の特定のディレクトリ(階層)やファイル・ページへのアクセスを限定して拒否(もしくは許可)することも可能です。
記述例としては
User-agent: GPTBot
Disallow: /●●●●●/
Allow: /●●●●●/▲▲▲▲▲/
となります。
これで/●●●●●/配下のURLへGPTBotがクロールするのを拒否しながら例外として/●●●●●/▲▲▲▲▲/配下のURLはクロールしてもいいということになります。
■補足として
OpenAIではGTPBotを含めたクローラーのIPアドレス範囲も公開しています。
IPアドレスでアクセス拒否したい場合には活用ください。
■まとめ
基本的にはサイトやサイト上にあるコンテンツは様々なクローラーからクロールされることでサイトへの導線のきっかけになる可能性が上がります。
ただ、時にはサイトの情報を使われたくないこともあるでしょう。
その時はrobots.txtでブロックすることをオススメします。