AIモデルにサイトを除外するようリクエストする

最終更新日 2024年8月12日

特定のAIモデルにおける使用を含め、Webサイトのデータの使用方法をリクエストします。

インターネット上のすべての公開ページには、人間と機械 (Webクローラー) の両方がアクセスできます。これらのクローラーは、クロールを行う企業によって (Googleが検索結果にサイトを含める場合など) 様々な理由でサイトのインデックスを作成する可能性があります。Squarespaceでは、サイトにアクセスしている可能性のあるクローラーに関し、データの異なる使用方法をリクエストするための2つのオプションを提供しています。これは、リクエストされた除外をWebサイトのrobots.txtファイルに配置することにより実施できます。このガイドでは、AIクローラーに関連するリクエストを追加する方法について説明します。

以下の点に留意してください。

既知のAIクローラーにサイトを除外するようリクエストしても必ず除外されるわけではありませんが、現時点で利用できる選択肢としては最も優れています。
AIクローラーがサイトを除外すると、サイトのトラフィックに悪影響が生じる可能性があります。
Squarespaceは、サードパーティーの検索会社やAI会社からのWebサイトのクロールから収益を得ていません。

検索エンジンの結果からサイトを除外するには、「検索結果からサイトを非表示にする」をご参照ください。サイト上のコンテンツを非表示にするすべてのオプションを確認するには、「サイトのページにアクセスできるユーザーの制御」をご参照ください。

既知のAIクローラーのスキャン対象からサイトを除外する

AIクローラーがサイトをスキャンしないようにリクエストするには、次の手順を実行します。

「設定」パネルを開きます。
[クローラー] をクリックします。
[既知の人工知能クローラーをブロック] の横にあるチェックボックスをオンにします。

[既知の人工知能クローラーをブロック] のチェックボックスをオンにすると、robots.txtファイルが更新され、サイトをクロールしないよう次のボットに指示します。

Anthropic AI
Applebot-Extended
CCBot
Claude-Web
cohere-ai
FacebookBot
Google 拡張
GPTBotとChatGPT-User
PerplexityBot

AI技術が発展し続けるにつれて、このリストにさらに多くのボットが追加される可能性があります。ここに記載されていない特定のボットをブロックするよう提案したい場合は、当社に連絡して機能のリクエストを提出してください。

注意: 既知の人工知能クローラーをブロックするためのチェックボックスをオンにしても、過去にサイトからスクレイピングされたコンテンツがAIモデルのトレーニングデータから遡って削除されることはありません。

これはどのように機能しますか？robots.txtとは？

Robots.txtは、お客様のWebサイトで公開されたファイルのうち、友好的なクローラーが読み取って従うことを申し出たものを指します。これまでは、検索結果への追加/除外を制御することが、このファイルを変更する理由として最も一般的なものでした。ただし、この方法によるrobots.txtの更新は単なるリクエストであり、悪意のあるクローラーがコンテンツを悪用する可能性があることに変わりはありません。

公開インターネット上のコンテンツがクローラーに閲覧されないようにする唯一の方法は、コンテンツを非公開にすることです。

既知の人工知能クローラーをブロックするためのボックスが既定でチェックされていないのはなぜですか？

インターネット上のすべてのWebサイトは、特定の除外をリクエストしない限り、既定ですべてのクローラー (Google、Yahoo、SEO企業、AI企業など) によってアクセスされます。これは、何十年にもわたり続いてきたことです。世界では何万ものクローラーが様々なことを行っています。その多くはポジティブで有用なものであり、クローラー (AIを含む) の多くがサイトにトラフィックと可視性をもたらします。

既定値では、ボックスのチェックは外されています。つまり、robots.txtファイルに「AIによるクロール禁止」のリクエストは追加されていません。これは、チャットの回答やソースからサイトを除外することによりサイトのトラフィックに悪影響が生じる可能性を避けるためです。ただし、AIクローラーにサイトを除外するようリクエストできるようにチェックボックスが用意されています。これについては、サイト所有者が各自で決定する必要があります。現在の時点では、同じAI企業のチャットボットによる回答を通じて潜在的な顧客のトラフィックをサイトに誘導する一方で、画像やテキストのトレーニングモデルのみからの除外をリクエストする普遍的な方法はありません。

このボックスをオフのままにすることが推奨されるのはなぜですか？

できる限りサイトをオープンな状態にしておくことで、トラフィックを増やせる可能性が高いというメリットがあります。多くのサイトはGoogleからのトラフィックの流入を望んでおり、そのための最適化を行っています。同様に、最近のAI企業では、一般的にソースサイトへのバックリンクを提供して回答の中にお客様のサイトの情報を含めることでサイトのコンテンツの認知度を高めています。

チャットボットの回答に含めてもらうことにより、さらにトラフィックのソースを増やすことができます。たとえば、お客様がレストランを経営していると仮定します。見込み客が「ニューヨークで最高のレストランはどこですか？」と入力した質問への回答に自分の店を挙げてもらうことで、ご自分のサイトやレストランについて多くの人に知ってもらいたいと思うはずです。

備考: 現在、AIクローラーが特定のページのみをスキャンするようにリクエストすることはできません。

この設定が「既知の人工知能クローラー」と呼ばれるのはなぜですか？

サイトをクロールしないようにAI企業にリクエストするための普遍的な方法はありません。代わりに、AI企業ごとに特定のリクエストを作成する必要があります。上記のリストには、robots.txtの特定の指示に従うことを申し出た企業のうち、当社が現在把握しており該当するものが記載されています。

この記事は役に立ちましたか？

361人中210人がこの記事が役に立ったと言っています

マルウェアを報告する

フィッシングまたはファーミングを報告する

スパムを報告する

WHOIS連絡先の不正確さを報告する

AIモデルにサイトを除外するようリクエストする

特定のAIモデルにおける使用を含め、Webサイトのデータの使用方法をリクエストします。

既知のAIクローラーのスキャン対象からサイトを除外する

これはどのように機能しますか？robots.txtとは？

既知の人工知能クローラーをブロックするためのボックスが既定でチェックされていないのはなぜですか？

このボックスをオフのままにすることが推奨されるのはなぜですか？

この設定が「既知の人工知能クローラー」と呼ばれるのはなぜですか？

マルウェアを報告する

フィッシングまたはファーミングを報告する

スパムを報告する

WHOIS連絡先の不正確さを報告する

特定のAIモデルにおける使用を含め、Webサイトのデータの使用方法をリクエストします。

既知のAIクローラーのスキャン対象からサイトを除外する

これはどのように機能しますか？robots.txtとは？

既知の人工知能クローラーをブロックするためのボックスが既定でチェックされていないのはなぜですか？

このボックスをオフのままにすることが推奨されるのはなぜですか？

この設定が「既知の人工知能クローラー」と呼ばれるのはなぜですか？

関連記事