Demander que les modèles d’IA excluent votre site

Demandez comment les données de votre site web sont utilisées, y compris dans certains modèles d’IA

Dernière mise à jour le 26 juillet 2024

Toutes les pages publiques sur internet sont accessibles à la fois par les humains et les machines (robots d’indexation). Ces robots peuvent indexer votre site pour différentes raisons, selon l’entreprise qui effectue l’indexation (par exemple, Google qui inclut votre site dans ses résultats de recherche). Squarespace vous propose deux options relatives aux robots d’indexation susceptibles d’accéder à votre site pour demander que vos données soient utilisées différemment. Pour cela, les exclusions demandées sont ajoutées dans le fichier robots.txt de votre site web. Ce guide vous explique comment ajouter la demande relative aux robots d’indexation basés sur l’IA.

À retenir :

  • Vous pouvez demander que les robots d’indexation basés sur l’IA connus excluent votre site, mais sans aucune garantie que ce soit le cas. Il s’agit toutefois de la meilleure option disponible actuellement.
  • Si les robots d’indexation basés sur l’IA excluent votre site, le trafic de votre site peut être impacté négativement.
  • Squarespace ne tire aucun revenu de l’indexation des sites web par des sociétés de recherche tierces ou d’IA.

Pour exclure votre site des résultats des moteurs de recherche, consultez l’article Masquer votre site aux moteurs de recherche. Pour connaître toutes les options permettant de masquer le contenu de votre site, consultez l’article Contrôler qui peut accéder aux pages de votre site.

Exclure votre site des analyses des robots d’indexation connus basés sur l’IA

Pour demander aux robots d’indexation basés sur l’IA de ne pas analyser votre site, procédez comme suit :

  1. Ouvrez le panneau Paramètres.
  2. Cliquez sur Robots d’indexation.
  3. Cochez la case « Bloquer les robots d’indexation d’intelligence artificielle connus ».

Lorsque vous cochez la case pour bloquer les robots d’indexation d’intelligence artificielle connus, votre fichier robots.txt est mis à jour pour indiquer aux bots suivants de ne pas indexer votre site :

  • IA Anthropic
  • Applebot-Extended
  • CCBot
  • Claude-Web
  • cohere-ai
  • FacebookBot
  • Google Extended
  • GPTBot et ChatGPT-User
  • PerplexityBot

À mesure que la technologie de l’IA évolue, il se peut que nous ajoutions d’autres bots à cette liste.Si vous souhaitez nous suggérer le blocage d’un bot spécifique qui n’est pas répertorié ici, vous pouvez nous contacter pour demander une fonctionnalité.

Remarque

si vous cochez la case pour bloquer les robots d’indexation d’intelligence artificielle connus, le contenu précédemment extrait d’un site n’est pas supprimé rétroactivement des données d’entraînement des modèles d’IA.

Comment cela fonctionne-t-il ? Qu’est-ce que robots.txt ?

Robots.txt est un fichier publié sur votre site web que de sympathiques robots d’indexation proposent de lire et de respecter. Par le passé, la raison la plus courante de modifier ce fichier était de contrôler l’inclusion/l’exclusion des résultats de recherche. Cependant, mettre à jour le fichier robots.txt de cette façon ne constitue qu’une simple demande. Des robots d’indexation malveillants peuvent toujours utiliser votre contenu à mauvais escient.

Le seul moyen de vous assurer que votre contenu sur l’internet public ne sera jamais consulté par un robot d’indexation est de le rendre privé.

Pourquoi la case permettant de bloquer les robots d’indexation d’intelligence artificielle connus n’est-elle pas cochée par défaut ?

Tous les sites web sur internet sont analysés par défaut par tous les robots d’indexation, sauf si une exclusion spécifique est demandée, et c’est le cas depuis des décennies (par des sociétés telles que Google, Yahoo, des entreprises de SEO et d’IA, etc.). Il existe des dizaines de milliers de robots d’indexation dans le monde qui font différentes choses, dont beaucoup sont positives et utiles. Nombre d’entre eux (y compris l’IA) améliorent le trafic et la visibilité de votre site.

Par défaut, cette case est décochée (ce qui veut dire que nous n’avons ajouté aucune requête « AI do not crawl » à votre fichier robots.txt), car nous ne voulons pas affecter le trafic de votre site en l’excluant des réponses et des sources des chats. Cependant, cette case à cocher vous permet, si vous le souhaitez, de demander que les robots d’indexation basés sur l’IA excluent votre site. Cette décision revient à chaque propriétaire de site. À l’heure actuelle, il n’existe pas de moyen universel de demander à être uniquement exclu des modèles d’entraînement basés sur les images ou les textes, tout en continuant à figurer dans les réponses des chatbots de la même société d’IA afin de générer du trafic client potentiel vers votre site.

Pourquoi ne pas cocher cette case ?

L’avantage de laisser votre site aussi ouvert que possible, c’est que vous obtiendrez probablement plus de trafic. La plupart des propriétaires de site recherchent du trafic provenant de Google et optimisent leur site en conséquence. De même, les nouvelles sociétés d’IA fournissent généralement des liens vers des sites sources et incluent des informations provenant de votre site dans les réponses, ce qui améliore la visibilité de votre contenu.

La présence dans les réponses des chatbots constitue une source de trafic supplémentaire. Par exemple, si vous gérez un restaurant et qu’un client potentiel saisit dans un prompt « Quel est le meilleur restaurant de Paris ? », vous voudriez probablement que votre restaurant soit mentionné dans la réponse afin que davantage de personnes découvrent votre site et votre établissement.

Remarque : il est actuellement impossible de demander aux robots d’indexation basés sur l’IA d’analyser seulement certaines pages.

Pourquoi ce paramètre s’appelle-t-il « robots d’indexation d’intelligence artificielle connus » ?

Il n’existe pas de moyen universel de demander aux sociétés d’IA de ne pas indexer un site. Une demande spécifique doit être créée pour chaque société d’IA. La liste ci-dessus répertorie les entreprises que nous connaissons actuellement et que nous incluons, et qui ont proposé de respecter une instruction spécifique de robots.txt.

Footer Image
  • Obtenir de l’aide de notre communauté

  • Obtenez de l’aide sur les personnalisations avancées auprès de notre communauté.

  • Trouver un Squarespace Expert

  • Démarquez-vous en ligne avec l’aide d’un designer ou d’un développeur expérimenté.

Demander que les modèles d’IA excluent votre site