Solicita que los modelos de IA excluyan tu sitio

Solicita cómo se utilizan los datos de tu sitio web, incluso en ciertos modelos de IA

Última actualización: 26 de julio de 2024

Todas las páginas públicas en Internet son accesibles para los seres humanos y para las máquinas (rastreadores web). Estos rastreadores pueden indexar tu sitio por varias razones dependiendo de la compañía que hace el rastreo (por ejemplo, Google incluye tu sitio en sus resultados de búsqueda). Squarespace te ofrece dos opciones relacionadas con los rastreadores que pueden estar accediendo a tu sitio para solicitar que tus datos se usen de otra manera. Esto se hace poniendo las exclusiones solicitadas en el archivo robots.txt de tu sitio web. Esta guía explica cómo agregar la solicitud relacionada con los rastreadores de IA.

Ten en cuenta lo siguiente:

  • Solicitar que los rastreadores de IA conocidos excluyan tu sitio no garantiza que lo harán, pero es la mejor opción disponible actualmente
  • Si los rastreadores de IA excluyen tu sitio, podría afectar negativamente el tráfico de tu sitio
  • Squarespace no genera ingresos por el rastreo de sitios web de ninguna empresa de búsqueda o de IA externas

Para excluir tu sitio de los resultados de motores de búsqueda, visita Ocultar tu sitio de los resultados de búsquedas. Para ver todas las opciones para ocultar contenidos en tu sitio, visita Controlar quién puede acceder a las páginas de tu sitio.

Excluir tu sitio de los escaneos de los rastreadores de IA conocidos

Para solicitar que los rastreadores de IA no escaneen tu sitio:

  1. Abre el panel de Configuración.
  2. Haz clic en Rastreadores.
  3. Marque la casilla junto a “Bloquear rastreadores de inteligencia artificial conocidos".

Si marcas la casilla para bloquear los rastreadores de inteligencia artificial conocidos, se actualiza tu archivo robots.txt para indicar a los siguientes bots que no rastreen tu sitio:

  • IA Antrópica
  • Applebot-Extended
  • CCBot
  • Claude-Web
  • cohere-ai
  • FacebookBot
  • Google Extended
  • Usuario de GptBot y ChatGPT
  • PerplexityBot

A medida que la tecnología de IA continúa desarrollándose, es posible que agreguemos más bots a esta lista. Si quieres sugerir que bloqueemos un bot específico que no aparece aquí, puedes ponerte en contacto con nosotros para solicitar una función.

Nota

si marcas la casilla para bloquear rastreadores de inteligencia artificial conocidos, no se elimina de manera retroactiva el contenido previamente rastreado de un sitio de los datos de entrenamiento del modelo de IA.

¿Cómo funciona? ¿Qué es robots.txt?

Robots.txt es un archivo publicado en tu sitio web que los rastreadores amigables han ofrecido leer y obedecer. En el pasado, la razón más común para modificar este archivo era controlar la inclusión/exclusión de los resultados de búsqueda. Sin embargo, actualizar robots.txt de esta manera es solo una solicitud, y los rastreadores maliciosos aún pueden hacer mal uso de tu contenido.

La única manera de asegurar que tu contenido en la Internet pública nunca sea visto por un rastreador es hacer que tu sitio sea privado.

¿Por qué la casilla para bloquear rastreadores de inteligencia artificial conocidos no está marcada de forma predeterminada?

Todos los sitios web en Internet son visitados por todos los rastreadores de forma predeterminada, a menos que soliciten una exclusión específica, y lo han sido durante décadas (por compañías como Google, Yahoo, compañías de SEO, compañías de IA y más). Hay decenas de miles de rastreadores en el mundo que llevan a cabo varias actividades, muchas positivas y útiles, y muchos (la IA incluida) proporcionarán tráfico y visibilidad para tu sitio.

De manera predeterminada, la casilla está desactivada (lo que significa que no hemos agregado ninguna solicitud de “No rastrear por IA” a tu archivo robots.txt) porque no queremos afectar potencialmente el tráfico de tu sitio excluyéndolo de las respuestas y las fuentes del chat. Sin embargo, la casilla de verificación está ahí, así que puedes optar por solicitar que los rastreadores de IA excluyan tu sitio. Es una decisión que cada propietario del sitio debe tomar por sí mismo. Actualmente no existe una forma universal de solicitar solo ser excluido de modelos de entrenamiento de imágenes o textos y seguir siendo incluido en las respuestas de los chatbots de la misma compañía de IA para enviar tráfico de posibles clientes a tu sitio.

¿Por qué dejaría esta casilla sin marcar?

El beneficio de dejar tu sitio lo más abierto posible es que probablemente generará más tráfico. La mayoría de los sitios quieren tráfico de Google y optimizan para él. Del mismo modo, las empresas de IA más nuevas suelen proporcionar backlinks a sitios de origen e incluir información de tu sitio en las respuestas, lo que aumenta la visibilidad de tu contenido.

Estar presente en las respuestas de chatbot es una fuente adicional de tráfico. Por ejemplo, si diriges un restaurante y un posible cliente escribe: “¿Cuál es el mejor restaurante de Nueva York?” en un mensaje, es probable que quieras que te mencionen en la respuesta para que más personas conozcan tu sitio y tu restaurante.

Nota: actualmente no es posible solicitar que los rastreadores de IA solo escaneen páginas específicas.

¿Por qué la configuración se llama “rastreadores de inteligencia artificial conocidos”?

No hay una manera universal de solicitar que las compañías de IA no rastreen un sitio. En su lugar, tenemos que crear una solicitud específica para cada compañía de IA. La lista anterior muestra las compañías que actualmente conocemos e incluimos, que se han ofrecido a obedecer una instrucción específica en robots.txt.

Footer Image
  • Recibe ayuda de nuestra comunidad

  • Recibe la ayuda de nuestra comunidad para personalizaciones avanzadas.

  • Contrata a un Squarespace Expert

  • Destácate en línea con la ayuda de un diseñador o desarrollador con experiencia.

Solicita que los modelos de IA excluyan tu sitio