Solicite que os modelos de IA excluam seu site

Solicite como os dados do seu site são usados, inclusive em alguns modelos de IA

Ultima atualização 26 de julho de 2024

Todas as páginas públicas na internet podem ser acessadas tanto por humanos quanto por máquinas (crawlers). Os crawlers podem indexar seu site por vários motivos, dependendo da empresa que presta esse serviço (o Google, por exemplo, inclui seu site nos resultados das buscas). Para solicitar que seus dados sejam usados de forma diferente, o Squarespace traz duas opções relacionadas a possíveis crawlers que acessem o seu site. Para isso, as exclusões são solicitadas no arquivo robots.txt do seu site. Este guia mostra como adicionar essa solicitação.

Lembre-se:

  • Solicitar que os crawlers com IA conhecidos excluam seu site não garante que eles farão isso, mas é a melhor opção disponível no momento
  • Se os crawlers com IA excluírem seu site, isso poderá prejudicar o tráfego no site
  • O Squarespace não gera receita com o rastreamento de sites feito por outras empresas de busca e de IA

Para excluir seu site dos resultados dos buscadores, consulte Ocultando seu site dos resultados das buscas. Confira todas as opções para ocultar conteúdo no seu site em "Controlando quem pode acessar as páginas do seu site".

Exclua o seu site dos escaneamentos de crawlers de IA conhecidos

Para solicitar que os crawlers de IA não escaneiem o seu site:

  1. Abra o painel "Configurações".
  2. Clique em Crawlers.
  3. Marque a opção "Bloquear crawlers de inteligência artificial conhecidos".

Feito isso, seu arquivo robots.txt será atualizado para informar os seguintes bots de que eles não devem rastrear seu site:

  • Anthropic AI
  • Applebot-Extended
  • CCBot
  • Claude-Web
  • cohere-ai
  • FacebookBot
  • Google Extended
  • GPTBot e ChatGPT-User
  • PerplexityBot

Com o desenvolvimento da tecnologia de IA, essa lista pode aumentar. Para sugerir o bloqueio de um bot ausente na lista, fale conosco, e faremos a solicitação.

Anotação

marcar a opção para bloquear os crawlers de inteligência artificial conhecidos não exclui retroativamente o conteúdo previamente extraído do site para os dados de treinamento dos modelos de IA.

Como funciona? O que é robots.txt?

Robots.txt é um arquivo publicado no seu site que alguns crawlers se ofereceram para ler e obedecer. Antes, o motivo mais comum para modificar esse arquivo era para controlar a inclusão/exclusão dos resultados das buscas. No entanto, atualizar o robots.txt dessa forma é apenas uma solicitação, pois crawlers mal-intencionados ainda podem fazer uso indevido do seu conteúdo.

A única forma de garantir que seu conteúdo na internet pública nunca seja visto por um crawler é deixar como privado.

Por que a opção de bloquear os crawlers de inteligência artificial conhecidos já não vem marcada?

Todos os sites na internet são visitados por todos os crawlers, a menos que eles solicitem uma exclusão específica. Isso é feito há décadas por empresas como Google, Yahoo, empresas de SEO, empresas de IA e outras. Há dezenas de milhares de crawlers no mundo fazendo várias coisas, muitas delas positivas e úteis, e muitas (inclusive a IA) geram tráfego e visibilidade para o seu site.

O padrão é a opção vir desmarcada (ou seja, não adicionamos nenhuma solicitação "não rastreie, AI" ao seu arquivo robots.txt), pois não queremos excluir seu site das respostas nos chats e nas origens, prejudicando o tráfego nele. No entanto, essa opção existe para você solicitar que os crawlers de IA excluam seu site. Essa decisão deve ser tomada por cada dono de site. No momento, não há um meio universal de solicitar que você seja excluído apenas dos modelos de treinamento de imagens e textos e, ao mesmo tempo, seja apresentado pelos chatbots da mesma empresa de IA nas respostas para enviar tráfego de potenciais clientes para o seu site.

Por que deixar essa opção desmarcada?

A vantagem de deixar seu site o mais aberto possível é que provavelmente gerará mais tráfego. A maioria dos sites quer o tráfego do Google e se otimiza para isso. Da mesma forma, as novas empresas de IA geralmente disponibilizam um backlink para os sites de origem e incluem informações do seu site nas respostas, aumentando a visibilidade do seu conteúdo.

Aparecer nas respostas do chatbot é uma origem extra de tráfego. Digamos que você tenha um restaurante, e um potencial cliente desse a seguinte instrução: "Qual é o melhor restaurante em Nova York?". Você provavelmente gostaria de aparecer na resposta, para que mais pessoas conheçam seu site e seu restaurante.

Atenção: no momento, não é possível solicitar que os crawlers de IA escaneiem apenas páginas específicas.

Por que a configuração é chamada "crawlers de inteligência artificial conhecidos"?

Não há um meio universal de solicitar às empresas de IA que não rastreiem um site. Assim, temos que criar uma solicitação específica para cada empresa de IA. A lista acima mostra as empresas que conhecemos e incluímos até o momento e que se dispuseram a seguir uma instrução específica no robots.txt.

Footer Image
  • Peça ajuda à nossa comunidade

  • Peça ajuda à nossa comunidade sobre personalizações avançadas.

  • Contrate um Squarespace Expert

  • Ganhe destaque on-line com a ajuda de um designer ou desenvolvedor experiente.

Solicite que os modelos de IA excluam seu site