Richiedere che i modelli AI escludano il tuo sito

Chiedi che i dati del tuo sito web vengano utilizzati nel modo che vuoi tu, anche in alcuni modelli AI

Ultimo aggiornamento 26 luglio 2024

Tutte le pagine pubbliche su internet sono accessibili sia dall'uomo che dalle macchine (web crawler). Questi crawler possono indicizzare il tuo sito per vari motivi a seconda dell'azienda che esegue la scansione (ad esempio, quando Google include il tuo sito nei risultati di ricerca). Per richiedere che i tuoi dati vengano utilizzati in modo diverso, Squarespace ti offre due opzioni relative ai crawler che possono accedere al tuo sito. Questo viene fatto inserendo le richieste di esclusione nel file robots.txt del tuo sito web. Questa guida spiega come aggiungere la richiesta relativa ai crawler con AI.

Ricorda:

  • Richiedere che i crawler con intelligenza artificiale noti escludano il tuo sito non garantisce che questo, ma è l'opzione migliore attualmente disponibile
  • L'esclusione del tuo sito da parte dei crawler AI può avere un impatto negativo sul traffico
  • Squarespace non guadagna dalla scansione di siti web effettuata da società di ricerca di terze parti o società di AI

Per escludere il tuo sito dai risultati dei motori di ricerca, visita Nascondere il sito dai risultati della ricerca. Per verificare tutte le opzioni a tua disposizione per nascondere i contenuti del tuo sito, visita la sezione Controllare chi può accedere alle pagine del sito.

Escludere il sito dalle scansioni dei crawler conosciuti con IA

Per richiedere ai crawler con IA di non scansionare il tuo sito:

  1. Apri il pannello Impostazioni.
  2. Clicca su Crawler.
  3. Seleziona la casella accanto a "Blocca crawler con intelligenza artificiale noti".

Selezionando la casella per bloccare i crawler con intelligenza artificiale noti, il file di robots.txt verrà aggiornato per indicare ai seguenti bot di non eseguire la scansione del sito:

  • IA antropica
  • Applebot-Extended
  • CCBot
  • Claude-Web
  • cohere-ai
  • FacebookBot
  • Google Extended
  • GPTBot e ChatGPT-User
  • PerplexityBot

Con il continuo sviluppo della tecnologia IA, potremmo aggiungere altri bot a questo elenco. Se vuoi suggerire di bloccare un bot specifico che non è presente nell'elenco, puoi contattarci per inoltrare una richiesta di funzionalità.

Nota

Selezionare la casella per bloccare i crawler con intelligenza artificiale noti non rimuove retroattivamente i contenuti già raccolti da un sito per addestrare del modello AI.

Come funziona? Che cos'è robots.txt?

Robots.txt è un file pubblicato sul tuo sito web che i crawler amichevoli si sono offerti di leggere e rispettare. In passato, il motivo più comune per modificare questo file era controllare l'inclusione/esclusione dai risultati di ricerca. Tuttavia, aggiornare robots.txt in questo modo è solo una richiesta, e i crawler malintenzionati potrebbero comunque utilizzare in modo improprio i tuoi contenuti.

L'unico modo per garantire che i tuoi contenuti su internet pubblico non vengano mai visualizzati da un crawler è renderli privati.

Perché la casella per bloccare i crawler con intelligenza artificiale noti non è selezionata per impostazione predefinita?

A meno che non richiedano un'esclusione specifica, tutti i siti web su internet sono visitati da tutti i crawler per impostazione predefinita, e lo sono da decenni (da aziende come Google, Yahoo, società SEO, società di AI e altre). Esistono sono decine di migliaia di crawler nel mondo che fanno varie cose positive e utili, e molte (fra cui l'AI) forniranno traffico e visibilità per il tuo sito.

Per impostazione predefinita, la casella è deselezionata (il che significa che non abbiamo aggiunto alcuna richiesta di "nessun crawl con AI" al tuo file robots.txt) perché non vogliamo avere un potenziale impatto sul traffico del tuo sito escludendolo dalle risposte e dalle fonti della chat. Tuttavia, la casella di controllo è presente, per permetterti di richiedere che i crawler con AI escludano il tuo sito. È una decisione che ogni proprietario del sito deve prendere autonomamente. Al momento non esiste un modo universale per richiedere di essere esclusi solo dai modelli di addestramento di immagini o testo, pur rimanendo individuabili dai chatbot della stessa società di AI nelle risposte per inviare traffico di potenziali clienti al tuo sito.

Perché dovrei lasciare questa casella non spuntata?

Il vantaggio di lasciare il tuo sito il più aperto possibile è che probabilmente otterrai più traffico. La maggior parte dei siti desidera traffico da Google e si comportano di conseguenza. Allo stesso modo, le nuove società di AI forniscono comunemente backlink ai siti di origine e includono informazioni presenti sul tuo sito nelle loro risposte, aumentando la visibilità dei tuoi contenuti.

Essere presenti nelle risposte dei chatbot è un'ulteriore fonte di traffico. Ad esempio, se gestisci un ristorante e un potenziale cliente digita "Qual è il miglior ristorante di New York?" in un prompt, probabilmente vorrai essere menzionato nella risposta, in modo da portare più persone possibile a conoscere il tuo sito e il tuo ristorante.

Nota: attualmente non è possibile richiedere ai crawler con IA di eseguire solo la scansione di pagine specifiche.

Perché l'impostazione è chiamata "crawler con intelligenza artificiale noti"?

Non esiste un modo universale per richiedere alle società di AI di non scansionare di un sito. Dobbiamo quindi creare una richiesta specifica per ognuna di esse. L'elenco sopra include le società che attualmente conosciamo e che si sono offerte di seguire una specifica istruzione robots.txt.

Footer Image
  • Ricevi assistenza dalla nostra community

  • Ricevi assistenza dalla nostra community in merito alle personalizzazioni avanzate.

  • Affidati a uno Squarespace Expert

  • Fatti notare online con l'aiuto di un designer o di uno sviluppatore esperto.

Richiedere che i modelli AI escludano il tuo sito