25 Giugno 2024

Molte AI non rispettano le direttive del file robots.txt. L’uso non autorizzato di contenuti web da parte delle aziende AI.

L’uso non autorizzato di contenuti web da parte delle AI minaccia l’industria dei media, causando sovraccarico di risorse e crash.

Il rapido sviluppo dell’intelligenza artificiale (AI) ha aperto nuove frontiere nell’elaborazione delle informazioni, ma ha anche sollevato questioni etiche e legali significative. Recentemente, è emerso che diverse aziende AI stanno ignorando gli standard web per l’acquisizione di contenuti, come il protocollo “robots.txt”, sollevando preoccupazioni tra i publisher e gli esperti di contenuti digitali. Questo articolo esplorerà le implicazioni di queste pratiche, analizzando le conseguenze per l’industria dei media e discutendo possibili soluzioni.

Contesto e significato del protocollo “robots.txt”

Il protocollo “robots.txt” è stato introdotto negli anni ’90 per permettere ai proprietari dei siti web di controllare quali parti del loro sito potevano essere indicizzate dai crawler dei motori di ricerca. Questo standard è diventato un pilastro per garantire che i contenuti web non fossero sovraccaricati di richieste automatiche, proteggendo al contempo i diritti dei proprietari dei contenuti.

Le Direttive di robots.txt e il Crawl Delay

Il file “robots.txt” non si limita a indicare quali pagine un bot può o non può visitare, ma offre anche direttive cruciali come il “crawl delay”. Il “crawl delay” è un parametro che specifica il ritardo che un bot deve rispettare tra una richiesta e l’altra al server. Questa direttiva è fondamentale per evitare che un sito web venga sovraccaricato di richieste, il che potrebbe causare un aumento significativo del carico di CPU e delle risorse del server.

Robots.txt

Il problema dell’ignoranza delle direttive da parte delle aziende AI

Molte aziende AI non rispettano queste direttive, causando un aumento significativo del carico sui server dei siti web. Questo problema è particolarmente acuto per i siti di grandi dimensioni con centinaia di migliaia di pagine o prodotti. Quando diversi bot, sia legittimi che AI, scansionano un sito simultaneamente, il carico della CPU può crescere esponenzialmente, arrivando a livelli insostenibili. Inoltre, il carico sul database aumenta notevolmente, con query continue che sovraccaricano le risorse del database. I processi PHP, spesso utilizzati per generare contenuti dinamici, possono rallentare o addirittura bloccarsi, aggravando ulteriormente la situazione.

Caso di studio: Impatto reale sulle risorse del server

Un esempio pratico di questo problema riguarda uno dei nostri clienti, che ha subito un sovraccarico significativo a causa della scansione simultanea di oltre otto bot AI emergenti. Questi bot hanno continuato a scansionare il sito per oltre otto ore, causando un aumento del carico di CPU superiore al 900% rispetto ai livelli normali degli scorsi mesi. Questo sovraccarico ha portato a un rallentamento delle prestazioni del sito e ha rischiato di causare un crash completo.

Il caso Perplexity e la risposta dei publisher

Un esempio emblematico di questo problema è rappresentato dal conflitto tra Forbes e Perplexity, una startup di ricerca AI che sviluppa strumenti per generare riassunti automatici. Forbes ha accusato pubblicamente Perplexity di utilizzare i suoi articoli investigativi per generare riassunti AI senza permesso, bypassando le restrizioni imposte dal protocollo “robots.txt”. Un’inchiesta di Wired ha confermato che Perplexity probabilmente sta ignorando il protocollo per aggirare i blocchi.

Questo caso ha sollevato allarmi significativi nella News Media Alliance, un gruppo commerciale che rappresenta oltre 2.200 publisher negli Stati Uniti. La presidentessa Danielle Coffey ha sottolineato come l’incapacità di bloccare queste pratiche potrebbe compromettere seriamente la capacità dell’industria dei media di monetizzare i propri contenuti e pagare i giornalisti.

Il ruolo di TollBit

In risposta a questi problemi, è emersa TollBit, una startup che si propone come intermediario tra le aziende AI e i publisher. TollBit monitora il traffico AI sui siti web dei publisher e utilizza analisi avanzate per aiutare entrambe le parti a negoziare tariffe di licenza per l’utilizzo dei contenuti.

TollBit ha segnalato che non solo Perplexity, ma numerosi agenti AI stanno bypassando il protocollo “robots.txt”. L’azienda ha raccolto dati da più publisher che mostrano uno schema chiaro di violazione del protocollo da parte di diverse fonti AI, indicando un problema diffuso nell’industria.

Le implicazioni legali e future prospettive

Il protocollo “robots.txt” non ha un meccanismo di applicazione legale chiaro, il che complica la capacità dei publisher di difendersi contro queste pratiche. Tuttavia, ci sono segnali che alcuni gruppi, come la News Media Alliance, stanno esplorando possibili azioni legali per proteggere i loro diritti.

Nel frattempo, alcuni publisher stanno adottando approcci diversi. Ad esempio, il New York Times ha intrapreso azioni legali contro le aziende AI per violazione del copyright, mentre altri stanno firmando accordi di licenza con le aziende AI disposte a pagare per i contenuti. Tuttavia, c’è ancora un ampio disaccordo sul valore dei materiali forniti dai publisher.

Conclusione

L’uso non autorizzato dei contenuti web da parte delle aziende AI rappresenta un problema significativo per l’industria dei media. Mentre le tecnologie AI continuano a evolversi, è cruciale stabilire un equilibrio che protegga i diritti dei creatori di contenuti e garantisca al contempo l’innovazione tecnologica. Le iniziative come quelle di TollBit e le possibili azioni legali potrebbero essere passi importanti verso una soluzione equa, ma il dialogo tra le parti coinvolte rimane essenziale per costruire un futuro sostenibile per tutti.

Hai dei dubbi? Non sai da dove iniziare? Contattaci !

Abbiamo tutte le risposte alle tue domande per aiutarti nella giusta scelta.

Chatta con noi

Chatta direttamente con il nostro supporto prevendita.

0256569681

Contattaci telefonicamente negli orari d’ufficio 9:30 – 19:30

Contattaci online

Apri una richiesta direttamente nell’area dei contatti.

INFORMAZIONI

Managed Server S.r.l. è un player italiano di riferimento nel fornire soluzioni avanzate di sistemistica GNU/Linux orientate all’alta performance. Con un modello di sottoscrizione dai costi contenuti e prevedibili, ci assicuriamo che i nostri clienti abbiano accesso a tecnologie avanzate nel campo dell’hosting, server dedicati e servizi cloud. Oltre a questo, offriamo consulenza sistemistica su sistemi Linux e manutenzione specializzata in DBMS, IT Security, Cloud e molto altro. Ci distinguiamo per l’expertise in hosting di primari CMS Open Source come WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart e Magento, affiancato da un servizio di supporto e consulenza di alto livello adatto per la Pubblica Amministrazione, PMI, ed aziende di qualsiasi dimensione.

Red Hat, Inc. detiene i diritti su Red Hat®, RHEL®, RedHat Linux®, e CentOS®; AlmaLinux™ è un marchio di AlmaLinux OS Foundation; Rocky Linux® è un marchio registrato di Rocky Linux Foundation; SUSE® è un marchio registrato di SUSE LLC; Canonical Ltd. detiene i diritti su Ubuntu®; Software in the Public Interest, Inc. detiene i diritti su Debian®; Linus Torvalds detiene i diritti su Linux®; FreeBSD® è un marchio registrato di The FreeBSD Foundation; NetBSD® è un marchio registrato di The NetBSD Foundation; OpenBSD® è un marchio registrato di Theo de Raadt. Oracle Corporation detiene i diritti su Oracle®, MySQL®, e MyRocks®; Percona® è un marchio registrato di Percona LLC; MariaDB® è un marchio registrato di MariaDB Corporation Ab; REDIS® è un marchio registrato di Redis Labs Ltd. F5 Networks, Inc. detiene i diritti su NGINX® e NGINX Plus®; Varnish® è un marchio registrato di Varnish Software AB. Adobe Inc. detiene i diritti su Magento®; PrestaShop® è un marchio registrato di PrestaShop SA; OpenCart® è un marchio registrato di OpenCart Limited. Automattic Inc. detiene i diritti su WordPress®, WooCommerce®, e JetPack®; Open Source Matters, Inc. detiene i diritti su Joomla®; Dries Buytaert detiene i diritti su Drupal®. Amazon Web Services, Inc. detiene i diritti su AWS®; Google LLC detiene i diritti su Google Cloud™ e Chrome™; Microsoft Corporation detiene i diritti su Microsoft®, Azure®, e Internet Explorer®; Mozilla Foundation detiene i diritti su Firefox®. Apache® è un marchio registrato di The Apache Software Foundation; PHP® è un marchio registrato del PHP Group. CloudFlare® è un marchio registrato di Cloudflare, Inc.; NETSCOUT® è un marchio registrato di NETSCOUT Systems Inc.; ElasticSearch®, LogStash®, e Kibana® sono marchi registrati di Elastic N.V. Hetzner Online GmbH detiene i diritti su Hetzner®; OVHcloud è un marchio registrato di OVH Groupe SAS; cPanel®, L.L.C. detiene i diritti su cPanel®; Plesk® è un marchio registrato di Plesk International GmbH; Facebook, Inc. detiene i diritti su Facebook®. Questo sito non è affiliato, sponsorizzato o altrimenti associato a nessuna delle entità sopra menzionate e non rappresenta nessuna di queste entità in alcun modo. Tutti i diritti sui marchi e sui nomi di prodotto menzionati sono di proprietà dei rispettivi detentori di copyright. Ogni altro marchio citato appartiene ai propri registranti. MANAGED SERVER® è un marchio registrato a livello europeo da MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italia.

Torna in alto