Sites haasten zich om ChatGPT-webcrawler te blokkeren nadat instructies verschijnen

Zonder advertenties heeft OpenAI onlangs details toegevoegd over zijn webcrawler, GPTBot, naar de online documentatiesite. GPTBot is de naam van de user-agent die het bedrijf gebruikt om webpagina’s op te halen om de kunstmatige-intelligentiemodellen achter ChatGPT, zoals GPT-4, te trainen. Eerder deze week enkele sites Ze maakten snel hun intentie bekend Om te voorkomen dat GPTBot toegang krijgt tot de inhoud.

In de nieuwe documentatie zegt OpenAI dat webpagina’s die zijn gecrawld met GPTBot “waarschijnlijk zullen worden gebruikt om toekomstige modellen te verbeteren”, en dat het toestaan van GPTBot om toegang te krijgen tot uw site “AI-modellen kan helpen nauwkeuriger te worden en hun algehele mogelijkheden en beveiliging te verbeteren.”

OpenAI beweert filters te hebben geïmplementeerd die ervoor zorgen dat GPTBot geen toegang krijgt tot bronnen die zich achter betaalmuren bevinden, die persoonlijk identificeerbare informatie verzamelen of enige inhoud die in strijd is met het beleid van OpenAI.

Het nieuws over de mogelijkheid om OpenAI-trainingen te blokkeren (als je ze respecteert) komt te laat om bestaande trainingsgegevens voor ChatGPT of GPT-4 te beïnvloeden, die jaren geleden zonder aankondiging werden geschrapt. OpenAI verzamelde gegevens eindigend in september 2021, wat de huidige “cognitieve” grens is voor OpenAI-taalmodellen.

Het is opmerkelijk dat de nieuwe instructies Misschien niet Voorkom dat webbrowserversies van ChatGPT of ChatGPT-plug-ins toegang krijgen tot bestaande websites om bijgewerkte informatie door te geven aan de gebruiker. Dit punt wordt niet uitgelegd in de documentatie en we hebben contact opgenomen met OpenAI voor opheldering.

Het antwoord ligt in het robots.txt-bestand

Volgens OpenAI’s documentatiewordt GPTBot herkend door het user-agenttoken “GPTBot”, met als volledige tekenreeks “Mozilla/5.0 AppleWebKit/537.36 (KHTML, hetzelfde als Gecko; compatibel; GPTBot/1.0; + https://openai.com/gptbot) “.

READ Exclusief voor Microsoft PS5 Ghostwire: Tokyo uitgesteld tot 2022

De OpenAI-documenten bieden ook richtlijnen over hoe te voorkomen dat GPTBot websites crawlt met behulp van industriestandaarden robots.txt-bestand -bestand, een tekstbestand in de hoofdmap van een website dat webcrawlers (zoals die gebruikt door zoekmachines) instrueert om de site niet te indexeren.

Het is net zo eenvoudig als het toevoegen van deze twee regels aan het robots.txt-bestand van uw site:

User-agent: GPTBot
Disallow: /

OpenAI zegt ook dat beheerders GPTBot van bepaalde delen van de site kunnen beperken in een robots.txt-bestand met verschillende codes:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Daarnaast introduceerde OpenAI de Specifieke IP-adresblokken van waaruit GPTBot wordt uitgevoerd en die ook door firewalls kan worden geblokkeerd.

Ondanks deze optie zorgt het blokkeren van GPTBot er niet voor dat de locatiegegevens uiteindelijk niet alle toekomstige AI-modellen trainen. Afgezien van problemen met scrapers die robots.txt-bestanden negeren, zijn er andere grote datasets van scraped websites (zoals stapel) is niet gelieerd aan OpenAI. Deze datasets worden vaak gebruikt om open source (of open source) LLM’s te trainen, zoals Meta’s Llama 2.

Sommige websites reageren snel

Hoewel ChatGPT vanuit technisch oogpunt een enorm succes was, was het ook controversieel over hoe het zonder toestemming auteursrechtelijk beschermde gegevens schraapte en die waarde concentreerde in een commercieel product dat het online publicatiemodel omzeilt. OpenAI is in die zin beschuldigd (en aangeklaagd) van plagiaat.

Het is dan ook niet verwonderlijk dat sommige mensen reageren op het nieuws over de mogelijkheid om hun inhoud te blokkeren voor toekomstige GPT-formulieren met een soort opgekropte ik luister. Bijvoorbeeld op dinsdag VentureBeat mannelijk Dat de randSubstack-schrijver Casey NewtonEn Nel Clark Van Clarkesworld zeiden ze allemaal dat ze GPTBot zouden blokkeren kort nadat het nieuws over de bot uitbrak.

READ Metal Gear Solid 4, 5, Peace Walker rapporteerde over Master Collection Vol. 2

Maar voor exploitanten van grote websites is de optie om LLM-crawlers te blokkeren niet zo eenvoudig als het lijkt. Door sommige LLM’s de gegevens van bepaalde websites te laten negeren, ontstaan er kennishiaten die sommige sites heel goed van dienst kunnen zijn (zoals sites die geen bezoekers willen verliezen als ChatGPT hun informatie aan hen verstrekt), maar die ook andere kunnen schaden. Het blokkeren van inhoud van toekomstige AI-modellen kan bijvoorbeeld de culturele voetafdruk van een site of merk verkleinen als intelligente chatbots in de toekomst een primaire gebruikersinterface worden. Stel je bij wijze van gedachte-experiment een online bedrijf voor dat aankondigde dat het niet wilde dat zijn website in 2002 door Google zou worden geïndexeerd – een zelfdestructieve zet toen dat de meest populaire manier was om online informatie te vinden.

Het is nog erg vroeg in het generatieve AI-spel, en het maakt niet uit welke kant de technologie op gaat – of individuele sites proberen af te zien van AI-modeltraining – OpenAI biedt in ieder geval de optie.

Lesley Curry

“Proud coffee guru. Web pioneer. Internet expert. Social media specialist.”

Sites haasten zich om ChatGPT-webcrawler te blokkeren nadat instructies verschijnen – Ars Technica

Het antwoord ligt in het robots.txt-bestand

Sommige websites reageren snel

Een reactie achterlaten Reactie annuleren