Rapport: AI-startup Anthropic zou zonder toestemming toegang hebben tot gegevens

Rapport: AI-startup Anthropic zou zonder toestemming toegang hebben tot gegevens

AI-startup Anthropic wordt ervan beschuldigd op agressieve wijze gegevens van websites te verzamelen om zijn AI-systemen te trainen, wat mogelijk de servicevoorwaarden van uitgevers schendt. Dat meldt het Britse dagblad Financial Times.

advertentie

Bedrijven als Anthropic en OpenAI trainen hun grote generatieve AI-taalmodellen met behulp van enorme hoeveelheden gegevens uit verschillende bronnen. Anthropic’s chatbot Claude, die concurreert met OpenAI’s ChatGPT, kan reageren op een reeks natuurlijke taalprompts. Anthropic is opgericht door een groep voormalige OpenAI-medewerkers en het gestelde doel is om “op verantwoorde wijze geavanceerde kunstmatige intelligentie te ontwikkelen en te onderhouden ten behoeve van de mensheid op de lange termijn.”

Maar het lijkt erop dat het in San Francisco gevestigde bedrijf deze bewering niet altijd waarmaakt. Tenminste als je Matt Barry mag geloven, CEO van Freelancer.com, een online vacaturesite waar miljoenen freelancers hun diensten aanbieden. Volgens de Financiële Times Barry beschuldigt Anthropic ervan “verreweg het meest agressieve hulpmiddel” in zijn portaal te zijn.

Volgens het rapport beschuldigen andere webuitgevers Anthropic ook van het verzamelen van gegevens van hun websites en het negeren van hun instructies om te stoppen met het verzamelen van hun inhoud. Freelancer.com ontving binnen vier uur 3,5 miljoen bezoeken van een ‘webcrawler’ gekoppeld aan Anthropic, schreef de Financial Times, daarbij verwijzend naar beschikbare gegevens. Barry vertelde de krant dat het aantal bezoeken bleef toenemen, zelfs toen Freelancer.com zijn toegangsverzoeken probeerde te weigeren met behulp van standaard webprotocollen om crawlers te controleren. Vervolgens besloot hij het verkeer van de internetadressen van Anthropic volledig te blokkeren.

READ  60 jaar Lamborghini 350 GT op de Autosalon van Genève

‘Dat hadden we moeten doen [Anthropic, Anm.] “Dit is flagrant schrapen dat de site vertraagt ​​voor iedereen die eraan werkt en uiteindelijk onze inkomsten beïnvloedt.” Anthropic zei dat het de zaak onderzoekt.

Kyle Wiens, directeur van iFixit.com, een website met reparatie-instructies, maakte soortgelijke beweringen tegenover de Financial Times. De site kreeg binnen 24 uur 1 miljoen bezoeken van mensachtige robots. De servicevoorwaarden van iFixit verbieden het gebruik van zijn gegevens voor machinaal leren, zei Wiens. “Mijn eerste boodschap aan Anthropic is: als je deze gegevens gebruikt om je model te trainen, is dat illegaal. Mijn tweede boodschap is: dit is geen beleefd gedrag op internet. Kruipen is een kwestie van etiquette.” Websites gebruiken een protocol dat bekend staat als robots.txt om crawlers en andere robots buiten te houden. De botuitsluitingsnorm regelt wie automatisch door website-inhoud mag bladeren – dit is een zeer subjectief en vaak een onderwerp van conflict in tijden van AI-aangedreven chatbots zoals ChatGPT.

Data scraping is geenszins een nieuwe praktijk, maar is de afgelopen jaren wel dramatisch toegenomen als gevolg van de AI-wapenwedloop. “Zoekmachines hebben altijd veel onderzoek gedaan, maar het trainen van generatieve AI tilt dit naar een nieuw niveau”, zegt Barry. Toonaangevende AI-bedrijven concurreren om steeds krachtigere en geavanceerdere taalmodellen te ontwikkelen en hebben daarvoor enorme hoeveelheden gegevens nodig. Dit roept ook de kwestie van auteursrecht en het gebruik van gegevens om modellen te trainen op. Bedrijven als OpenAI of X verzamelen regelmatig ongevraagd gegevens voor AI-training. Microsoft AI-hoofd Mustafa Suleiman heeft zojuist uitgelegd dat er een sociaal contract bestaat dat het gebruik van online-inhoud mogelijk maakt – inclusief AI-training. Hij kreeg veel tegenstand.

READ  China publiceert video van ruimtevaartuig dat in een baan om Mars draait voor het nieuwe maanjaar

Bedrijven verdedigen zichzelf op verschillende manieren. Reddit is begonnen met het blokkeren van verschillende zoekmachines en hun webcrawlers als zij niet akkoord gaan met een licentieovereenkomst met het online platform. Het juridische geschil tussen het Amerikaanse dagblad The New York Times en OpenAI trekt veel aandacht. De krant beschuldigt OpenAI ervan de auteursrechtwetgeving te schenden door duizenden artikelen te gebruiken om zijn taalmodellen te trainen en zo een bedrijf op te bouwen ten koste van de krant. Ze dringt aan op compensatie. In mei sloot Open AI een deal met News Corp. Een van de grootste uitgeverijen ter wereld, met onder meer kranten als de Wall Street Journal, New York Post, Sunday Times en Daily Telegraph. OpenAI heeft de toegang tot alle gekoppelde kranteninhoud beveiligd. Andere mediabedrijven, zoals Reuters, verlenen nu licenties voor hun inhoud voor AI-training.


(Ik ben)

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *