AI-controverse: heeft GPT-4 geheugenverlies?

De kern van de zaak is dit “of niet”. Als een AI-model onzin lanceert als antwoord op vragen van gebruikers of taken niet correct oplost, valt de taak niet noodzakelijkerwijs buiten zijn mogelijkheden. Het kan ook komen door de manier waarop de vraag wordt gesteld. AI-modellen verwerven vaardigheden tijdens pre-training (“PT” in GPT staat voor “pre-training”). Het dure en tijdrovende proces duurt maanden voor grote modellen en wordt meestal niet herhaald. Het gedrag wordt vervolgens aangepast door fijnafstemming (“fijnafstemming”). “Het vooraf getrainde basismodel is slechts een geavanceerde autocomplete: het kan nog niet met gebruikers praten”, leggen de AI Snakeoil-auteurs uit.

Modellen zoals ChatGPT leren conversatiegedrag alleen door fijnafstemming. Spamantwoorden worden ook voorkomen door het formulier opnieuw aan te passen. De auteurs waarschuwen dat fijnafstemming wenselijke vaardigheden aanscherpt terwijl andere worden onderdrukt. Verwacht wordt dat de mogelijkheden van het model in de loop van de tijd in wezen hetzelfde blijven, terwijl het gedrag van de AI-chatbot drastisch kan veranderen.

Tijdens het maken van de broncode ontdekte het Californische trio Lingjiao Chen, Matei Zaharia en James Zou dat de nieuwere GPT-4 tekst in natuurlijke taal aan de uitvoer kan toevoegen, niet alleen een pure programmeertaal. Het formulier probeert gebruikers uitleg te geven met aanvullende informatie. Voor hun evaluatie hebben de auteurs echter alleen onderzocht of de programmacode direct kon worden uitgevoerd, d.w.z. een uitvoerbaar programma beschrijven. De aanvullende informatie, die menselijke testers consequent nuttig vonden, verlaagde paradoxaal genoeg het model in deze vorm van evaluatie, volgens de Snakeoil-nieuwsbrief. Bij het evalueren van de wiskundige problemen stuitten de Snakeoil-auteurs op verdere inconsistenties.

READ De regio Schwandorf wil wetenschap en bedrijfsleven nauwer met elkaar verbinden

Systematische verschillen in wiskundetoetsen

Hier werden de modellen geconfronteerd met 500 vragen over priemgetallen. Maar in elk geval dienden Chen, Zaharia en Zhou een prime, dus het juiste antwoord had in alle gevallen “ja” moeten zijn. Kennelijk wilden de modellen niet alle mogelijke noemers testen, maar deden alsof en sloegen deze stap over, aldus de nieuwsbrief. Het formulier somde de te testen intervallen op, maar controleerde ze niet, volgens Narayana en Kapoor. Er is hier dus geen echte oplossing voor het wiskundige probleem. Door modellen met complexe getallen te testen, ontdekten de Snakeoil-auteurs dat de vermeende afname van de AI-prestaties te wijten was aan de keuze van de te evalueren materialen.

Omdat het Californische trio alleen prime-lenzen had getest, moesten ze de resultaten van de bètatests interpreteren als een enorme prestatiedaling. Met GPT-3.5 leek het voor hen precies het tegenovergestelde. Kapoor en Narayana concluderen dat alle vier de modellen “even slecht” zijn in het oplossen van wiskundige problemen. De maart-versie van GPT-4 raadt altijd priemgetallen, terwijl de juni-versie altijd complexe getallen raadt.

Prepress laat zien dat het gedrag van het model in de loop van de tijd is veranderd. Volgens Kapoor en Narayana zeggen de uitgevoerde tests niets over de mogelijkheden van de modellen. Het feit dat de rekenfout van het trio zich “snel verspreidde” had te maken met de verwachtingen van het publiek: er deden geruchten de ronde dat OpenAI de prestaties van zijn modellen had verlaagd om rekentijd en -kosten te besparen. Toen OpenAI dit publiekelijk ontkende, interpreteerde het publiek het als misleidend.

READ Ghrelin: zonlicht maakt mannen hongerig

De reactie van de machine weerspiegelt het niveau van de menselijke vraag

Het kon niet worden vastgesteld of er enige waarheid was in de geruchten over opzettelijke vermogensvermindering. Een plausibele reden voor de subjectief waargenomen “verslechtering” van ChatGPT-suggesties kan zijn dat gebruikers zich meer bewust worden van de beperkingen van ChatGPT en beseffen dat ze met toenemende oefening geen magische machine onder hun vingers hebben. Daarnaast zijn niet alle gebruikers even ervaren en vaardig in motiveren (beschrijf het probleem in natuurlijke taal aan het AI-model, wat leidt tot het gewenste resultaat). Sommige mensen raken gefrustreerd als hun prompts niet automatisch in één of twee stappen een werkend programma creëren of resulteren in een drukklare roman. Hier vormen menselijke vaardigheden de perceptie en het oordeel van de modellen waarmee men omgaat.

Aan de andere kant verandert het veranderen van paradigmagedrag onvermijdelijk de gebruikerservaring, aangezien beproefde prompts en instructiediagrammen plotseling niet meer werken zoals gewoonlijk wanneer het gedrag verandert. Aan de gebruikerskant is dit hetzelfde alsof het model qua mogelijkheden is afgegleden, het is een negatieve ervaring, en in het geval van applicaties die rond de OpenAI API zijn genaaid, kan dit leiden tot breuken in bedrijfsmodellen.

“De valkuilen die we ontdekten, herinneren ons eraan hoe moeilijk het is om taalmodellen te kwantificeren.”

Oudere momentopnamen van de modelstatus (“snapshots”) pakken de kern van het probleem niet aan, omdat ze slechts korte tijd beschikbaar zijn en worden vervangen door nieuwe snapshots. De modellen zijn nauwelijks wetenschappelijk te doorzoeken, aangezien de testreeks na korte tijd niet meer reproduceerbaar is en de generatieve AI verschillende antwoorden kan geven op identieke of vergelijkbare vragen. Het is belangrijk om in gedachten te houden dat continue post-fine-tuning van grote taalmodellen kan leiden tot onvoorspelbare en soms drastische veranderingen in het gedrag van het model voor bepaalde taken.

READ Fruit en tafelsuiker bevorderen de lipidesynthese in de lever - een genezende praktijk

De auteurs van Snake Oil besluiten met hun kritische opmerkingen: “De valkuilen die we ontdekten, herinneren ons eraan hoe moeilijk het is om taalkundige modellen kwantitatief te evalueren.” Opmerkingen over hun experimentele methode zijn te vinden aan het einde van het blogbericht. Als je de formulieren zelf wilt bekijken, moet je opschieten voordat het gedrag van het formulier weer begint te draaien.

Vania Tomlinson

“Analist. Schepper. Zombiefanaat. Fervente reisjunkie. Popcultuurexpert. Alcoholfan.”

AI-controverse: heeft GPT-4 geheugenverlies?

Systematische verschillen in wiskundetoetsen

De reactie van de machine weerspiegelt het niveau van de menselijke vraag

Geef een reactie Reactie annuleren

Snelle evolutie door ineenstorting van het magnetische veld – Spectrumwetenschap

De wetenschap achter het ‘Drielichamenprobleem’ – zodat jij eindelijk je zegje kunt doen

Diepzeemonsters? De waarheid over gigantische octopussen

Mysterieus methaan op Mars: NASA heeft een nieuwe theorie

Er is iets dat je kunt doen!

NASA onthult beelden van een 200 km lang lavameer op een vulkanische maan van Jupiter

Recente berichten

Pagina’s

Systematische verschillen in wiskundetoetsen

De reactie van de machine weerspiegelt het niveau van de menselijke vraag

Geef een reactie Reactie annuleren

You may also like

Snelle evolutie door ineenstorting van het magnetische veld – Spectrumwetenschap

De wetenschap achter het ‘Drielichamenprobleem’ – zodat jij eindelijk je zegje kunt doen

Diepzeemonsters? De waarheid over gigantische octopussen

Mysterieus methaan op Mars: NASA heeft een nieuwe theorie

Er is iets dat je kunt doen!

NASA onthult beelden van een 200 km lang lavameer op een vulkanische maan van Jupiter

Recente berichten

Pagina’s