DeepMind test de grenzen van grote AI-taalsystemen met een model van 280 miljard parameters

De taalgeneratie is Het belangrijkste in kunstmatige intelligentie Momenteel worden ze, met een klasse van systemen die bekend staat als “Large Language Models” (of LLM’s), voor alles gebruikt, van Google zoekmachine optimalisatie naar mij Fantasietekstspelletjes maken. Maar deze programma’s hebben ook ernstige problemen, waaronder het herkauwen van gendervooroordelen en racistische taal en het falen van redeneertoetsen. Een grote vraag is: kunnen deze zwakke punten worden verbeterd door simpelweg meer data en rekenkracht toe te voegen, of lopen we tegen de grenzen van dit technologiemodel aan?

Dit is een van de onderwerpen die het Alphabet DeepMind AI Lab in drie artikelen behandelt Vandaag geplaatst. De conclusie van het bedrijf is dat het opschalen van deze systemen tot veel verbeteringen moet leiden. “Een van de belangrijkste bevindingen van het artikel is dat de vooruitgang en mogelijkheden van grote taalmodellen nog steeds toenemen. Dit is geen gebied dat zich heeft gestabiliseerd”, vertelde Jack Ray, een onderzoekswetenschapper bij DeepMind, aan verslaggevers in een briefinggesprek.

DeepMind, dat regelmatig een bijdrage levert aan zijn werk aan Google-producten, heeft het potentieel van LLM’s onderzocht door te bouwen Een taalkundig model met 280 miljard parameters Zijn naam is Joffer. Parameters zijn een snelle maatstaf voor de grootte en complexiteit van taalmodellen, wat betekent dat Gopher groter is dan OpenAI’s GPT-3 (175 miljard varianten) maar het is niet zo groot als sommige andere experimentele systemen, zoals Microsoft en Nvidia Megatron-model (530 miljard parameters).

Over het algemeen geldt in de AI-wereld dat groter beter is, waarbij grotere modellen meestal hogere prestaties bieden. Het onderzoek van DeepMind bevestigt deze trend en geeft aan dat LLM-schaling verbeterde prestaties biedt op de meest populaire benchmarks die zaken als sentimentanalyse en samenvatting testen. De onderzoekers waarschuwden echter ook dat sommige van de problemen die inherent zijn aan taalmodellen meer dan alleen gegevens en berekeningen nodig hebben om op te lossen.

READ Skate en kook je een weg door de liefde in dorstige vrijers

“Ik denk dat het er nu echt naar uitziet dat het model op verschillende manieren kan falen,” zei Ray. “Sommige van de subsets van deze methoden zijn omdat het model niet goed genoeg begrijpt wat het leest, en ik denk dat we voor deze klasse van problemen verbeterde prestaties zullen zien met meer gegevens en reikwijdte.”

Maar hij voegde eraan toe dat er “andere soorten problemen zijn, zoals een model dat stereotiepe vooroordelen in stand houdt of een model dat wordt overgehaald om fouten te geven, […] Niemand bij DeepMind dacht dat volume het antwoord zou zijn [to]. Hij merkte op dat in deze gevallen taalmodellen “aanvullende trainingsmaatregelen” nodig zouden hebben, zoals feedback van menselijke gebruikers.

Om tot deze conclusies te komen, evalueerden DeepMind-onderzoekers een reeks taalmodellen van verschillende groottes op 152 taaltaken of -criteria. Ze ontdekten dat grotere modellen over het algemeen betere resultaten gaven, waarbij Gopher zelf een baanbrekende prestatie leverde in bijna 80 procent van de tests die de wetenschappers kozen.

In een andere krant heeft het bedrijf ook Onderzoek een breed scala aan potentiële schade Betrokken bij het publiceren van LLM’s. Dit omvat het gebruik van giftige taal door systemen, hun vermogen om valse informatie te delen en de mogelijkheid dat deze voor kwaadaardige doeleinden wordt gebruikt, zoals het delen van spam of advertenties. Al deze problemen zullen steeds belangrijker worden naarmate AI-taalparadigma’s meer wijdverspreid worden, bijvoorbeeld chatbots en verkoopagenten.

Het is echter de moeite waard om te onthouden dat prestaties tegen standaarden niet alles zijn en het einde van alles bij het evalueren van machine learning-systemen. in een laatste papier, hebben een aantal AI-onderzoekers (waaronder twee van Google) de beperkingen van de normen onderzocht, waarbij ze opmerkten dat dergelijke datasets altijd een beperkte reikwijdte zullen hebben en niet in staat zullen zijn om de complexiteit van de echte wereld te evenaren. Zoals vaak het geval is met nieuwe technologie, is de enige betrouwbare manier om deze systemen te testen, te kijken hoe ze daadwerkelijk presteren. Met de grote taalmodellen zullen we binnenkort meer van deze apps zien.

READ Apple lanceert vrijdag zijn abonnementsbundel, Apple One

Lesley Curry

“Proud coffee guru. Web pioneer. Internet expert. Social media specialist.”

Een reactie achterlaten Reactie annuleren