Google ontwikkelt een AI die zowel schaken als Pac-Man kan leren

De eerste grote verovering van kunstmatige intelligentie was schaken. Het spel heeft een duizelingwekkend aantal mogelijke combinaties, maar het was relatief handelbaar omdat het gestructureerd was door een reeks duidelijke regels. Een algoritme kan altijd een perfecte kennis hebben van de toestand van het spel en elke mogelijke zet kennen die zowel het algoritme als zijn tegenstander kan maken. De toestand van het spel kan worden geëvalueerd door gewoon naar het bord te kijken.

Maar veel andere spellen zijn niet zo eenvoudig. Als je zoiets als Pac-Man, dan zou het uitzoeken van de ideale zet de vorm van het doolhof, de locatie van de geesten, de locatie van eventuele extra gebieden die moeten worden verwijderd, de beschikbaarheid van power-ups, enz. in overweging nemen en het beste plan kan in een ramp eindigen als Blinky of Clyde een onverwachte zet doet. We hebben AI’s ontwikkeld die deze spellen ook aankunnen, maar ze moesten een heel andere benadering kiezen dan degenen die schaken en Go overwonnen.

Tot nu in ieder geval. Vandaag heeft de DeepMind-divisie van Google echter een paper gepubliceerd waarin de structuur wordt beschreven van een AI die zowel schaken als Atari-klassiekers aankan.

Bomen versterken

De algoritmen die aan spellen als schaken en Go hebben gewerkt, doen hun planning met behulp van een boombenadering, waarbij ze gewoon vooruitkijken naar alle takken die voortkomen uit verschillende acties in het heden. Deze benadering is rekenkundig duur en de algoritmen zijn afhankelijk van het kennen van de spelregels, waardoor ze de huidige gamestatus naar mogelijke toekomstige gamestatus kunnen projecteren.

Andere games hebben algoritmen nodig die niet echt om de staat van de game geven. In plaats daarvan evalueren de algoritmen eenvoudig wat ze ‘zien’ – typisch zoiets als de positie van pixels op een scherm voor een arcadespel – en kiezen ze een actie op basis daarvan. Er is geen intern model van de staat van het spel, en het trainingsproces omvat grotendeels het uitzoeken welke reactie passend is op basis van die informatie. Er zijn enkele pogingen gedaan om een ​​gamestatus te modelleren op basis van invoer zoals de pixelinformatie, maar ze hebben het niet zo goed gedaan als de succesvolle algoritmen die alleen reageren op wat er op het scherm wordt weergegeven.

READ  Final Cut voor iPad benadrukt de beperkingen van iPadOS

Het nieuwe systeem, dat DeepMind MuZero noemt, is gedeeltelijk gebaseerd op het werk van DeepMind met de AlphaZero AI, die zichzelf heeft geleerd om op regels gebaseerde spellen zoals schaken en go te beheersen. Maar MuZero voegt ook een nieuwe wending toe die het aanzienlijk flexibeler maakt.

Die wending wordt “model-based reinforcement learning” genoemd. In een systeem dat deze benadering gebruikt, gebruikt de software wat het kan zien van een game om een ​​intern model van de gamestatus te bouwen. Cruciaal is dat die toestand niet voorgestructureerd is op basis van enig begrip van het spel – de AI kan veel flexibiliteit hebben met betrekking tot welke informatie er wel of niet in is opgenomen. Het onderdeel leren van bekrachtiging verwijst naar het trainingsproces, waardoor de AI kan leren herkennen wanneer het model dat het gebruikt zowel nauwkeurig is als de informatie bevat die het nodig heeft om beslissingen te nemen.

Voorspellingen

Het model dat het maakt, wordt gebruikt om een ​​aantal voorspellingen te doen. Deze omvatten de best mogelijke zet gezien de huidige toestand en de toestand van het spel als resultaat van de zet. Cruciaal is dat de voorspelling die het doet, is gebaseerd op het interne model van de speltoestanden, niet op de feitelijke visuele weergave van het spel, zoals de locatie van schaakstukken. De voorspelling zelf wordt gedaan op basis van ervaringen uit het verleden, die ook onderhevig zijn aan training.

Ten slotte wordt de waarde van de zet geëvalueerd met behulp van de algoritmenvoorspellingen van eventuele onmiddellijke beloningen die met die zet worden behaald (bijvoorbeeld de puntwaarde van een stuk dat bij het schaken wordt genomen) en de eindtoestand van de partij, zoals de uitkomst voor winst of verlies. van schaken. Deze kunnen dezelfde zoekopdrachten in bomen van potentiële speltoestanden inhouden als door eerdere schaakalgoritmen, maar in dit geval bestaan ​​de bomen uit de eigen interne spelmodellen van de AI.

READ  Diablo 4-spelers zijn verdeeld over de vraag of het Ball Lighting Sorc "OP"-ontwerp wel of niet een nerf nodig heeft

Als dat verwarrend is, kun je het ook zo zien: MuZero voert drie evaluaties parallel uit. De ene (het beleidsproces) kiest de volgende zet gezien het huidige model van de spelstatus. Een tweede voorspelt de nieuwe toestand die het gevolg is, en eventuele onmiddellijke beloningen van het verschil. En een derde beschouwt ervaringen uit het verleden om de beleidsbeslissing te informeren. Elk van deze is het product van training, die zich richt op het minimaliseren van de fouten tussen deze voorspellingen en wat er werkelijk in de game gebeurt.

Top dat!

Het is duidelijk dat de mensen bij DeepMind geen paper in Nature zouden hebben als dit niet zou werken. MuZero speelde iets minder dan een miljoen spellen tegen zijn voorganger AlphaZero om een ​​vergelijkbaar prestatieniveau te bereiken in schaken of shogi. Voor Go overtrof het AlphaZero na slechts een half miljoen spellen. In alle drie deze gevallen kan MuZero als veruit superieur worden beschouwd ten opzichte van elke menselijke speler.

Maar MuZero blonk ook uit in een panel van Atari-games, iets waarvoor voorheen een heel andere AI-aanpak nodig was. Vergeleken met het vorige beste algoritme, dat helemaal geen intern model gebruikt, had MuZero een hogere gemiddelde en mediane score in 42 van de 57 geteste games. Dus hoewel er nog steeds een aantal omstandigheden zijn waarin het achterblijft, is het nu competitief gemaakt op modellen gebaseerde AI’s in deze spellen, terwijl het zijn vermogen behoudt om op regels gebaseerde spellen zoals schaken en Go te verwerken.

Over het algemeen is dit een indrukwekkende prestatie en een indicatie van hoe AI’s steeds verfijnder worden. Een paar jaar geleden was het trainen van AI’s voor slechts één taak, zoals het herkennen van een kat op foto’s, een prestatie. Maar nu zijn we in staat om meerdere aspecten van een AI tegelijkertijd te trainen – hier werden het algoritme dat het model creëerde, het algoritme dat de zet koos en het algoritme dat toekomstige beloningen voorspelde allemaal tegelijkertijd getraind.

READ  Belangrijke games aangekondigd op Evo 2022

Gedeeltelijk is dat het product van de beschikbaarheid van meer rekenkracht, waardoor miljoenen schaakpartijen mogelijk zijn. Maar gedeeltelijk is het een erkenning dat dit is wat we moeten doen als een AI ooit flexibel genoeg zal zijn om meerdere, in de verte verwante taken uit te voeren.

Natuur, 2020. DOI: 10.1038 / s41586-020-03051-4 (Over DOI’s).

Afbeelding van Richard Heaven / Flickr

Een reactie achterlaten

Je e-mailadres zal niet getoond worden. Vereiste velden zijn gemarkeerd met *