Meta Voicebox AI is een Dall-E voor tekst-naar-spraak

Vandaag zijn we een stap dichter bij de tijdloze toekomst van beroemdheden die ons altijd is beloofd (sinds april). Meta heeft Voicebox onthuld, het tekst-naar-spraak-configuratiemodel dat belooft te doen voor gesproken woord wat ChatGPT en Dall-E respectvol deden voor het genereren van tekst en afbeeldingen.

Kortom, het is een tekst-naar-uitvoer-generator, net als GPT of Dall-E – alleen in plaats van mooi proza of afbeeldingen te maken, spuugt het audioclips uit. Meta definieert het systeem als “een niet-regressief automatisch flow-matching-model dat is getraind om spraak in te vullen, gegeven audio- en tekstcontext.” Het is getraind op meer dan 50.000 uur aan ongefilterde audio. In het bijzonder gebruikte Meta opgenomen spraak en tekst uit een reeks audioboeken in het publieke domein, geschreven in het Engels, Frans, Spaans, Duits, Pools en Portugees.

Deze diverse dataset stelt het systeem in staat om meer conversatietaal te produceren, ongeacht de talen die door elke partij worden gesproken, aldus de onderzoekers. “Onze resultaten laten zien dat spraakherkenningsmodellen die zijn getraind op door voicebox gegenereerde kunstmatige spraak bijna net zo goed presteren als modellen die zijn getraind op echte spraak.” Bovendien werd de door de computer gegenereerde spraak uitgevoerd met een verlaagd foutenpercentage van slechts 1 procent, vergeleken met een reductie van 45 tot 70 procent in de huidige tekst-naar-spraak-modellen.

Het systeem werd voor het eerst geleerd om lettergrepen van spraak te voorspellen op basis van de lettergrepen eromheen en de tekst van de lettergreep. “Na te hebben geleerd om spraak vanuit de context in te vullen, kan het model dit toepassen op taken voor het genereren van spraak, inclusief het maken van fragmenten in het midden van een audio-opname zonder de invoer volledig opnieuw te hoeven maken”, legden de Meta-onderzoekers uit.

READ De mogelijkheden van de Apple-headset zouden die van concurrerende apparaten overtreffen

Naar verluidt is Voicebox ook in staat om actief audioclips te bewerken, ruis uit spraak te elimineren en zelfs verkeerd uitgesproken woorden te vervangen. “Een persoon kan elk eerste deel van spraak identificeren dat bedorven is door lawaai (zoals een blaffende hond), het uitsnijden en het model instrueren om die passage opnieuw te creëren”, zoals het gebruik van beeldbewerkingssoftware om de afbeeldingen op te schonen, aldus de onderzoekers.

Tekst-naar-spraakgeneratoren bestaan al een minuut – zo konden je TomToms-ouders je ongrijpbare routebeschrijvingen geven met de stem van Morgan Freeman. Moderne iteraties zoals hield een toespraak of AI Voice Prime van Elevenlab Ze zijn veel capabeler, maar hebben nog steeds vrij veel bronmateriaal nodig om hun onderwerp goed na te bootsen – en dan nog een berg verschillende gegevens voor elk. bachelor opleiding. laatst. Het onderwerp waarop je wilt oefenen.

Voicebox wel, dankzij een nieuwe nieuwe TTS-trainingsmethode zonder clipping. Benchmarkresultaten komen niet eens in de buurt, aangezien de AI van de Meta naar verluidt beter presteert dan de huidige stand van de techniek in zowel duidelijkheid (1,9 procent foutenpercentage versus 5,9 procent) als “audio-overeenkomst” (een samengestelde score van 0,681 tot 0,580 in SOA), elk Dat terwijl het tot 20 keer sneller werkt dan de beste tekst-naar-spraaksystemen van vandaag.

Maar zorg dat je beroemdheden-navigators nog niet op één lijn zitten, noch de Voicebox-app, noch de broncode ervan wordt op dit moment voor het publiek vrijgegeven, bevestigde de Meta vrijdag, daarbij verwijzend naar “potentiële risico’s van misbruik” ondanks “indrukwekkend gebruik”. Generative Speech Models.” In plaats daarvan heeft het bedrijf een reeks audiovoorbeelden uitgebracht (zie hierboven/hieronder) naast het eerste onderzoeksdocument van het programma. Het onderzoeksteam hoopt dat de technologie in de toekomst zijn weg zal vinden naar protheses voor patiënten met stembandschade en in-game NPC’s en digitale assistenten.

READ Pokémon Scarlett en Bullet brengen een tijdelijk kerstmysteriegeschenk uit

Sven Groenendaal

Sven Groenendaal is auteur bij Xboxonegaming.nl en schrijft over actuele ontwikkelingen op het gebied van nieuws, technologie, entertainment, sport, business en lifestyle. Hij richt zich op heldere verslaggeving, betrouwbare informatie en onderwerpen die relevant zijn voor een breed publiek. Met oog voor actualiteit en context brengt Sven nieuws en achtergrondverhalen op een toegankelijke manier, zodat lezers snel inzicht krijgen in belangrijke gebeurtenissen, trends en ontwikkelingen die hun dagelijks leven en interesses raken.

Een reactie achterlaten Reactie annuleren