Baidu's Deep Voice kan snel realistische menselijke spraak synthetiseren

Getty Images

Baidu heeft stilletjes aan andere projecten gewerkt naast zelfrijdende auto's in zijn AI-centrum in Silicon Valley, en nu heeft het een daarvan onthuld aan MIT's Technology Review. Blijkbaar heeft de Chinese tech-titan een tekst-naar-spraaksysteem ontwikkeld, Deep Voice genaamd, dat sneller en efficiënter is dan Google's WaveNet. Het bedrijf zegt dat Deep Voice in slechts een paar uur kan worden getraind om te spreken met weinig tot geen menselijke interactie. En aangezien Baidu kan bepalen hoe het spreekt om verschillende emoties over te brengen, kan het (snel) spraak synthetiseren die vrij natuurlijk en realistisch klinkt.

Het WaveNet van Google kan ook realistische menselijke spraak synthetiseren, maar het is nogal rekenkundig veeleisend en op dit moment moeilijk te gebruiken voor toepassingen in de echte wereld. Baidu zegt dat het het probleem van WaveNet heeft opgelost door diepgaande technieken te gebruiken om tekst om te zetten in fenomenen, de kleinste eenheid van spraak. Het zet die fonemen vervolgens om in geluiden met behulp van zijn spraaksynthesenetwerk. Het systeem zet het woord 'hallo' bijvoorbeeld om in '(stilte HH), (HH, EH), (EH, L), (L, OW), (OW, stilte)' voordat het spraaknetwerk het uitspreekt.



Beide stappen zijn gebaseerd op diep leren en hebben geen menselijke input nodig. Het systeem bepaalt echter niet op welke fonemen of lettergrepen de klemtoon wordt gelegd en hoe lang ze worden uitgesproken. Dat is waar Baidu tussenbeide komt - het verandert ze om de emoties die het wil overbrengen te veranderen.

Hoewel het bedrijf zegt dat Deep Voice het probleem van WaveNet heeft opgelost, is er nog steeds veel rekenkracht voor nodig. Een computer moet in 20 microseconden woorden genereren om menselijke interactie na te bootsen. Baidu's onderzoekers leggen uit:

'Om in realtime gevolgtrekkingen uit te voeren, moeten we er goed op letten dat we de resultaten nooit opnieuw berekenen, het hele model in de processorcache opslaan (in tegenstelling tot het hoofdgeheugen) en de beschikbare rekeneenheden optimaal benutten.'

Toch geloven de onderzoekers dat realtime spraaksynthese mogelijk is. Ze hebben al snel gegenereerde voorbeelden gemaakt en feedback verzameld via Amazon's Mechanical Turk. Ze vroegen een groot aantal mensen via de dienst om de kwaliteit van hun monsters te beoordelen, en de resultaten geven aan dat ze van uitstekende kwaliteit zijn.

Aanbevolen verhalen

Business Choice Awards 2017: Voice over IP (VoIP)-systemen

Stem is nog steeds het sleutelwoord op de werkvloer. Dit zijn de best beoordeelde services volgens de lezers van PCMag.

Nvidia's nieuwste AI-module kan videoconferenties en sla repareren

De Jetson TX2 is de nieuwste alles-in-één computermodule voor het verwerken van kunstmatige intelligentie in het veld in plaats van in de cloud. Bedrijven gebruiken het om de kwaliteit van videoconferenties te verbeteren en zelfs om slavelden te verdunnen.

Pinterest verhoogt gerelateerde pins met behulp van Deep Learning

Gerelateerde pins worden 'nog relevanter'.

4 manieren om snel uw desktopprogramma's te installeren nadat u een nieuwe computer hebt aangeschaft of Windows opnieuw hebt geïnstalleerd

De Windows-desktop is het enige platform zonder een app store-achtig software-installatieproces. Met smartphones, tablets, Macs en Linux-pc's kunt u allemaal snel meerdere programma's installeren, maar dit is ingewikkelder op Windows.