Strojni jezik: odakle Siri dobiva glas?

<

Google, Apple, Microsoft i čak Amazon aktivno razvijaju svoje glasovne usluge. Na nedavno objavljenom iOS 7, Siri je isti, ali pojavile su se nove značajke i ... glasovi. Pitate li se kako se taj proces događa? Kako računala uče govor? Ovo je prava umjetnost.

Za svaki glas, Siri ima svog glumca. Nakon što ispuni svoju ulogu u izražavanju, djelo tek počinje ... Ljudski glas nastavlja svoje putovanje. Povijest ovog putovanja, od čovjeka do robota, jedan je od najsloženijih tehnoloških procesa koji se nisu mogli provesti prije deset godina.

Upoznajte se s direktorom dizajna i razvoja glasa u tvrtki Nuance, jednoj od najvećih neovisnih tvrtki na svijetu koja se bavi prepoznavanjem govora i tekstom u govor. J. Brant Ward bio je skladatelj koji je skladao dijelove za gudačke kvartete na sintisajzerima, a sada komponira govor koristeći sintetičke glasove. Radio je u industriji sinteze govora u Silicijskoj dolini više od deset godina.

Text-to-speech je vrlo konkurentna industrija, a njezini su zaposlenici vrlo tajnoviti. Iako cijeli svijet vjeruje da Nuance stvara glasove za Siri, Ward i njegov kolega David Vazquez strahuju od izravnog odgovora. Ipak, složili su se objasniti, barem općenito, kako se događa nevjerojatan proces stvaranja glasova na stroju.

Nepotrebno je reći, nema potrebe za glasom i pisanjem svake riječi iz rječnika. Ali kada je riječ o aplikaciji koja bi trebala čitati bilo koju vijest u vašem newsletteru, ili pronaći nešto za vas na internetu, ona je jednostavno dužna izgovoriti svaku riječ u rječniku.

Većina prijedloga odabrana je prema načelu "bogate fonetike" - tj. Sadrže mnogo različitih kombinacija fonema. "Činjenica je da što više podataka imamo, to će biti realniji rezultat", kaže Ward.

Nakon što je tekst snimljen u živom glasu glumca (zamoran proces koji može potrajati nekoliko mjeseci), počinje težak posao. Riječi i rečenice se analiziraju, dijele u kategorije i ulaze u veliku bazu podataka. Tim složenih lingvista uključen je u ovaj složeni posao i uključen je njihov vlastiti jezični softver.

Kada se sve to uradi, Nuanceov tekst-u-govorni uređaj stvara, pomalo, riječi i fraze koje glumac možda nikada nije izrekao, ali taj je zvuk vrlo sličan glumčevom govoru, jer je tehnički glas glumca.

Proces govora je nesvjestan. To radimo bez razmišljanja o tome kako se odvija taj proces: kakav je položaj našeg jezika, kakav je odnos izgrađen između fonema, i tako dalje - kako bi se lako i učinkovito izrazile složene ideje i emocije. Ali da bi računalo moglo podići ljudski zvuk glasa, sve te točke moraju se uzeti u obzir. Kao što je jedan jezikoslovni profesor rekao, to je "titanski" zadatak.

Ne biste trebali misliti: "Razgovaram s računalom." Ne biste trebali uopće razmišljati o tome.

"Moja djeca komuniciraju sa Sirijem kao da je to živo biće ... Oni ne osjećaju razliku", kaže Ward.

Tako blizu prijateljstva između ljudi i robota - isto kao kod ljudi. Mnogi bi voljeli da Siri prepozna emocionalno stanje zvučnika i na neki način reagira na njega (na primjer, uključi umirujući glasovni način). Zamislite - govoriti robotu koji vas moralno mazi po glavi. Možda Nuance već razmišlja o tome? ..

<

Popularni Postovi