transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam

Syntéza ˇreˇci z psaného textu ´ Uvod

1 1.1

Z´ akladn´ı sch´ ema Text-To-Speech syst´ emu

Struktura nˇejakého abstraktn´ıho TTS systému vypadá následovnˇe:

text

1.2

-

normalizace

-

fonetick´ y pˇrepis

transkribovan´ y text -

modelován´ı prozódie

syntéza ˇreˇci

vaweform -

Z´ akladn´ı term´ıny

• Text je vˇetˇsinou nˇejak´ y spec. pˇr´ıpad, napˇr. e-maily atp., text i transkripce vˇetˇsinou v nˇejaké formˇe obsahuje znaˇcky pro suprasegmentáln´ı fonémy. • Syntéza ˇreˇci je jen jedna z ˇcást´ı TTS systému, to je nutné rozliˇsovat. Jde moˇzná o nejsloˇzitˇejˇs´ı a nejd˚ uleˇzitˇejˇs´ı souˇcást, ale jej´ı vstup nen´ı text. • Normalizace je nˇekdy nutá provádˇet, nˇekdy ne. Obsahuje napˇr. vyházen´ı hlaviˇcek z e-mail˚ u, pˇr´ıp. pˇridán´ı spec. prozódie pro nˇe atd. Pouˇz´ıvá se, aby stejn´ y TTS systém mohl b´ yt pouˇzit k r˚ uzn´ ym vˇecem (pˇredpˇripraven´ı textu podle jeho oˇcekávaného typu). • Grafém, p´ısmeno, letter je nejmenˇs´ı jednotka psané podoby jazyka. S nˇekter´ ymi jsou problémy, zda je povaˇzovat za jedin´ y grafém (napˇr. p´ısmena s diakritikou), ale nám to vˇetˇsinou bude jedno. • Hl´ aska, sound je nejmenˇs´ı jednotka zvukové podoby jazyka. • Foném je nejmenˇs´ı strukturáln´ı jednotka zvukové podoby jazyka, která rozliˇsuje v´ yznam. • Fonetický pˇrepis je pˇrepis zvukové podoby textu, zaznamenávaj´ıc´ı hlásky, pˇr´ıp. suprasegmentáln´ı jevy. M˚ uˇze b´ yt postavená na pravidlech nebo na slovn´ıku (ale vˇzdy se pouˇz´ıvaj´ı oba komponenty, jeden slouˇz´ı jako doplnˇek). Nejvˇetˇs´ı problém dˇelá pˇrepis v jazyc´ıch, které napˇr. neznaˇc´ı samohlásky.

2

Fonetika a fonologie

Potˇrebujeme jednak popis v´ yslovnosti, jednak popis akustiky (zvukov´ ych vln, jimiˇz se jednotlivé hlásky projevuj´ı). M˚ uˇzu m´ıt i popis vn´ımán´ı (percepce) hlásek, ale ten pro naˇse u ´ˇcely nen´ı nezbytn´ y. Hlavn´ı rozd´ıl mezi fonetikou a fonologi´ı je ten, ˇze fonetice jde o v´ıceménˇe fyzikáln´ı akustick´ y popis vˇsech zvuk˚ ua hlásek, kdeˇzto fonologii zaj´ımá systém, struktura jazyka. Pro fonologick´ y v´ yzkum narozd´ıl od fonetiky potˇrebujeme alespoˇ n nˇejaké základn´ı informace o daném jazyce.

2.1

Akustika

Jednotlivé hlásky jsou sloˇzené zvuky (vlnˇen´ı vzduchu), obsahuj´ıc´ı tónové (periodické) a ˇsumové (neperiodické) sloˇzky. Rozliˇsujeme je právˇe podle sloˇzen´ı jejich zvuku, napˇr. konsonanty maj´ı vˇetˇs´ı pod´ıl ˇsumov´ ych a vokály tónov´ ych sloˇzek, konsonanty se dále liˇs´ı svou znˇelost´ı ˇci neznˇelost´ı jako pˇr´ıtomnost´ı tónov´ ych sloˇzek. Hlasové u ´stroj´ı se dá zjednoduˇsenˇe pˇredstavit jako zdroj zvuku (hlasivky) a rezonanˇcn´ı prostor (nadhrtanové dutiny). Hlasivky kmitaj´ı na nˇejaké základn´ı frekvenci (F0 , pro muˇze cca 100 Hz, pro ˇzeny pˇribliˇznˇe dvojnásobná) a v nadhrtanov´ ych dutinách se podle jejich tvaru zesiluj´ı nˇekteré harmonické frekvence. Rezonance prob´ıhá stejnˇe jako 5f ejaké f . ve z jedné strany otevˇreném prostoru, tedy zes´ılená je frekvence f2 , 3f 2 , 2 . . . pro nˇ Zvuk m˚ uˇzeme rozloˇzit na frekvenˇcn´ı spektrum a zkoumat s´ılu zastoupen´ı jednotliv´ ych frekvenc´ı v ˇcase. Provád´ı se to bˇeˇznˇe na poˇc´ıtaˇci pomoc´ı Fourierovy anal´ yzy, v´ ysledkem je spektrogram (trojrozmˇern´ y diagram, kde osy jsou

Syntéza ˇreˇci z psaného textu

1

ˇcas a frekvence a s´ıla zastoupen´ı je vyznaˇcena barevnˇe). Záznam nikdy nen´ı pˇresn´ y – frekvenˇcn´ı rozliˇsen´ı je omezené. Pˇrepoˇc´ıtáván´ım nahrávky na frekvence v ˇcase vznikaj´ı artefakty (chyby). Formanty V´ yraznˇe zes´ılené frekvence ˇc´ıslujeme F1 , F2 atd., a naz´ yváme formanty. Prvn´ıch nˇekolik je zastoupen´ ych v signálu u ´myslnˇe“, vlivem v´ yslovnosti, pˇr´ıliˇs vysoké frekvence ale uˇz clovˇek neovlivn´ı. Proto pˇri záznamu zvuku sn´ımáme ” jen u ´zké pásmo (napˇr. do 5 nebo 9 kHz), ˇc´ımˇz ztrat´ıme maximálnˇe ˇcistotu“ zvuku, ne uˇz informaci o vysloven´ ych ” hláskách. Frekvence, které jsou na spektru zvuku u ´myslnˇe“ potlaˇceny, naz´ yvame antiformanty. Nˇekteré hlásky se daj´ı odliˇsit ” právˇe absenc´ı nˇekter´ ych frekvenc´ı, napˇr. u nosov´ ych hlásek docház´ı vlivem pr˚ uchodu vzduchu nosem k fázovému posunu vlnˇen´ı a nˇekteré frekvence jsou právˇe t´ım potlaˇceny. Formanty se v´ yraznˇe zmˇen´ı i pˇri malé v´ yˇsce hlasu (jde o to, jak dobˇre vyˇsˇs´ı harmonické frekvence F0 odpov´ıdaj´ı rezonanˇcnˇe zesilovan´ ym frekvenc´ım v hlasovém u ´stroj´ı). U konsonant˚ u (hlavnˇe u neznˇel´ ych) vˇetˇsinou nehledáme formanty, ale transienty – jde o pˇrechody“ ve spektru, ” na m´ıstˇe, kde zaˇc´ınaj´ı nebo konˇc´ı formanty okoln´ıch samohlásek. M´ısto, kam transienty ukazuj´ı (tedy hypotetick´ y bod na spektru) pro danou souhlásku naz´ yváme locus. Bod locu je d˚ uleˇzit´ y pro rozpoznán´ı neznˇel´ ych hlásek, povaˇzuje se za centrum jejich ˇsumu. Anal´ yza spektrogram˚ u Samohlásky maj´ı nejv´ yraznˇejˇs´ı formanty (F1 , F2 , . . . ). Pokud nen´ı u nˇejaké hlásky pˇr´ıtomna F0 (a tedy ani v´ yrazné vyˇsˇs´ı formanty), jedná se o neznˇelou hlásku. Podle ˇsumu (nekoncentrovan´ y signál po velké ˇcásti spektra) se poznaj´ı frikativy (ˇsumové hlásky). Explozivy (závˇerové hlásky) se poznaj´ı okamˇzikem ticha a následn´ ym ˇsumem exploze.

2.2

Fonetick´ a abeceda IPA

Abeceda IPA slouˇz´ı pro fonetickou transkripci, hlavnˇe v jazykovˇe nezávislém prostˇred´ı. Nˇekteré jazyky ji pouˇz´ıvaj´ı i pro zápis své v´ yslovnosti, v nˇekter´ ych se pouˇz´ıvaj´ı jiné abecedy, protoˇze jsou pro nˇe ˇsikovnˇejˇs´ı (napˇr. v ˇceˇstinˇe). Hlásky, kter´ ym je pˇriˇrazena jedna znaˇcka, se mohou napˇr´ıˇc jazyky liˇsit – jde jen o aproximaci. Pro odliˇsen´ı hlásek v rámci jednoho jazyka ale vˇetˇsinou plnˇe dostaˇcuje.

2.3

Vokalick´ y syst´ em

Vok´ aly Extremáln´ı hlásky jsou [i] (jazyk je nahoˇre vepˇredu), [u] (nahoˇre vzadu), [a] (dole uprostˇred). Nˇekteré zvuky si v r˚ uzn´ ych jazyc´ıch v´ıce ˇci ménˇe odpov´ıdaj´ı, nˇekteré jazyky rozliˇsuj´ı v´ıce vokál˚ u neˇz jiné. Rozliˇsen´ı m˚ uˇze b´ yt podle nˇekolika r˚ uzn´ ych vlastnost´ı najednou (a nˇekteré jejich kombinace nemus´ı b´ yt povolené). Existuje jazyk, kter´ y má jen 2 vokály, hodnˇe jazyk˚ u má jen 3 (právˇe ty extremáln´ı). Akustick´ y popis Pouˇz´ıváme tak krátké zvuky, ˇze se nezmˇen´ı pozice jazyka ( statick´ y zvuk“), ale uˇz se m˚ uˇzou analyzovat frekvence, ze ” kter´ ych se zvuk skládá. Zaj´ımáme se o lokáln´ı maxima frekvenc´ı. T´ım nalezneme nejniˇzˇs´ı lokáln´ı maximum – základn´ı frekvenci F0 – a nˇekteré jej´ı vyˇsˇs´ı harmonické frekvence. Jedná se vˇzdy o rezonanˇcn´ı maxima, vlastnosti rezonanˇcn´ıho prostoru se pro jednotlivé vokály mˇen´ı (mˇen´ı se jeho tvar posouván´ım jazyka), takˇze se mˇen´ı i zes´ılené frekvence.


2

Vezmeme-li prvn´ı a druhé zes´ılené maximum (formanty) F1 a F2 , dostaneme následuj´ıc´ı schéma: 6 F2 i e (Hz) a o u F1 (Hz) Vypadá u ´plnˇe analogicky k artikulaˇcn´ım pozic´ım, protoˇze se posouván´ım jazyka mˇen´ı právˇe v´ yˇska a délka rezonanˇcn´ıho prostoru (pˇribliˇznˇe). Na prvn´ıch dvou formantech vokál˚ u je tedy toho dost poznat o jejich barvˇe. Hodnoty samozˇrejmˇe nevycházej´ı vˇzdy stejnˇe, a to ani pro toho samého mluvˇc´ıho, ale pˇribliˇzné um´ıstˇen´ı odpov´ıdá.

2.4

Konsonantick´ y syst´ em

Tvoˇ ren´ı hl´ asek Základn´ı dˇelen´ı konsonant˚ u je na znˇelé, voiced a neznˇelé, voiceless. Ty se liˇs´ı pˇr´ıtomnost´ı základn´ıho hlasového tónu (tj. kmitán´ım hlasivek pˇri jejich tvorbˇe). Pro neznˇelé hlásky jsou hlasivky v klidové poloze, nekmitaj´ı, jsou od sebe oddáleny (pˇri ˇseptán´ı pro vˇsechny hlásky). Pˇri vyslovován´ı znˇel´ ych hlásek jsou hlasivky tˇesnˇe u sebe a kmitaj´ı. Zjistit, která hláska je znˇelá a která ne, je docela jednoduché: staˇc´ı si podrˇzet prst na hrtanu. Podle m´ısta artikulace rozliˇsujeme: • labi´ aly, obouretné [p, b, m, B] • labiodent´ aly, retozubné [f, v, M] • dent´ aly, zubné [T, D] > > • prealveol´ ary [t, d, s, z, ts, dz, r] • postalveol´ ary [S, Z] • palat´ aly, tvrdopatrové [c, é, ñ, ç]1 . • vel´ ary, mˇekkopatrové [k, g, x] • uvul´ ary, ˇc´ıpkové [R, K, X] • glot´ aly, hlasivkové [P, h, H] Podle zp˚ usobu tvoˇren´ı rozliˇsujeme: • plozivy, z´ avˇerové : nejdˇr´ıv se nastav´ı jazyk jako pˇrekáˇzka a u ´plnˇe uzavˇre cestu v´ ydechovému proudu (onset). Potom nastává exploze, závˇer se uvoln´ı. Exploze je nejv´ yraznˇejˇs´ı ˇcást hlásky. Jde napˇr. o [p, b, t, d, k, g, c, é, h]. Pˇr´ıkladem plozivy je i hlasivkov´ y ráz (´ uplné uzavˇren´ı hlasivkové ˇstˇerbiny, následné explozivn´ı otevˇren´ı) [P]. • nas´ aln´ı, nosové plozivy: maj´ı stejnˇe závˇer a explozi jako obyˇcejné“, ale celou dobu prob´ıhá vzduch i nosem, ” takˇze bˇehem závˇeru nen´ı ticho. To je napˇr. [m, n, ñ, N]. • frikativy, ˇsumové : nasazen´ı jazyka (onset) uˇz je slyˇsiteln´ y, mezi jazykem a patrem z˚ ustává stále nˇejak´ a ˇstˇerbina, která propouˇst´ı vzduch (nastává tˇren´ı – friction), exploze nen´ı pˇr´ıtomna. Frikativy zaˇc´ınaj´ı a konˇc´ı postupnˇe. Napˇr. [s, z, S, Z, ç, x, f, v]. • afrik´ aty, poloz´ avˇerové : jsou podobné kombinaci plozivy a frikativy, v IPA fonetickém zápisu se tak p´ıˇsou. Exploze se ale vynechá, uvolnˇen´ı napˇet´ı pˇrecház´ı do frikce (ˇsumu se ˇstˇerbinou). Podle nepˇr´ıtomnosti exploze se daj´ı poznat > > > > od kombinace ploziva + frikativa. V ˇceˇstinˇe je to [ts, tS, dz, dZ]. 1 Ve

ˇ n fonetick´ e abecedˇ e IPA jsou pro ˇcesk´ e hl´ asky ˇt, d, ˇ pouˇ z´ıv´ any znaky c, é, ñ


3

• vibranty, trills: jsou podobné frikativám, jen jazyk nez˚ ustává na jednom m´ıstˇe, n´ ybrˇz kmitá. Pohyby jazyka pˇritom nejsou ovládány v˚ ul´ı, jsou velmi rychlé. Vˇetˇsina jazyk˚ u pouˇz´ıvá 2-3 kmity, nˇekde se poˇctem kmit˚ u odliˇsuj´ı r˚ uzné hlásky (napˇr. ve slovenˇstinˇe). Pˇr´ıkladem jsou [r, R, K]. • bokové hl´ asky, later´ aly: v ˇceˇstinˇe máme jen jednu: [l]. Princip je ten, ˇze uprostˇred u ´stn´ı dutiny docház´ı k u ´plnému závˇeru, ale po kraj´ıch jazyka m˚ uˇze vzduch dál proudit. Existuje spousta jin´ ych, i neznˇel´ ych laterál˚ u (napˇr. ve velˇstinˇe). • aproximanty: jsou podobné frikativám, ale maj´ı mnohem ménˇe ˇsumu, vˇsechen jejich zvuk je v podstatˇe vytváˇren hlasivkami a rezonanc´ı, jsou velmi bl´ızké samohláskám. Jde napˇr. o [j, w]. U neznˇel´ ych hlásek se obvykle projevuje vˇetˇs´ı s´ıla svalového napˇet´ı, tj. hlásky se naz´ yvaj´ı fortisové. U znˇel´ ych je s´ıla menˇs´ı, naz´ yvaj´ı se pak lenisové. S velk´ ym svalov´ ym napˇet´ım souvis´ı u ploziv i pˇr´ıdechy, aspirace, které se nˇekdy zejmena u neznˇel´ ych hlásek vyslovuj´ı. Jde o prodlouˇzen´ı závˇeru a exploze, aspirace vzniká vˇzdy v m´ıstˇe artikulace. Pˇr´ıstup k aspirac´ım se vˇsak jazyk od jazyka liˇs´ı, napˇr. v ˇceˇstinˇe aspirace nemáme, angliˇctina a nˇemˇcina aspiruj´ı neznˇelé hlásky, nˇekteré jazyky mohou m´ıt i aspirované znˇelé hlásky. Hlásky je moˇzné rozliˇsovat i podle postaven´ı jazyka pˇri jejich tvoˇren´ı: • apik´ aln´ı artikulace je v´ yslovnost ˇspiˇckou jazyka – tj. pˇrekáˇzku vytváˇr´ı ˇspiˇcka jazyka, jako napˇr. u [t, l]. • lamin´ aln´ı artikulace je v´ yslovnost horn´ı ploˇskou jazyka, napˇr. u [c]. • retroflexn´ı artikulace je v´ yslovnost spodn´ı ploˇskou jazyka – jazyk je otoˇcen´ y vzh˚ uru nohama“. Tento zp˚ usob ” vyslovován´ı je bˇeˇzn´ y pro indické jazyky. Akustick´ y popis Pro popis konsonant˚ u jsou urˇcuj´ıc´ı transienty a bod locu. Locus se dá zhruba odhadnout podle m´ısta tvoˇren´ı – ˇc´ım zadnˇejˇs´ı hláska (ˇc´ım bl´ıˇz je m´ısto tvoˇren´ı hlasivkám), t´ım vyˇsˇs´ı je locus. To je tedy pˇresnˇe opaˇcnˇe, neˇz F2 u samohlásek. Pˇredpokládá se, ˇze F2 je vyjádˇreno m´ıstem nejvˇetˇs´ıho rozˇs´ıˇren´ı v´ ydechové cesty, kdeˇzto locus právˇe m´ıstem pˇrekáˇzky; pˇresn´ y d˚ uvod tohoto jevu ale znám nen´ı. Pro nosovky je charakteristick´ y nasáln´ı komponent na frekvenci cca 200-300 Hz (tedy pro vysoké hlasy nev´ yrazn´ y) a potlaˇcen´ı formantu F1 (vzniká antiformant). Proto nˇekdy vzniká zdán´ı, ˇze F1 se u nosovek sniˇzuje, ale nen´ı tomu tak, jde o jin´ y zvuk.

2.5

Proz´ odie

Prozódie zahrnuje vˇsechny vlastnosti, které se projevuj´ı nad hranicemi segment˚ u. Sestává z: • F0 z´ akladn´ı t´ on hlasu, voice pitch • ˇcasov´ an´ı, timing • intenzita Intenzita nen´ı totéˇz, co hlasitost“ – narozd´ıl od n´ı jde o produkˇcn´ı veliˇcinu, která je mˇeˇritelná objektivnˇe. Hlasitost ” je percepˇcn´ı dojem, kromˇe amplitudy vlnˇen´ı (tedy intenzity) je ovlivˇ nován i ˇcasován´ım (prodlouˇzen´ı vzbuzuje dojem vyˇsˇs´ı hlasitosti). Pro TTS systémy zas tak podstatná intenzita nen´ı. Vˇzdy tu pracujeme jen s relativn´ımi hodnotami a prominenc´ı (zv´ yraznˇen´ım) v nˇekteré z nich. Prozodick´ a struktura textu Hlásky existuj´ı aˇz ve slabik´ ach. Slabika je nejmenˇs´ı ˇcást mluveného textu, která se dá zopakovat izolovanˇe – konsonant je vˇzdy závisl´ y na vokálu své slabiky a naopak. Vyˇsˇs´ı jednotka je pˇr´ızvukový takt, fonologické slovo, stress unit. To je skupina slabik, z nichˇz na jedné je pˇr´ızvuk. Na to, na které, existuj´ı pravidla – dˇelen´ı stress unit je jednoduché, horˇs´ı je definovat, co to je vlastnˇe pˇr´ızvuk. To závis´ı na konkrétn´ım jazyku a jedná se o kombinaci timingu, intonace i intenzity (prominence v nˇekteré z tˇechto hodnot). Syntéza ˇreˇci z psaného textu

4

Pˇr´ızvuk nen´ı totéˇz, co zv´ yraznˇen´ı (emphasis), nezávis´ı v˚ ubec na sémantice. Je to vˇec syntaxe, pomáhá lidem dˇelit slova. Nad u ´rovn´ı slov rozliˇsujeme intonaˇcn´ı jednotky, intonation contours. Ty jsou relativnˇe nezávislé, mezi nimi má ˇclovˇek tendenci dˇelat pauzu v ˇreˇci. Jejich rozliˇsen´ı ale nen´ı u ´plnˇe pˇresné. Nejvyˇsˇs´ı jednotkou je celé vyj´ adˇren´ı, utterance. Napˇr. v dialogu odpov´ıdá vˇetˇe, ale m˚ uˇze b´ yt i delˇs´ı. Fináln´ı intonace vyjádˇren´ı je termináln´ı. Pˇ r´ızvuk v r˚ uzn´ ych jazyc´ıch Existuj´ı dva druhy jazyk˚ u, co se pˇr´ızvuku t´ yˇce: • stress-timed – v takov´ ych jazyc´ıch maj´ı mluvˇc´ı tendenci dˇelat stejnˇe dlouhé pˇr´ızvukové takty. • syllable-timed – v tˇechto jazyc´ıch je tendence k vyslovován´ı slabik stejnˇe dlouze. Mám-li dlouhé slovo, tedy hodnˇe slabik na jeden pˇr´ızvuk, budou u stres-timed jazyk˚ u slabiky krátké, kdeˇzto u syllabletimed bude prostˇe pˇr´ızvukov´ y takt trvat déle. Pˇr´ıkladem prvn´ıho typu je angliˇctina, k druhému napˇr. ˇceˇstina. Slabiˇ cn´ a melodie Melodie má v nˇekter´ ych jazyc´ıch distinktivn´ı funkci – stejné slabiky s jinou melodi´ı maj´ı jin´ y v´ yznam. Takové jazyky se naz´ yvaj´ı t´ onové. Vˇetná melodie ale m˚ uˇze m´ıt zároveˇ n jinou funkci. Mikroproz´ odie Mikroproz´ odie zahrnuje vˇsechno, co se dˇeje v rámci jedné hlásky, ale je ovlivˇ nováno okol´ım. Má vliv na velkou prozódii. Je podvˇedomá, záleˇz´ı i na konkrétn´ıch hláskách. Mikroprozodick´ ym fenoménem je napˇr. délka hlásky (záleˇz´ı ale na tom, jestli délka hlásky rozliˇsuje v´ yznam, jestli dlouhá a krátká hláska jsou samostatné fonémy). Dalˇs´ı je napˇr. zmˇena tónu hlasu v rámci jedné hlásky. Bˇeˇzn´ y TTS systém se mikroprozodi´ı nezab´ yvá, protoˇze ji má nahranou ve svém korpusu segment˚ u; prozódi´ı se ale zab´ yvat mus´ı.

2.6

Probl´ emy fonologick´ eho popisu

ˇ je m˚ Jedn´ım z problém˚ u je popis diftong˚ u (dvojhlásek) jako jednotliv´ ych segment˚ u. Bud uˇzeme povaˇzovat za dva fonémy (dvˇe hlásky), nebo za foném jedin´ y. Potom napˇr. anglické slovo fire“ [fai@] mohou b´ yt dva, tˇri nebo ˇctyˇri ” > jin´ı i pˇrejaté [au], > fonémy. V ˇceˇstinˇe se s t´ım setkáváme taky, nˇekdo neuznává ˇzádné diftongy, nˇekdo jen domác´ı [ou], > S t´ım se setkám pˇri vytváˇren´ı korpusu, kdyˇz chci kombinaci vˇsech hlásek. [eu]. Problém je i vn´ımán´ı slabik – to je jazykovˇe závislé. Kdyˇz definuju slabiku jako peak in sonority“, bude slovo ” lˇzu“ sestávat ze 2 slabik. ” > a [ow] > se vlastnˇe zvukovˇe neliˇs´ı, záleˇz´ı jen na interpretaci a pˇrevládaj´ıc´ım Dalˇs´ı problém jsou aproximanty – [ou] popisu jazyka.

3

Stavba Text-To-Speech syst´ emu

3.1

Normalizace

Nˇekdy se dohromady s normalizac´ı dˇelá chunking, tj. rozdˇelen´ı textu na dostateˇcnˇe malé kousky pro zpracov´ an´ı, nˇekdy je jako samostatn´ y krok. Data se mus´ı rozdˇelit nˇekde, kde je to moˇzné (ne napˇr. uprostˇred vˇety).

3.2

Fonetick´ y pˇ repis

Jde o pˇrepis letter-to-sound, tedy pˇrepisujeme grafémy na hlásky. Odliˇsuj´ı se dva pˇr´ıstupy: • zaloˇzen´ y na pravidlech, rule-based • zaloˇzen´ y na slovn´ıku, dictionary-based


5

V dneˇsn´ıch systémech jsou v podstatˇe vˇzdy pˇr´ıtomna i pravidla i slovn´ık, ale jedna metoda je vˇzdy primárn´ı, druhá doplˇ nková. Mám-li totiˇz slovn´ık, nem˚ uˇze zahrnovat vˇsechna slova (problémem je napˇr. flexe). Pravidla také nepostihnou vˇse, vˇzdy se vyskytnou v´ yjimky (moˇznost´ı je ovˇsem napsat slovn´ık“ pˇr´ımo do syntaxe pravidel). ” Pro pravidla se de facto daj´ı pouˇz´ıt regulárn´ı v´ yrazy, tj. pˇrepisy se zapojen´ım kontextu na obˇe strany. Vˇetˇsinou neoperuj´ı pˇr´ımo nad textem, ale nad nˇejak´ ymi speciálnˇe vytvoˇren´ ymi datov´ ymi strukturami. Ty nemus´ı b´ yt v˚ ubec lineárn´ı, pouˇz´ıvaj´ı se napˇr.: • multi-level data structures – vrstevnaté s koneˇcn´ ym poˇctem vrstev, odpov´ıdaj´ıc´ıch napˇr. hlásce, slabice, morfému, pˇr´ızvukovému taktu, promluvovému u ´seku nebo vˇetˇe. Dostanu tak strom s koneˇcn´ ym poˇctem vrstev, se kter´ ym je snadné pracovat, mohu m´ıt transformaˇcn´ı pravidla pro r˚ uzné u ´rovnˇe • feature structures – je zaloˇzeno na distinktivn´ıch rysech (napˇr. znˇelost, m´ısto artikulace atd.) jednotl. hlásek (ze kter´ ych se hlásky daj´ı skládat). Jsou také na r˚ uzn´ ych u ´rovn´ıch, jejichˇz poˇcet nen´ı fixn´ı. Nˇekter´ ymi pravidly mus´ı doj´ıt k zjednoznaˇcnˇen´ı (disambiguization) textu, napˇr. r˚ uznou diakritika apod. je nutné správnˇe interpretovat – teˇcka napˇr. m˚ uˇze m´ıt spoustu v´ yznam˚ u. Nˇekdy se hod´ı v´ıc (jazykovˇe závislá) pravidla, nˇekdy zas slovn´ık, napˇr. na interpretaci anglického ˇclenu the“ se hod´ı hlavnˇe pravidla, ale bez slovn´ıku to také nejde (srov. ” the oak“ proti the one“). ” ” Rozhodnut´ı pravidla versus slovn´ık“ m˚ uˇzu dˇelat pro kaˇzd´ y jednotliv´ y problém zvláˇsˇt. Pravidla m˚ uˇzu taky aplikovat ” 2 ˇ bud jedn´ım pr˚ uchodem, nebo opakovanˇe. Typick´ y postup pravidel je následuj´ıc´ı: 1. morfosyntaktick´ a pravidla Jedná se hlavnˇe o urˇcován´ı slovn´ıch druh˚ u apod. Pouˇz´ıvá se pˇritom hlavnˇe slovn´ık a statistické ˇcetnosti namˇeˇrené v nˇejakém korpusu. Nˇekdy se provád´ı morfosyntaktické parsován´ı vˇety, ale to je dost sloˇzité; vˇetˇsinou pˇritom nˇejaké nejednoznaˇcnosti ponechávám, pokud mi nevad´ı pro dalˇs´ı práci, nez´ıskávám v´ıc informac´ı, neˇz kolik je nutné. Pˇr´ıkladem takov´ ych pravidel m˚ uˇze b´ yt i doplˇ nován´ı samohlásek v textech psan´ ych souhláskov´ ym p´ısmem. 2. kontextov´ a pravidla Tato pravidla napˇr. rozv´ıjej´ı zkratky, pˇribliˇzuj´ı text ˇctené podobˇe. 3. struktur´ aln´ı pravidla V´ ystup tˇechto pravidel se pouˇz´ıvá pro modelován´ı prozódie – jde napˇr. o identifikaci druh˚ u vˇet, coˇz umoˇzn´ı jejich správnou intonaci. Zjiˇsˇtován´ı struktury textu (pro vytváˇren´ı prozódie) se (i lidem) dˇelá lépe na nˇeˇcem, co je bliˇzˇs´ı textu neˇz ˇreˇci. Napˇr. zde neztrác´ıme v ˇceˇstinˇe informaci o mˇe“ a mnˇe“, která se m˚ uˇze jeˇstˇe hodit (druhé ” ” má mnohem sp´ıˇs pˇr´ızvuk). 4. pravidla fonetického pˇrepisu (letter-to-sound) Tady se pˇrevád´ı pravopis na v´ yslovnost, mohou se pouˇz´ıvat r˚ uzná pravidla pro v´ yjimky (napˇr. angl. sh“ pˇrep´ıˇsu ” [S], ale pˇredt´ım oddˇel´ım morfémy spec. znakem, abych vylouˇcil slova jako hogshead“, nebo ˇcesky diagram“ ” ” zmˇen´ım na dyagram“, abych se vyhnul mˇekˇcen´ı). Text pˇrecház´ı plynule z ortografického do fonetického zápisu. ”

3.3

Modelov´ an´ı proz´ odie

Prozódie je vlastnˇe ovlivˇ novaná syntax´ı“ (ve skuteˇcnosti pˇr´ımo v´ yznamem vˇety, ale ten se syntax´ı souvis´ı), pˇr´ıpadnˇe ” nˇejak´ ymi emocemi, jednotlivostmi mluvˇc´ıho, ale ty se vystihnout nedaj´ı. Mˇelo by se dávat pozor i na mikroprozódii – tedy vystihnout prozodické fenomény, ale nenechat se zmást mikroprozodick´ ymi. Fudˇ zisakiho intonaˇ cn´ı model Intonace bˇehem ˇreˇci odpov´ıdá zmˇenám základn´ı hlasové frekvence (F0 ), na ostatn´ıch prozodick´ ych veliˇcinách je v´ıceménˇe nezávislá. Pro modelován´ı intonace je nejznámˇejˇs´ı Fudˇzisakiho model. Ten sestává z phrase commands a accent commands. Prvn´ı typ pravidel je trvanlivˇejˇs´ı“, p˚ usob´ı v podstatˇe na celou vˇetu, vˇzdy od daného ˇcasu a s ” danou amplitudou (zvednut´ım nebo sn´ıˇzen´ım F0 ) a postupnˇe dozn´ıvá. Druh´ y typ má kratˇs´ı trván´ı, má definovan´ y ˇcas zaˇcátku i konce a zase amplitudu. V´ ysledná F0 v daném ˇcasovém bodˇe se (v logaritmické podobˇe) dá vyjádˇrit jako 2 Tohle

samozˇrejmˇ e z´ avis´ı na jazyce, pro nˇ ekter´ e ˇreˇ ci nemus´ı b´ yt nˇ ekter´ e kroky potˇreba. Poˇrad´ı prov´ adˇ en´ı jednotliv´ ych druh˚ u pravidel taky m˚ uˇ ze z´ aviset na jazyce.


6

nˇejaká suma vˇsech command˚ u, které p˚ usob´ı, plus základn´ı frekvence. T´ımto zp˚ usobem m˚ uˇzu modelovat F0 v podstatˇe s libovolnou pˇresnost´ı, je nutné naj´ıt ale vhodn´ y pomˇer poˇctu command˚ u na slovo k velikosti chyby, protoˇze jinak ne´ umˇernˇe rostou náklady na data i v´ ypoˇcet. Vytv´ aˇ ren´ı prozodick´ eho invent´ aˇ re Prozodické modely je ale nutné nejprve zprovoznit (dodat správné hodnoty), a to nauˇcen´ım“ dat z korpusu – napˇr. ” mám-li v jazykov´ ych datech na nˇekter´ ych m´ıstech d˚ urazy, mus´ım zjistit, kde a kam je podle toho dávat, pˇr´ıp. jak souvis´ı s trván´ım a intenzitou slabik. Potˇrebuji tedy prozodick´ y korpus, automatické nástroje na zpracován´ı a prozodick´ y model. Postup vytváˇren´ı prozodického inventáˇre vypadá pak následovnˇe: korpus - detekce F0 - model -

trénován´ı / - pravidla (inventory) rule extraction

K mluvenému korpusu m˚ uˇzu poˇc´ıtat i s jeho textovou reprezentac´ı a strukturáln´ımi informacemi“ – napˇr. informace ” o hranic´ıch slov a pˇr´ızvuˇcn´ ych slabikách atp., které se daj´ı zjistit automatick´ ymi nástroji. De facto by mˇelo b´ yt moˇzné i pouˇz´ıt stejné algoritmy na trénov´ an´ı a následné generován´ı. ˇ automaticky za pomoci neuronové s´ıtˇe (trénován´ı), nebo u Krok trénov´ an´ı, extrakce pravidel prob´ıhá bud ´plnˇe ruˇcnˇe, kdy nˇekdo prostˇe odhadne, jak struktura vˇety (podle interpunkce, hranice slov apod.) souvis´ı s prozódi´ı (extrakce pravidel). Vˇzdy je nutné m´ıt nˇejaké náhodné faktory nebo v´ıce kontur, ze kter´ ych si pro vˇetu vybrat, aby znˇel v´ ysledek pˇrirozenˇe. Ruˇcn´ı popis je velice sloˇzité z´ıskat, vhodné je m´ıt nˇejakou teorii uˇz pˇredem. M˚ uˇzu se taky dostat do stavu, kdy pravidla ruˇcnˇe uˇz vylepˇsit nejdou a v´ ysledek poˇrád nen´ı optimáln´ı; je také velice nákladné zmˇeny testovat. Ruˇcn´ı extrakce pravidel taky t´ıhne k determinismu, tˇemito problémy automatické uˇcen´ı netrp´ı. Pro trénován´ı neuronové s´ıtˇe mám nejen samotná data, ale i ony strukturáln´ı informace, takˇze vyuˇz´ıvám dalˇs´ı informace nav´ıc. Dokonce se m˚ uˇze stát, ˇze neuronová s´ıˇt mi dá lepˇs´ı v´ ysledek i pro u ´plnˇe irelevantn´ı vstupy, ˇclovˇek totiˇz náhodnou“ prozódii vn´ımá lépe neˇz ˇzádnou. S rozumn´ ymi informacemi nav´ıc se ale lze dobrat relativnˇe pˇrirozenému ” v´ ysledku. Na zaˇcátku trénován´ı mám zadan´ y vstup a poˇzadované v´ ysledky a nˇejakou s´ıˇt, kterou postupnˇe upravuju a zkouˇs´ım, dokud mi nezaˇcne dávat v´ ystupy podobné poˇzadovan´ ym. Pro modelován´ı prozódie mi staˇc´ı s´ıˇt o 20-30 neuronech. V´ ysledkem procesu by mˇel b´ yt prosodic inventory, tedy sada pravidel, jak upravovat prozodicky signál ve v´ ystupu z TTS. Je to vˇetˇsinou malá mnoˇzina nˇejak´ ych hodnot – tˇreba informac´ı o neuronové s´ıti.

3.4

Synt´ eza ˇ reˇ ci

Pro generován´ı ˇreˇci ze zápisu hlásek se pouˇz´ıvá nˇejak´ y zjednoduˇsen´ y popis artikulace, podloˇzen´ y jist´ ymi pˇredpoklady, ˇ copy synthesis, konkatenaˇcn´ı syntéza, tedy syntéza na tzv. ˇreˇcový model. Pro syntézu existuj´ı dva hlavn´ı druhy – bud základˇe kop´ırován´ı a slepován´ı ˇcást´ı ˇreˇcového inventáˇre, nebo rule-based synthesis, formant synthesis, syntéza zaloˇzená na vytváˇren´ı sloˇzeného zvuku za pomoci (frekvenˇcn´ıch) pravidel. Synt´ eza zaloˇ zen´ a na pravidlech Tento typ syntézy se pouˇz´ıvá vˇetˇsinou jenom v akademickém prostˇred´ı, aˇz na pom˚ ucky pro hyperrychlé ˇcten´ y e-mail˚ u. Projev vˇetˇsinou nen´ı pˇr´ıliˇs pˇrirozen´ y. Pˇredpokládáme tu matematick´ y model zjednoduˇseného artikulaˇcn´ıho u ´stroj´ı a pravidla, popisuj´ıc´ı jeho zmˇeny (tedy zmˇeny v nastavován´ı artikulace). Ta pak zahrnuj´ı formanty samohlásek, transienty konsonant˚ u, pˇr´ıtomnost základn´ıho tónu apod., vˇsechno je v pravidlech relativnˇe pˇr´ımoˇcaˇre. Z´ıskávaj´ı se z parametrického korpusu, postupn´ ym zkouˇsen´ım ˇ se vylepˇsuj´ı, upravuj´ı, sladuj´ı apod. podle v´ ysledk˚ u. Velice záleˇz´ı na interpretaci parametr˚ u z korpusu (napˇr. kdyˇz si ˇspatnˇe vyloˇz´ım, co je formant, v´ ysledek zn´ı divnˇe). Pro debugován´ı je vˇetˇsinou lepˇs´ı pˇridávat kompenzaˇcn´ı“ pravidla, ” neˇz mˇenit stávaj´ıc´ı. Model parametr˚ u, pouˇz´ıvan´ y v korpusu, mus´ı b´ yt dost jednoduch´ y, abych dostal relevantn´ı pravidla – napˇr. je vhodné pˇredem odfiltrovat pro ˇreˇc irelevantn´ı frekvence (ˇc´ımˇz samozˇrejmˇe ztrác´ım na pˇrirozenosti) a témˇeˇr bezpodm´ıneˇcnˇe nutné normalizovat ho na stejnou F0 . Záleˇz´ı samozˇrejmˇe i na ˇclovˇeku, jak podle korpusu pravidla vyrob´ı.


7

Pro kvalitu jsou tak v´ yznamné jak vnitˇrn´ı (intrinsic) chyby (chyba vyrobeného modelu), tak vnˇejˇs´ı (extrinsic, chyba provedená pˇri anal´ yze). Synt´ eza zaloˇ zen´ a na kop´ırov´ an´ı Tady kvalitu ovlivˇ nuje hlavnˇe kvalita nahrávek v ˇreˇcovém korpusu a také jejich reprezentativita (velikost, ale i relˇ nahrávat televizn´ı poˇrady (to se ale nedˇelá pˇr´ıliˇs ˇcasto, nen´ı to evance). Korpus m˚ uˇzu z´ıskat dvˇema zp˚ usoby – bud u ´plnˇe reprezentativn´ı), nebo v´ ybˇerem vˇet, které nˇekdo potom do korpusu pˇreˇcte. Druh´ ym zp˚ usobem m˚ uˇzu lépe pokr´ yt inventáˇr c´ılového jazyka. Chci m´ıt v´ ysledn´ y korpus mal´ y, aby ho mluvˇc´ı mohl pˇreˇc´ıst najednou a bez zmˇeny podm´ınek (napˇr. u ńavy hlasu). 3 Nav´ıc pro jistotu se vˇetˇsinou cel´ y nahrává dvakr´ at. Postup je potom následuj´ıc´ı : 1. identifikace hl´ asek Vyberu si, které hlásky potˇrebuji pro reprezentaci ˇreˇci v daném jazyce, tj. napˇr. jestli budu dvojhlásky povaˇzovat za jednotlivé fonémy apod. 2. identifikace fonotaktiky Zjist´ım, které kombinace vybran´ ych hlásek se v jazyce v˚ ubec m˚ uˇzou vyskytovat, mnoho kombinac´ı nebude pˇr´ıpustn´ ych, tj. zmenˇs´ım si mnoˇzinu potˇrebn´ ych dat. Toto souvis´ı napˇr. s pravidly asimilace znˇelosti. Vˇzdy se ale 10% ˇcasu stráv´ı na 90% kombinac´ıch a zbytek na nˇejak´ ych v jazyce velmi neobvykl´ ych. 3. kompozice korpusu Ze vˇsech moˇzn´ ych kombinac´ı hlásek, nalezen´ ych v pˇredchoz´ım kroku, sloˇz´ım psanou verzi korpusu. 4. nahr´ av´ an´ı korpusu Mluvˇc´ı pˇreˇcte vˇsechny vˇety, vloˇzené do korpusu. Pˇritom by mˇel pouˇz´ıvat monotónn´ı prozódii, nav´ıc zaˇcátky a konce vˇet se mus´ı beztak vyhodit. Po nahráván´ı se vzorky normalizuj´ı na stejnou F0 . Pˇri nahráván´ı mus´ı nˇekdo dohl´ıˇzet na neˇzádouc´ı ˇsumy v pozad´ı a nechat mluvˇc´ıho pˇr´ıpadnˇe vˇety opakovat. 5. vytvoˇren´ı ˇreˇcového invent´ aˇre Protoˇze pro kaˇzdou kombinaci hlásek nepotˇrebuji v´ıce verz´ı, srovnám vˇsechny dostupné a napˇr. podle toho, jak moc se jejich F0 bl´ıˇzila pr˚ umˇeru, si vyberu tu nejlepˇs´ı. Z´ıskám v podstatˇe to, co jsem mˇel po identifikaci fonotaktiky, jen se zvukov´ ym doprovodem. Pro v´ ystup syntézy se nikdy nepouˇz´ıvaj´ı samostatné hlásky, ale vˇzdy kombinace dvou, tˇr´ı nebo v´ıce hlásek, dvojhlásky apod. Projevuje se tu totiˇz d˚ uleˇzitost koartikulace, nav´ıc konsonanty jen parazituj´ı“ na vokálech, samy stát nemohou, ” tedy samotné je extrahovat ani nem˚ uˇzu. Pro konkatenaci zvuk˚ u potˇrebuji hlásky stabiln´ı“, nav´ıc vˇzdy je potˇreba ” nˇejaké vyhlazován´ı zvuku. Tradiˇcnˇe se v konkatenaˇcn´ı syntéze pouˇz´ıvaj´ı tzv. diphones, dvojzvuky – druhá polovina prvn´ı, prvn´ı polovina druhé hlásky. Nˇekdy se kombinuj´ı s vybran´ ymi ˇcasto se vyskytuj´ıc´ımi trojvuky (hláska a poloviny okoln´ıch), kde nen´ı tˇreba pouˇz´ıt tolik vyhlazován´ı. Pro nˇekteré jazyky se pouˇz´ıvaj´ı disyllables, tedy celé dvojice slabik, ale vˇetˇsinou by poˇcet kombinac´ı byl pˇr´ıliˇs velik´ y. Kv˚ uli neobvykl´ ym pˇr´ıpad˚ um se také kombinuje s kratˇs´ımi u ´seky. Algoritmy v´ ybˇ eru jednotky U sloˇzitˇejˇs´ıch systém˚ u konkatenaˇcn´ı syntézy nemám v ˇreˇcovém inventáˇri pro kaˇzd´ y diphone nebo triphone jen jednu zvukovou podobu, ale vyb´ırám si z nˇekolika moˇznost´ı pomoc´ı tzv. unit selection algorithm tu nejlepˇs´ı pro dané m´ısto v ˇreˇci. Pˇritom se zohledˇ nuje prozódie, diskvalifikuj´ı se chyby v´ yslovnosti apod., nˇekdy se tak mohou pouˇz´ıt i ˇcásti slov u ´plnˇe vcelku (na základˇe v´ ybˇeru). Pravidla v´ ybˇeru samozˇrejmˇe taky ovlivˇ nuj´ı kvalitu generované ˇreˇci. Vˇetˇsinou se pouˇz´ıvá v´ ybˇer na základˇe podobné F0 , chybách v´ yslovnosti, intenzitˇe a prozódii, existuj´ı i parametry specifické pro urˇcité konkrétn´ı jednotky. Na základˇe toho mohu spoˇc´ıtat badness (penalizaci) jednotky bu i badness spojen´ı bc 4 . Potom celkové badness ˇretˇezu jednotek odpov´ıdaj´ıc´ıho celému textu je suma: X X B= bu (i) + bc (i, i + 1) i

i

3 Pro

z´ısk´ an´ı parametrick´ eho korpusu plat´ı podobn´ a pravidla. jednotky v ˇreˇ cov´ em invent´ aˇri, kter´ e byly p˚ uvodnˇ e souˇ c´ ast´ı stejn´ eho slova a navazovaly na sebe, m´ am tady 0. Tak m˚ uˇ zu i cel´ a slova, v invent´ aˇri rozsekan´ a, zase slepit. 4 Pro


8

Algoritmus, kter´ y by hodnotil kaˇzdou jednotku z celého textu a vyb´ıral nejlepˇs´ı kombinaci, by byl velmi nároˇcn´ y. Levnˇejˇs´ı postup, kter´ y nav´ıc neobsahuje ˇzádné vnˇejˇs´ı chyby (tj. jeho v´ ysledek je stejnˇe dobr´ y jako projit´ı vˇsech moˇznost´ı) je Viterbyho algoritmus. Ten spoˇc´ıvá v tom, ˇze pro kaˇzdou pozici si postupnˇe spoˇcteme nejlepˇs´ı moˇznost, za pˇredpokladu, ˇze pˇredchoz´ı moˇznost je fixovan´ a (zkouˇs´ım vˇsechny pozice, spoˇc´ıtané v pˇredchoz´ım kroku). Budujem tak vlastnˇe matici postupn´ ych v´ ypoˇct˚ u, jde o techniku dynamického programován´ı. Pamatovat si ale mus´ıme jen dva jej´ı posledn´ı sloupce – dvˇe iterace. Algoritmus pak má sloˇzitost O(n · s2 ), kde s je velikost ˇreˇcového inventáˇre a n délka textu. Dostaneme tak nejlepˇs´ı ˇreˇsen´ı, aˇz na vnitˇrn´ı chybu zvoleného modelu badness.

3.5

Techniky zpracov´ an´ı ˇ reˇ cov´ eho korpusu, tvorby invent´ aˇ re

Automatick´ a segmentace korpusu Pro dˇelen´ı korpusu na segmenty a jejich rozpoznán´ı vzhledem k textové podobˇe a tedy vyrovnán´ı se s r˚ uzn´ ymi hlasov´ ymi frekvencemi a rychlost´ı ˇreˇci se pouˇz´ıvá technika Dynamic Time Warping – algoritmus pro mˇeˇren´ı podobnosti signál˚ u. Pouˇz´ıvá se to ke znaˇckován´ı vˇet z korpusu podle uˇz oznaˇckovan´ ych. Na signal postupnˇe mapuju nˇejakou ˇsablonu a mˇeˇr´ım odliˇsnosti, vzniká pˇr´ımka bl´ızká diagonále. Pro zkouˇsen´ı ˇsablon je potˇreba relativnˇe hodnˇe krok˚ u, pouˇz´ıvá se dynamické programován´ı. V´ ysledek je ale vˇzdy jen pˇribliˇzn´ y, zpracován´ı mus´ı beztak vˇzdy zkontrolovat ˇclovˇek. Tvorba prozodick´ eho korpusu Pro vytvoˇren´ı korpusu na prozódii je tˇreba detekovat hranice slabiky, v´ yˇsku hlasu, jejich trván´ı a intenzitu. Potom podle druh˚ u vˇet, ke kter´ ym tyto parametry pˇr´ısluˇs´ı, mohu urˇcovat pattern pˇr´ızvukov´ ych takt˚ u. Tohle vˇsechno mus´ım z´ıskat pˇr´ımo z ˇreˇcového korpusu a vˇetˇsinou se to pouˇz´ıvá jako vstup do trénován´ı neuronové s´ıtˇe pro modelován´ı prozódie. Typicky se tyto vlastnosti mˇeˇr´ı v centru slabiky. Dˇelen´ı slabik pomáhá hlavnˇe pˇredchoz´ı segmentace korpusu (centrum slabiky poznám podle sonority, ale okol´ı uˇz ne; problémem jsou také poboˇcné slabiky (napˇr. rty“). ” Detekce v´ yˇ sky hlasu Ke zjiˇstˇen´ı frekvence F0 (v´ yˇsky hlasu) se pouˇz´ıvá technika autokorelace (autokonvoluce), kdy se vezme signál a provede se jeho konvoluce se sebou sam´ ym, posunut´ ym o nˇejak´ y ˇcasov´ y interval: Z ∞ Rf f (T ) = f (t)f (t − τ )dt −∞

Pokud se v signálu vyskytuje periodicita (jako je F0 ), naleznu ji tak, ˇze pro jej´ı periody jsou hodnoty autokorelace maximáln´ı. Autokorelace je vˇzdy na kladn´ ych ˇc´ıslech klesaj´ıc´ı funkce s maximem v nule. Ve zpracován´ı signálu se zpravidla poˇc´ıtá pˇres Fourierovu transformaci. Vezmou se z n´ı v´ ysledky jako kandidáti a vybere se ten, kter´ y nejlépe odpov´ıdá vyˇsˇs´ım harmonick´ ym frekvenc´ım (formant˚ um). Nˇekdy se signál na nˇejakém pr˚ ubˇehu otoˇc´ı v ˇcase a anal´ yza s n´ım prob´ıhá u ´plnˇe stejnˇe. Problém s autokorelac´ı nastává pro neznˇelé segmenty – je nutné je detekovat, protoˇze jinak mi autokorelaˇcn´ı anal´ yza nalezne vyˇsˇs´ı formanty; je tedy nutné zakázat pˇrechod nalezené F0 o pˇr´ıliˇs velké kroky v krátkém ˇcase. V´ ysledek autokorelace pro b´ıl´ y ˇsum je typick´ y (maximum v nule a nulová hodnota v kaˇzdém jiném bodˇe), coˇz také pro ˇ nalezen´ı neznˇel´ ych segment˚ u pomáhá. Zádn´ y detektor v´ yˇsky hlasu ale nepracuje na 100% (vnˇejˇs´ı chybou je nenalezen´ı F0 , vnitˇrn´ı chyba je vydáván´ı v´ ysledk˚ u, aˇc F0 nen´ı pˇr´ıtomna v˚ ubec). Detekce intenzity a trv´ an´ı segment˚ uˇ reˇ ci Detekce intenzity je dost triviáln´ı, staˇc´ı se pod´ıvat na amplitudy. Pro trván´ı je situace sloˇzitˇejˇs´ı, nestaˇc´ı jen pˇrep˚ ulit vzdálenosti mezi vrcholy slabik. Trván´ı slabiky závis´ı na délce vokálu (pokud ta je souˇcást´ı vokalického systému), takˇze tady m´ıch´ am velkou prozódii s mikroprozódi´ı jednotliv´ ych slabik, t´ım m˚ uˇzu potom neuronovou s´ıˇt pˇri trénován´ı ˇ mus´ım tento fakt nˇejak kompenzovat, nebo porovnávat jen stejnˇe dlouhé vokály mezi sebou. u ´plnˇe zmást. Bud


9

4 4.1

Druhy Text-To-Speech Syst´ em˚ u Time-Domain Pitch-Synchronous Overlap Add (TD-PSOLA)

Tento systém je pˇr´ıkladem konkatenativn´ı syntézy, jde vlastnˇe o velmi jednoduch´ y pˇr´ıpad (dnes uˇz relativnˇe zastral´ y, pouˇz´ıvan´ y hlavnˇe v 90. letech). Spoˇc´ıvá v tom, ˇze kaˇzdá hláska (jednotka ˇreˇci) je rozdˇelena na framy, krátké zvukové u ´seky bˇehem kter´ ych se nemˇen´ı F0 . V kaˇzdém framu lze pozorovat pitch-periody, tedy jednotlivé kmity hlasu. Ty dávaj´ı moˇznost, jak mˇenit F0 bez ohledu na kvality zvuku. Mohu totiˇz jednotlivé framy skládat pˇres sebe a natahovat, pokud je uprav´ım pomoc´ı tzv. windowing funkce (funkce, která zes´ıl´ı jen jednu pitch-periodu a postupnˇe signál zeslabuje v jej´ım okol´ı aˇz do ticha). Po pouˇzit´ı windowing funkce na kaˇzdou pitch-periodu pak v´ ysledky m˚ uˇzu seˇc´ıst pˇres sebe i s nˇejak´ ym posunut´ım. T´ım dostanu signál, kter´ y m˚ uˇze m´ıt jinou F0 , ale jen neznatelnˇe zmˇenˇené vyˇsˇs´ı frekvence (napˇr. formanty). Nˇekdy pitch-periods nesed´ı u ´plnˇe pˇresnˇe, ale d´ıky windowing-funkci dojde k vyhlazen´ı. Frekvence bl´ızké F0 budou poˇskozeny, proto nelze takhle signál zrychlovat o tolik, ˇze by v´ ysledek zasahoval aˇz do formantového pásma. Pokud si pˇreju napˇr. dvakrát rychlejˇs´ı ˇreˇc a stejnou v´ yˇsku hlasu, staˇc´ı vyhodit kaˇzdou druhou pitch-periodu. Opaˇcnˇe pokud periody zduplikuju pˇres sebe, dostanu vyˇsˇs´ı hlas se stejnou rychlost´ı. Kdyˇz vyhazuju nˇekteré pitchperiody, zbavuju se i informac´ı o kvalitˇe hlásky, takˇze to nesm´ım udˇelat mockrát (jinak sousedn´ı segmenty pˇrestanou b´ yt podobné). Vyhodit m˚ uˇzu zhruba maximálnˇe kaˇzdou druhou. Pokud budu naopak moc duplikovat, v´ ysledn´ y zvuk bude p˚ usobit bzuˇciv´ ym“, nepˇrirozen´ ym dojmem – bude v nˇem periodicita, která tam nepatˇr´ı, tj. v´ıc tónov´ ych kompo” nent˚ u, neˇz je záhodno. Je tedy vhodné nedˇelat v´ıce neˇz dvojnásobné kop´ırován´ı; pˇrehrán´ım kaˇzdé druhé pitch-periody pozpátku se lze dostat aˇz na ˇctyˇrnásobné. Probl´ emy TD-PSOLA Princip TD-PSOLA vypadá sice jednoduˇse, nutnou podm´ınkou jeho pouˇzit´ı je ale spolehliv´ y detektor hlasové frekvence, jinak docház´ı k chybˇe f´ aze, phase mismatch hlasu (pitch-periody se netref´ı pˇresnˇe doprostˇred kmit˚ u). Ve v´ ysledku se tedy pracuje v korpusu s algoritmy jako pˇri rozpoznávan´ı ˇreˇci, pˇr´ıpadnˇe se pitch-periody dˇel´ı u ´plnˇe manuálnˇe. Nejvˇetˇs´ı problém ale nastává u neznˇel´ ych hlásek, tam lze dˇelat jen nˇejaké interpolace, nejv´ıce se chyba projevuje na hranic´ıch segment˚ u. Na hranic´ıch jednotliv´ ych diphon˚ u m˚ uˇze doj´ıt i k chybˇe spektra, spectral mismatch. Mám-li totiˇz dvˇe poloviny stejné samohlásky, které se trochu liˇs´ı pod vlivem okol´ı, nedaj´ı se slepit u ´plnˇe pˇresvˇedˇcivˇe. To se dá odstraˇ novat postupn´ ym doplˇ nován´ım dalˇs´ıch diphon˚ u s pomoc´ı manuáln´ı kontroly – je nutné poslouchat, kde syntéza dˇelá chyby, a ta m´ısta pak jednotlivˇe oˇsetˇrovat. Posledn´ı chybou, která se m˚ uˇze v TD-PSOLA objevit, je chyba výˇsky hlasu, pitch mismatch. K té dojde, pokud dva pˇriléhaj´ıc´ı segmenty maj´ı pˇr´ıliˇs odliˇsné F0 (nesed´ı pˇresnˇe na sebe). Té se dá vyhnout normalizac´ı ˇreˇcového inventáˇre na stejnou F0 , vˇetˇsinou pak ruˇsen´ı klesne pod vn´ımatelné hodnoty.

4.2

Linear Prediction Coder (LPC) Speech Synthetizer

Proti pˇredchoz´ımu nen´ı v˚ ubec triviáln´ı, vycház´ı z modelu artikulaˇcn´ıho u ´stroj´ı. LPC syntetizátory jsou relativnˇe stará technika, jejich v´ ysledek ale nevypadá pˇr´ıliˇs pˇresvˇedˇcivˇe. Implementace v hardwaru ale nen´ı sloˇzitá, zvuk je srozumiteln´ y i s minimáln´ım inventáˇrem. V´ ystupn´ı signál má vˇetˇsinou nˇejakou relativnˇe n´ızkou vzorkovac´ı frekvenci, napˇr. 8 kHz, protoˇze vyˇsˇs´ı se modeluj´ı velmi obt´ıˇznˇe. Hlasové u ´stroj´ı si totiˇz lze pˇredstavit jako na jedné stranˇe otevˇrenou rezonaˇcn´ı trubici (tube), ve které je na uzavˇrené stranˇe zdroj zvuku (buzzer ), kter´ y vytváˇr´ı periodick´ y signál. Kdyˇz se nemˇen´ı parametry tube ani buzzeru, pak vych´ ylen´ı v´ ysledné zvukové vlny v kaˇzdém okamˇziku (podle potˇreb vzorkovac´ı frekvence, kromˇe nˇekolika poˇcáteˇcn´ıch vzork˚ u) se dá predikovat z urˇcitého poˇctu pˇredchoz´ıch vzork˚ u. Potom záleˇz´ı na zjednoduˇsen´ı modelu, z kolika. Napˇr. LPC Order 8 pˇredpokládá, ˇze lze predikovat z 8 pˇredchoz´ıch vzork˚ u. Pro praxi jde samozˇrejmˇe o zjednoduˇsen´ı, taková periodicita ve zvuku ˇreˇci rozhodnˇe neexistuje. Pro syntézu tedy vezmu ˇreˇcov´ y inventáˇr a kaˇzdou potˇrebnou jednotku rozdˇel´ım na framy, tedy ˇcasové u ´seky, kde jsou zmˇeny artikulace minimáln´ı (ale zas u ´seky dost dlouhé, aby se rozbˇehla predikce pˇres poˇcáteˇcn´ı kroky a bylo moˇzné dopoˇc´ıtat co nejv´ıc dalˇs´ıch). Pro kaˇzd´ y frame potom odhadnu nˇekolik poˇcáteˇcn´ıch (napˇr. právˇe 8) sampl˚ u, aby


10

predikce vycházela s co nejmenˇs´ı chybou. Tyto poˇcáteˇcn´ı parametry se naz´ yvaj´ı LPC coefficients. Odhad se typicky prov´ ad´ı metodou nejmenˇs´ıch ˇctverc˚ u. Cel´ y tento proces odhadován´ı je velmi obt´ıˇzné provádˇet pro neznˇelé hlásky – v takovém pˇr´ıpadˇe v modelu artikulaˇcn´ıho u ´stroj´ı nemám buzzer, ale jen b´ıl´ y ˇsum. Typicky se pro kaˇzdou hlásku provád´ı detekce základn´ıho tónu a spolu se vˇsemi ostatn´ımi parametry se ukládá i u ´daj o znˇelosti. Modelován´ı pak provád´ım separátn´ım ovládán´ım vlastnost´ı trubice i zdroje zvuku. Namˇeˇrené koeficienty nepouˇz´ıvám pro generován´ı zvuku pˇr´ımo, protoˇze mezi segmenty by vznikaly ostré pˇredˇely – zvuk se pˇredem jeˇstˇe vyhlazuje. Pro znˇelost a neznˇelost se pouˇz´ıvá také nˇekolik mezistupˇ n˚ u, protoˇze i v reálu hlasivky z naprostého klidu do nejintenzivnˇejˇs´ı ˇcinnosti pˇrecházej´ı postupnˇe. Problém je se simulac´ı nosov´ ych hlásek, protoˇze na to aproximace artikulaˇcn´ıho u ´stroj´ı prostou trubic´ı nefunguje. Pokud bych chtˇel trubici po ˇcásti délky rozdˇelit, budu m´ıt problém s nalezen´ım poˇcáteˇcn´ıch LPC koeficient˚ u. Podobná technika (LPC komprese) se pouˇz´ıvá i v mobiln´ıch telefonech, protoˇze aproximace parametr˚ u je de facto druh ztrátové komprese. V signálu telefonu se pak odes´ılaj´ı jednak koeficienty LPC, jednak chybový sign´ al, error signal. Ten obsahuje dodateˇcné informace o pr˚ ubˇehu zvukov´ ych vln ˇreˇci, které se ale daj´ı témˇeˇr libovolnˇe omezovat a posilovat, podle toho, zda záleˇz´ı v´ıc na velikosti datového toku, nebo na pˇrirozenosti v´ ysledku (malé ztrátˇe komprese). Hlavn´ı rozd´ıl oproti TTS systém˚ um je ten, ˇze tady je kompresi nutné provádˇet v reálném ˇcase, takˇze nejde aˇz tak o pˇresnost odhadu parametr˚ u jako o rychlost. I LPC syntetizátory (vˇcetnˇe tˇech nejjednoduˇsˇs´ıch) ale také pouˇz´ıvaj´ı chybov´ y signál, kter´ y se z´ıskává obrácen´ ym aproximaˇcn´ım filtrem. To spoˇc´ıvá v tom, ˇze od skuteˇcn´ ych dat ˇreˇci se odeˇctou odhadnuté parametry. Aproximace nikdy nebude pˇresná, i kdybych mˇel modelovat jednoduché tóny (to je vnˇejˇs´ı chyba). Chybov´ ym signálem je také moˇzné ovládat zdroj zvuku v modelu artikulaˇcn´ım u ´stroj´ı a v´ ysledek bude dobr´ y (v závislosti na datovém toku chybového signálu).


11

transkribovaný text Foném je nejmenší strukturální jednotka zvukové podoby jazyka, která rozlišuje význam

Recommend Documents