České vysoké učení technické v Praze Fakulta elektrotechnická Lukáš Hanousek
Bakalářská práce Použití subjektivních metod měření kvality přenosu hlasu pro odhad subjektivních prahů
Vedoucí bakalářské práce: doc. Ing. Jan Holub, PhD.
2011
PROHLÁŠENÍ Prohlašuji, že jsem předloženou práci vypracoval samostatně a že jsem uvedl veškeré použité informační zdroje v souladu s Metodickým pokynem o dodržování etických principů při přípravě vysokoškolských závěrečných prací.
V Praze dne ……………………….
……………………………………. podpis
PODĚKOVÁNÍ Děkuji doc. Ing. Janu Holubovi, Ph.D. z Českého vysokého učení technického v Praze, Fakulty elektrotechnické za cenné rady, náměty, inspiraci a odborné vedení při zpracování bakalářské práce.
ABSTRAKT V rámci této práce se zabývám aplikací doporučení řady ITU-T P.800 pro nalezení subjektivních prahů akceptovatelnosti, uspokojivosti a excelentnosti služby. Cílem je vytvořit rešerši dostupných materiálů a provedení demonstračního subjektivního experimentu. V první části jsou subjektivní metody popsány teoreticky, ve druhé části je předveden praktický experiment. Cílem bylo zjistit, zda byly oslovené subjekty spokojené s kvalitou přenosu hlasu. Pro měření jsem použil 2 testy, které obsahovaly 128 vzorků, přičemž každý z nich měl určitou kvalitu, kterou subjekty posuzovaly stupnicí 1 až 5 v prvním testu a stupnicí A až C v druhém testu. Výsledkem byla hranice ve stupnici 1 - 5 mezi kategoriemi A, B, C.
ABSTRACT This work focuses on application of standards ITU-T P.800 in order to find subjective thresholds of acceptability, satisfactoriness and excellency of the service. The main goal is to make a background research of accessible materials and completion of subjective experiment. In the first part the subjective methods are described theoretically, in the second part the practical experiment is demonstrated. The aim of the study was to find out whether addressed subjects were satisfied with the quality of voice transfer. We used two tests with 128 samples each, containing different quality, which was judged by subjects within the range from 1 to 5 in the first test and between A and C in the other test. The results are bounds in the 1 to 5 scale separating the A, B and C categories.
OBSAH ÚVOD ................................................................................................................................. 1 TEORETICKÁ ČÁST ............................................................................................................. 2 1
Literární rešerše ......................................................................................................... 2 1.1
Hlas .................................................................................................................... 2
1.1.1
Kvalita přenosu hlasu.................................................................................. 3
1.1.2
Zásady řečnického projevu ......................................................................... 4
1.2
Zvuk ................................................................................................................... 4
1.2.1
2
Zvuková kvalita vzorků .............................................................................. 4
1.3
Sluchové vnímání ............................................................................................... 5
1.4
Subjektivní metody měření kvality .................................................................... 5
Konverzační metody .................................................................................................. 7 2.1
Testovací místnosti............................................................................................. 7
2.2
Problém rozhovoru ............................................................................................. 7
2.3
Vhodnost subjektů .............................................................................................. 7
2.4
Stupnice názorů na konverzaci ........................................................................... 8
2.5
Stupnice potíží.................................................................................................... 9
2.6
Instrukce pro subjekty ........................................................................................ 9
2.7
Sbírání dat .......................................................................................................... 9
3
Poslechové metody .................................................................................................. 10
4
Metoda absolutního ohodnocení – ACR ................................................................. 11 4.1
Nahrávání zdroje .............................................................................................. 11
4.1.1
Prostředí nahrávání ................................................................................... 11
4.1.2
Námět hovoru ........................................................................................... 11
4.1.3
Návrh experimentu ................................................................................... 12
4.1.4
Nahrávací systém ...................................................................................... 12
4.1.5
Řečníci ...................................................................................................... 13
4.2
Procedura poslechového testu .......................................................................... 13
4.2.1
Poslechové prostředí ................................................................................. 13
4.2.2
Poslechový systém .................................................................................... 13
4.2.3
Posluchači ................................................................................................. 14
4.2.4
Názorová stupnice..................................................................................... 14
4.2.5
Instrukce pro subjekty před experimentem ............................................... 16
5
Metoda detekovatelnosti odezvy ............................................................................. 17
6
Metoda ohodnocení degradace - DCR .................................................................... 19
7
8
9
6.1
Prezentace podnětu........................................................................................... 19
6.2
Vzorky řeči ....................................................................................................... 19
6.3
Instrukce k testu ............................................................................................... 20
Metoda ohodnocení rozdílů – CCR ......................................................................... 21 7.1.1
Reference kvality ...................................................................................... 22
7.1.2
Předvádění posluchačům .......................................................................... 22
7.1.3
Instrukce pro subjekty ............................................................................... 23
7.1.4
Analýza dat ............................................................................................... 24
Prahová metoda ....................................................................................................... 25 8.1
Procedura testování .......................................................................................... 25
8.2
Předvedení signálů ........................................................................................... 25
8.3
Zdroje řeči ........................................................................................................ 26
8.4
Poslechové prostředí ........................................................................................ 26
8.5
Posluchači ........................................................................................................ 27
Faktory ovlivňující výsledky subjektivního hodnocení .......................................... 28 9.1
Okolní šum ....................................................................................................... 28
9.2
Stav sluchových orgánů ................................................................................... 28
9.3
Místo konání testu ............................................................................................ 28
PRAKTICKÁ ČÁST ............................................................................................................. 29
10 Metodika práce ........................................................................................................ 29 11 Dotazníky pro vyplnění při experimentu ................................................................. 30 12 Popis přípravy experimentu ..................................................................................... 31 13 Měření...................................................................................................................... 32 13.1
První test........................................................................................................... 32
13.2
Druhý test ......................................................................................................... 32
13.3
Způsob vyhodnocování výsledků ..................................................................... 33
13.3.1
Histogramy kategorií A, B, C za rok 2008 ............................................... 35
13.3.2
Histogramy kategorií A, B, C za rok 2010 ............................................... 37
13.4
Výsledky .......................................................................................................... 39
14 Závěr ........................................................................................................................ 42 POUŽITÉ ZDROJE .............................................................................................................. 43 POUŽITÝ SOFTWARE......................................................................................................... 43 SEZNAM TABULEK, GRAFŮ A OBRÁZKŮ ............................................................................ 44 PŘÍLOHY .......................................................................................................................... 45
ÚVOD Jednou z klíčových metod, která je využívána v moderních telekomunikačních sítích je právě testování QoS. Testování je založené na technologii kódování řeči a následného paketového přenosu přes datové sítě. Význam tohoto testování roste s vyšší komplikovaností a komplexností telekomunikačních sítí, přičemž přenosový řetězec zahrnuje stále více přenosových technologií. Mezi hlavní výhody testování patří snížení požadavků na přenosovou kapacitu, a to až o jednu čtvrtinu při zachování dostačující kvality signálu, dále úspora provozních a také pořizovacích nákladů. Bohužel snížení požadavků na přenosovou kapacitu sebou přináší i některé nevýhody, a to v podobě zhoršení kvality přeneseného řečového signálu, zejména při vícenásobném kódování. Pro měření kvality přenosu hlasu telekomunikačními zařízeními se používají dvě základní metody, a to subjektivní a objektivní. Závěrečná práce se bude soustředit na možnosti aplikace řady ITU-T P.800 pro nalezení subjektivních prahů akceptovatelnosti, uspokojivosti a excelentnosti poskytované služby. V teoretické části budou popsány subjektivní metody měření kvality, a to zejména v podmínkách, které jsou potřebné ke splnění jednotlivých testů k dosažení co možná nejlepších výsledků měření. V praktické části práce budou popsány a následně vyhodnoceny dva provedené subjektivní experimenty. První testování se uskutečnilo v roce 2008 na vzorku 11 osob a druhé testování bylo provedeno v roce 2010 na vzorku 10 osob. Hlavním cílem experimentu, a tedy i cílem práce, je za použití subjektivních metod měření kvality přenosu hlasu zjistit subjektivní prahy vnímání u testovaných osob, neboli zjistit jejich hranice, a to z pohledu toho, co lidé považují za kvalitní přenos hlasu, dále jaký přenos se jim již nelíbí, ale nestěžovali by si, a jako poslední to, co považují za neakceptovatelné a na co by si již byli ochotni stěžovat, nebo dokonce změnili operátora.
1
TEORETICKÁ ČÁST 1 Literární rešerše První kapitola seznámí čtenáře se základními pojmy, které jim umožní lépe pochopit danou problematiku. Nejprve bude přiblížen pojem hlas, kvalita jeho přenosu a některé zásady řečnického projevu, dále bude zmíněn zvuk a kvalita zvukových vzorků, sluchové vnímání, posluchači, experiment a nakonec subjektivní metody měření kvality.
1.1 Hlas Lidský hlas je hudebním nástrojem. Od hudebního nástroje se ovšem liší tím, že navíc dokáže tvořit hlásky řeči. Tyto hlásky třídíme na vokály (samohlásky) a konsonanty (souhlásky). Při vzniku samohlásky produkují hlasivky tón určité frekvence. Samohlásky, mluvené i zpívané, se svou podstatou blíží tónům. Tón vytvořený hlasivkami postupuje do dutiny ústní, která jej dotváří. Ústní dutina funguje jako rezonátor nastavený na určitou frekvenci. Tyto kmitočtové oblasti nazýváme formanty. Na dotváření hlásek se podílí několik formantů. Dva jsou velmi výrazné (F1 = hlavní formant vokálů, podmíněný ustavením tvaru a objemu ústní dutiny; F2 = vedlejší
formant,
podmíněný
rezonančním
účinkem
dutiny
hrtanové
a nosohltanové). Následující tabulka zachycuje rozložení formantových pásem vokálů [Kulka, 2008, str. 157]: Tabulka 1: Formantová pásma vokálů
Vokály
F1 (Hz)
F2 (Hz)
Tónový rozsah
U
300-400
400
d1-g1,g1
O
500-600
600
h1-d2,d2
A
800
110-1400
g2,cis3-f3
E
600
1600-1800
d2,g3-a3
I
300
2000-3000
d1,h3-fis4
Zdroj: Kulka, 2008
2
1.1.1 Kvalita přenosu hlasu „Pod pojmem kvalita přenosu hlasu rozumíme subjektivní hodnocení jakosti řečového signálu, přeneseného komunikačním kanálem. Pojem kvalita popisuje degradaci způsobenou přenosem a zohledňuje tedy aspekty lidského vnímání řečového signálu. Díky zvyšující se složitosti a komplexnosti sítí, kdy komunikační řetězce zahrnují stále více a více přenosových technologií, se měření kvality přenosu hlasu stává jednou z mála platforem, pomocí které lze navzájem porovnávat zcela odlišné přenosové technologie, a která je ve své podstatě nejbližší pohledu jednotlivých koncových uživatelů ['ITPOINT.cz', 2011].“ Do kvantitativních ukazatelů, které se posuzují při určování kvality lidského vnímání, řadíme především srozumitelnost, zpoždění a echo ['ITPOINT.cz', 2011]: Srozumitelnost (angl. clarity) Srozumitelností je myšlena čistota zvuku, nezdeformovanost a zřetelnost původního signálu, ale jedná se i o množství informace, které lze ze zprávy získat. Frekvenční pásmo se také podílí na srozumitelnosti hlasu, i když frekvence nad 1000 Hz nejsou až tak důležité, protože jen dokreslují charakteristiku a barvu hlasu mluvčího. Na samotnou čistotu zvuku má převážně vliv působení tzv. ztrátových kodeků, dočasné výpadky signálu, dočasné ztráty signálu, časové a amplitudové ořezání, šumy, zesílení nebo útlumy, ale také přenosové chyby kanálů. "End-to-end" zpoždění End-to-end neboli zpoždění můžeme vysvětlit jako sumu zpoždění, která se vyskytují na přenosové cestě, a tím ovlivňují přenášený signál. Velikost zpoždění je ovlivněna především vzdáleností přenosu signálu. End-to-end (resp. zpoždění) má vliv na charakter komunikace nikoliv na kvalitu přenášeného hlasu. Rozlišujeme celkem tři typy, a to: x
zpoždění do 100 ms (není postřehnutelné);
x
zpoždění mezi 100 – 300 ms (postřehnutelné prodlevy v odpovědích);
x
zpoždění nad 300 ms (prodlevy jsou již zřetelné a konverzace se komplikuje vstupy komunikujících do pomlk).
3
Echo Echo lze chápat jako ozvěnu či dozvuk, který je přenášen zpět ke zdroji zvuku. U analogových systémů ozvěna vznikala při spojeních na velmi velké vzdálenosti. Nově vzniká ozvěna i u digitálních systémů, a to i při přenosu na krátké vzdálenosti, a to právě díky prvkům pro zpracování signálu, ale i prvkům způsobujícím právě zpoždění signálu, které se vyskytují v komunikačním řetězci. Při časovém rozdílu mezi 25–30 ms je ozvěna či dozvuk zanedbatelný, větší časové rozmezí je považováno za nevhodné a nežádoucí. 1.1.2 Zásady řečnického projevu Existuje řada zásad řečnického projevu, které platí dodnes a jedná se o['Vivia.cz', 2011]: x
Invence – jedná se o úvodní etapu, v které řečník shromažďuje všechny podklady pro vystoupení.
x
Organizace – řečník musí projít nashromážděné podklady a následně zpracovat logickou strukturu projevu (úvod, stať, závěr).
x
Styl – jedná se o správnou volbu stylu a způsobu řeči, styl je závislý především na posluchačích.
x
Zapamatování – řečník by měl projev prezentovat a ne číst, psaný text by mu měl sloužit pouze jako pomůcka, kde bude mít poznamenány hlavní body prezentace.
x
Přednes – řečník by měl dbát na sílu hlasu a artikulační dovednosti tak, aby mu posluchači dobře rozuměli.
1.2 Zvuk Při experimentu pro zajištění hlavního cíle této práce byl využit digitálně vyráběný zvuk. Co to vlastně je digitálně vyráběný zvuk? Vzniká výpočty v počítači, který pracuje s digitálními daty (resp. s nulami a jedničkami). Není třeba žádné fyzické akce. Digitalizovaná hudba může mít mnoho podob. 1.2.1 Zvuková kvalita vzorků Vzorkovaný zvuk se lze zaznamenávat v různých kvalitativních úrovních. Měření kvality zvuku na počítači lze provádět pomocí 2 typů měření, a to [Grace, 1999]: 4
x
vzorkovací kmitočet (resp. horizontální rozlišení);
x
šířka slova (resp. vertikální rozlišení).
„Kvalita vzorkování je definována vzorkovacím kmitočtem, který se měří v hertzech (Hz). Vzorkovací kmitočet určuje, kolikrát za sekundu počítač změří a zaznamená okamžitou hodnotu úrovně analogového zvuku. Je to mnohokrát za sekundu. Pokud je např. vzorek zaznamenán kmitočtem 11kHz, počítač vzorkuje analogový zvuk 11000 krát za sekundu [Grace, 1999, str. 19].“
1.3 Sluchové vnímání Sluchová soustava se skládá z pěti částí, a to z vnějšího, středního a vnitřního ucha, nervové dráhy a specifické části mozku. Zvukové vlny jsou přiváděny zvukovodem k membráně bubínku, která je napjatá a působením zvukových vln je rozkmitána. Rozkmitání membrány způsobí vibrace, které jsou přenášeny dále a způsobí rozechvění mechanické soustavy středního ucha, která je tvořena kladívkem, kovadlinkou a třmínkem. Tyto zvukové vlny jsou zesíleny a postupují k oválnému okénku do tzv. hlemýždě neboli transdukční systém vnitřního ucha, kde jsou uloženy sluchové receptory neboli vláskové buňky. Zvukové vlny tedy vyvolávají tlak na oválné okénko, které se následně rozechvívá a vytváří elektrické impulzy. Zvukové podněty jsou následně přenášeny do mozku prostřednictvím sluchových neuronů, kterých je 31 000. Sluchové dráhy jsou velmi složité, protože vedou nejen od každého ucha, ale i do obou polovin mozku. Důležité je uvědomit si, že sluch člověka nejlépe rozlišuje zvuk na frekvenci v rozmezí 500 – 2000 Hz, zvuky jsou při této frekvenci vnímány při intenzitě 1 -10 decibelů. Zároveň platí i to, že čím nižší nebo vyšší frekvenci posloucháme, tím potřebujeme vyšší intenzitu zvuku, aby člověk byl vůbec schopen daný zvuk rozeznat. U vysokých frekvencí (např. kolem 20 000 Hz) je potřeba okolo 60 decibelů, aby byl zvuk rozpoznatelný, naopak u nízkých frekvencí, které se pohybují kolem 20 -50 Hz, je třeba okolo 80 – 95 decibelů pro rozeznání zvuku [Vysekalová, 2007].
1.4 Subjektivní metody měření kvality „Metody subjektivního ohodnocení kvality jsou určeny pro obecné použití. Metody jsou nezávislé na typu degradace hovorového signálu, ať se jedná o ztrátu rámců, šum, chybovost přenosu, ozvěny nebo nelineární zkreslení při použití kodeků s nízkými 5
přenosovými rychlostmi. K subjektivnímu posouzení kvality telekomunikačních zařízení a systémů lze použít dva typy metod - poslechové a konverzační ['Aksamít', 2007].“ Kvalita degradovaných řečových vzorků se vyhodnocuje statisticky pomocí ohodnocení dostatečným počtem osob, které odpovídají na dotazník a vyjadřují se k daným řečovým vzorkům. Toto měření je časově a finančně velmi náročné, ale výsledná
hodnota
je
skutečná
hodnota
kvality
přenosu
řeči
MOS-LQS
(MeanOpinionScore – ListeningQualitySubjective). Při nahrávaní musí být splněny specifické požadavky podle[ITU-T P.800], jako jsou: x
specifická nahrávací místnost (studio),
x
kvalita nahrávacího zařízení,
x
vlastnosti mikrofonu,
x
vzdálenost mikrofonu od hovořícího,
x
použití protivětrného krytu,
x
hladina šumu při nahrávaní,
x
věty musí být jednoduché a plynule namluvené,
x
dostatečná hlasitost nahrávky.
Je zapotřebí zohlednit také délku nahrávaní, únavu hovořících apod. Taktéž při poslechu musí byt splněny požadavky jako: x
specifická poslechová místnost (se stejnými vlastnostmi jako místnost nahrávací),
x
vlastnosti reproduktorové soustavy,
x
posluchači musí být vybráni náhodně z telefonních uživatelů, nesmí být znalí problematiky, musí být splněna podmínka, že se nezúčastnili žádného testu minimálně posledních 6 měsíců a nebyli přímo zapojeni do práce spojené s analýzou hodnocení výkonu telefonních okruhů.
6
2 Konverzační metody Laboratorní hovorové testy mají za cíl co možná nejlépe reprodukovat aktuální provozní podmínky podložené telefonními zákazníky. Za tímto účelem je nezbytné zvolit podmínky vhodné pro danou skupinu subjektů a provádět testy určeným způsobem. Důležité je, aby nastavená simulace v testu byla správně specifikovaná a měřená přesně před a po každém experimentu pomocí zařízení, které umožňuje vytáčení a zvonění. Přesné záznamy výstupu každého testu jsou následně ukládány.
2.1 Testovací místnosti Testované subjekty sedí v oddělených zvukotěsných místnostech blízko místa, ze kterého je experiment kontrolován. Objem místnosti je nejméně 20 kubických metrů s dobou ozvěny menší než 500 ms (běžně v rozmezí 200-300 ms) platné pro kapesní systémy jako jsou telefonní sluchátka nebo headsety a nejméně 30 kubických metrů pro handsfree systémy. Vnitřní rozměry místnosti jsou takové, že efekty typu stojatých vln jsou udržovány na minimu. Typický poměr je 5:4:3. Fyzická konstrukce místnosti by měla být taková, aby dostatečně utlumila zvuk z vnějšího prostředí. Místnosti jsou zařízeny a upraveny tak, aby vytvářely přirozené prostředí.
2.2 Problém rozhovoru Pozornost by měla být věnována tomu, aby rozhovory byly smysluplné a aby subjekty měly možnost využívat vlastnosti přenosu testovaného okruhu. Hlavním pravidlem je, že každý rozhovor by měl mít přirozený začátek i konec. Pokud to není opravdu nutné, nesmí být rozhovor přerušen uprostřed, s výjimkou "zjednodušených konverzačních testů".
2.3 Vhodnost subjektů Subjekty účastnící se konverzačních testů jsou vybrány náhodně ze skupiny lidí běžně používajících telefon, pokud: x
nebyly přímo zapojeny do práce spojené s analýzou hodnocení výkonu telefonních okruhů nebo podobné práce,
x
nezúčastnily se žádného subjektivního testu minimálně posledních 6 měsíců,
7
x
nezúčastnily se žádného konverzačního testu minimálně posledních 12 měsíců.
Pokud je skupina subjektů početně omezena, musí to být bráno v úvahu při vyhodnocování výsledků. Počty mužů a žen nehrají roli, pokud to nevyžaduje návrh experimentu. Subjekty jsou náhodně spárovány podle návrhu experimentu ještě před testem a musí zůstat ve stejném páru po celou dobu trvání experimentu.
2.4 Stupnice názorů na konverzaci Různé pětibodové stupnice kategorií hodnocení mohou být užity k různým účelům. Rozsah a formulace názorových stupnic, jak jsou předloženy subjektům při experimentu, hrají důležitou roli a měly by se držet standardu prověřeného již provedenými experimenty. Následující názorové rozvržení stupnice je nejpoužívanější pro ITU-T aplikace a měly by být použity stejné doslovné ekvivalenty, což ale vlivem překladu z angličtiny nejde naplnit beze zbytku. Škála pro ohodnocení kvality přeneseného hovorového signálu je v případě konverzačních testů pětistupňová: Tabulka 2: Škála MOS
Škála MOS 5
Excelent
vynikající kvalita
4
Good
dobrá kvalita
3
Fair
přijatelná kvalita
2
Poor
špatná kvalita
1
Bad
velmi špatná kvalita
Zdroj: Doporučení ITU-T RecommendationP.800, vlastní úprava
Všechny další statistické výpočty jsou prováděny na základě těchto čísel (1 – 5). Aritmetický průměr jakéhokoliv souboru těchto názorových bodů se nazývá průměrné hodnocení názoru na rozhovor a je reprezentováno symbolem "ୡ " (nebo tam, kde postfixový zápis není k dispozici, symbolemMOSc).
8
2.5 Stupnice potíží Odpovědi subjektů na níže uvedenou otázku jsou buď ANO, nebo NE. Měli jste vy, nebo váš partner nějaké potíže při mluvení či poslechu u tohoto spojení? Následně vedoucí experimentu přiřadí hodnocením následující body: Ano = 1
Ne = 0
Výsledné číslo (procento kladných odpovědí) je nazýváno procento potíží a značíme je symbolem %D. Odpovídající "trojčlenka" se značí symbolem d nebo %D = 100d.
2.6 Instrukce pro subjekty Instrukce se subjektům dávají při jejich první návštěvě. Obvykle se vybraným testovaným osobám pošle dopis, který obsahuje ne-technické informace o experimentu. Subjekty jsou dotázány, zda dopis četly a porozuměly mu. Jakékoliv nejasnosti jsou vysvětleny, je dán prostor pro případné otázky. Jsou jim ukázány zvukotěsné místnosti a jejich zařízení. Zároveň jsou informovány, kolik rozhovorů bude učiněno při této návštěvě. Při další návštěvě, nebo návštěvách jsou informace podávány v případě, že se instrukce liší od předchozích, např. jiný počet hovorů.
2.7 Sbírání dat Úrovně řeči a faktory aktivity mohou být získány z nahrávky rozhovoru, vše je ale měřeno on-line měřicími přístroji, které řídí počítač a data jsou uložena pro další analýzu. Vedoucí experimentu získá od každého dotázaného dvě odpovědi při každém měření. Podstatná data se skládají ze stupnice názorů na konverzaci a ze stupnice potíží. Tyto odpovědi mohou být získány použitím jakýchkoliv vyhovujících prostředků včetně tužky a papíru, elektronických tlačítek, klávesnic nebo počítačového terminálu s dotykovou obrazovkou.
9
3 Poslechové metody U poslechových testů nepředpokládáme, že dosáhnou stejného reálného standardu jako testy hovorové, i když omezení jsou po jisté stránce menší. Tato skutečnost je akceptována s tím, že musíme počítat se změnami okolností, které jsou v hovorových testech povoleny, a nalezneme jejich vyvážení. Doporučená[ITU-T P.800] zkušební metoda poslechového testu je "Absolute Category Rating" (ACR), která je dále popsána v kapitole 4. Hodnotící kategorie jsou aplikované na krátké skupiny vzájemně nesouvisejících vět, z nichž každá projde řadou standardních procesů. Tento způsob je osvědčen a je aplikován na analogové i digitální telefonní spojení a telekomunikační zařízení pomocí digitálních kodeků. V praxi vede k normě G.726 32kbit/s ADPCM, G.728, G.729 a G.72. Laboratoře v různých zemích provedly subjektivní testy stejnou metodou ve stejných fyzických podmínkách a na identických přenosových systémech, přičemž výsledky vykázaly velkou míru podobnosti. Další běžně užívané metody jsou: x
Quantal - Response Detectability Method,
x
Degradation Category Rating (DCR),
x
Comparison Category Rating (CCR)
x
a prahové metody.
Výsledky poslechových testů mohou být aplikované, ovšem s jistými rezervami. Prognóza odhadu pro konverzaci vede přes obousměrný systém, stejně jako spojení ve veřejné komutované telefonní síti. Platí, že splněny musí být následující podmínky: x
degradace řeči (například zpětná vazba a ozvěna),
x
degradace hovoru (například doba přechodu signálu a vlivu zkomolení řeči zařízením ovládaným hlasem).
10
4 Metoda absolutního ohodnocení – ACR „Při testu založeném na metodě ACR (Absolute Category Rating) jsou hodnoceny skupiny 2 - 5 na sobě nezávislých vět po přenosu telekomunikačním zařízením. Testované vzorky se hodnotí z různých hledisek. Následující škály ohodnocení jsou nejpoužívanější a také mají nejvyšší vypovídací hodnotu: Škála poslechové kvality (Listening-qualityscale) je stejná jako v případě konverzačních testů. Výsledkem ohodnocení testovaných vzorků je hodnota MOS (Mean Opinium Score) ['Aksamít', 2007].“
4.1 Nahrávání zdroje Kvůli potlačení nechtěné proměnlivosti zdroje řeči by měly být připraveny vzorky řeči s požadovanými standardními vlastnostmi, ať už nahrané nebo uložené. 4.1.1 Prostředí nahrávání Řečník by měl sedět v tiché místnosti o objemu 30 až 120 kubických metrů s dobou ozvěny menší než 500 ms (přednostně v rozmezí 200-300 ms). Úroveň hluku v místnosti musí být méně než 30 dBA s žádnými výraznými špičkami ve spektru. Charakteristika hluku v místnosti by měla být nahlášena v co nejpodrobnější možné formě, např. dBA, dlouhodobé spektrum, čas distribuce amplitudy. Je žádoucí nahrát 30 vteřinový vzorek hluku v místnosti pro detailní průzkum, pokud se to ukáže jako nezbytné. 4.1.2 Námět hovoru Náměty hovorů by měly být jednoduché, smysluplné, v krátkých větách, vybrané náhodně a snadno pochopitelné (ze současné ne-technické literatury nebo novin). Tyto věty by měly být sepsané do seznamu v náhodném pořadí tak, aby nebylo zřejmé žádné významové spojení po sobě jdoucích vět. Velmi krátké a velmi dlouhé věty by neměly být použity. Přečtení každé věty, by se mělo vejít do časového rámce 2 až 3 vteřin. Příklady vět jsou uvedeny v tabulce č. 3. Vedoucí experimentu se musí rozhodnout, kolik vět je potřeba v každé skupině na vytvoření vzorku rozhovoru. Doporučeny [ITU-T P.800] jsou minimálně dvě věty a maximálně pět. Důležitý je také časový interval mezi větami. Je vhodné nahrát 11
nejdelší skupinu, protože kratší skupiny je vždy možné získat kopírováním nebo opětovným přehráním z delších částí. Skupiny jsou kombinovány do seznamů, každý sestává z pěti nebo deseti skupin, takže kompletní seznam může být použit jako série vzorků vystavených stejnému zacházení, ale s poslechovou úrovní změněnou v případě, že je seznam opakován. Tabulka 3: Příklady témat rozhovoru
Budete muset být velmi potichu. Nebylo tam nic k vidění. Chtěl bych na chvíli mluvit s inspektorem. Potřeboval nějaké peníze? Zdroj: Doporučení ITU-T RecommendationP.800, vlastní úprava
4.1.3 Návrh experimentu Pro určené množství subjektů je test limitován délkou sezení bez známek únavy. Pokud je experiment příliš rozsáhlý na to, aby vyhovoval podmínkám v jednom sezení, pak je vhodné rozdělit jej do dvou nebo více částí. Ideálně by žádné sezení nemělo trvat déle než 20 minut a v žádném případě by nemělo přesáhnout 45 minut. 4.1.4 Nahrávací systém Nahrávací systém musí mít vysokou (studiovou) kvalitu. Nabízí se možnost použít jakýkoliv z následujících systémů: x
Tradiční dvoustopý magnetofon. Typ přístupu musí být řádný, přičemž doporučený je IEC. Vždy by měla být použita páska vysoké kvality.
x
Dvoukanálový audio procesor s vysoce kvalitním video rekordérem nebo přístroj Digital Audio Tape (DAT).
x
Počítačem řízený systém na ukládání digitálních dat.
Třetí možnost je nejlepší a univerzální, ale praktické důvody často nutí použít jinou možnost. V tom případě by jedna ze dvou stop měla být použita pro nahrávání řeči a druhá pro vložení kontrolních signálů na úrovni a frekvenci vybraných tak, abychom se vyhnuli přeslechům.
12
4.1.5 Řečníci Řečníci by měli vyslovovat věty plynule, ale ne dramaticky, neměli by mít žádné poruchy řeči, jako je koktání apod. Dále by měli mluvit tak nahlas, aby jim to bylo příjemné a byli schopni tuto úroveň dlouhodobě udržet.
4.2 Procedura poslechového testu Quantal - Response DetectabilityMethod, která je vhodná pro hodnocení prahové hodnoty spolehlivosti kvality a jejích přidružených pravděpodobností. 4.2.1 Poslechové prostředí Poslechová místnost by měla splňovat požadavky[ITU-T P.800] tiché místnosti o objemu 30 až 120 kubických metrů s dobou ozvěny menší než 500 ms (přednostně v rozmezí 200-300 ms). Úroveň hluku v místnosti musí být méně než 30 dBAa nesmí obsahovat žádné výrazné špičky ve spektru. Charakteristika hluku v místnosti by měla být nahlášena v co nejpodrobnější možné formě, např. dBA, dlouhodobé spektrum, čas distribuce amplitudy. Je žádoucí nahrát 30vteřinový vzorek hluku v místnosti pro detailní průzkum, pokud se to ukáže jako nezbytné. Doporučuje se [ITU-T P.800], aby úroveň hluku a spektrum byly změřeny nejméně dvakrát, na začátku a na konci experimentu. Jakékoliv výrazné rozdíly v těchto dvou měřeních musí být vyhodnoceny, protože mohou změnit výsledky experimentu. 4.2.2 Poslechový systém Ať už je vybrán jakýkoliv poslechový systém (např. místní telefonní systém, systém s reproduktory), měl by být kalibrován dle norem (např. norma P.64) s kompletně popsanou charakteristikou citlivosti/frekvence. Doporučuje se [ITU-T P.800], aby přijímající charakteristika citlivosti/frekvence spojení byla změřena nejméně dvakrát, na začátku a na konci experimentu. Jakékoliv výrazné rozdíly v těchto dvou měřeních musí být vyhodnoceny, protože mohou změnit výsledky experimentu.
13
4.2.3 Posluchači Subjekty účastnící se poslechových testů jsou vybrány náhodně ze skupiny lidí používajících telefon, pokud: x
nebyli přímo zapojeni do práce spojené s analýzou hodnocení výkonu telefonních okruhů, nebo podobné práce,
x
nezúčastnily se žádného subjektivního testu minimálně posledních 6 měsíců,
x
nezúčastnily se žádného konverzačního testu minimálně posledních 12 měsíců.
Pokud je skupina subjektů početně omezena, musí to být bráno v úvahu při vyhodnocování výsledků. 4.2.4 Názorová stupnice Různé pětibodové stupnice kategorií hodnocení mohou být užity k různým účelům. Rozsah a formulace názorových stupnic, jak jsou předloženy subjektům při experimentu, hrají důležitou roli a měly by se držet standardu prověřeného již provedenými experimenty. Následující názorové rozvržení stupnice je nejpoužívanější pro ITU-T aplikace a měly by být použity stejné doslovné ekvivalenty, což ale vlivem překladu z angličtiny nejde naplnit beze zbytku. Toto je hodnocení kategorie získané od všech subjektů na konci každého rozhovoru: a) Stupnice kvality poslechu Tabulka 4: Stupnice kvality poslechu
Kvalita řeči
Body
vynikající kvalita
5
dobrá kvalita
4
přijatelná kvalita
3
špatná kvalita
2
velmi špatná kvalita
1
Zdroj: Doporučení ITU-T P.800, vlastní úprava
14
Součet vypočtený z bodových ohodnocení (průměrné skóre kvality poslechu nebo jednodušeji názorové skóre) je představováno symbolem MOS. b) Stupnice úsilí při poslechu Záhlaví stupnice úsilí při poslechu je obzvláště významné. Bez něj by mohly být ostatní popisy nepochopeny. Tabulka 5: Stupnice úsilí při poslechu
Úsilí potřebné k pochopení významu vět
Body
Největší možné uvolnění; žádné úsilí není potřeba.
5
Pozornost nutná; žádné znatelné úsilí není potřeba.
4
Potřeba mírného úsilí.
3
Je zapotřebí značného úsilí.
2
Žádný význam nebyl pochopen i při maximálním úsilí.
1
Zdroj: Doporučení ITU-T P.800, vlastní úprava
Součet vypočtený z bodových ohodnocení (bodový průměr úsilí při poslechu) je představováno symbolem MOSle. c) Stupnice hodnocení hlasitosti Tabulka 6: Stupnice hodnocení hlasitosti
Preference hlasitosti
Body
Mnohem hlasitější
5
Hlasitější
4
Preferováno
3
Tišší
2
Mnohem Tišší
1
Zdroj: Doporučení ITU-T P.800, vlastní úprava
Součet vypočtený z bodových ohodnocení je představován symbolem ୪୮.
15
4.2.5 Instrukce pro subjekty před experimentem Instrukce musí být dávány (v případě potřeby ústně) ještě před zahájením experimentu. Účastníkům by se neměly dávat žádné předběžné vzorky, jako je např. nejlepší a nejhorší možný ze seznamu, nebo vyčerpat rozsah vět, které mohou očekávat k poslechu. Před začátkem testu by mělo být vyhrazeno dostatek času pro zodpovězení případných otázek ze strany subjektů. Otázky ohledně procedury nebo významu instrukcí by měly být zodpovězeny, ne však otázky technického typu. Navrhuje se na tyto otázky odpovídat stylem: "Nemůžeme Vám o tom říci nic, dokud nebude experiment ukončen". Příklady instrukcí pro subjekty Tabulka 7: Příklady instrukcí pro subjekty
POSLECHOVÝ EXPERIMENT ČÍSLO ... Během experimentu uslyšíte v telefonním sluchátku krátkou skupinu vět a vyjádříte svůj názor na řeč, kterou uslyšíte. Před Vámi na stole je krabička s pěti barevnými tlačítky. Až se rozsvítí všechny žárovky uslyšíte ... věty. Poslechněte si je a po zhasnutí žárovek zmáčkněte příslušné tlačítko značící váš názor podle následující stupnice. Úsilí potřebné k pochopení významu vět
Body
Největší možné uvolnění; žádné úsilí není potřeba
5
Pozornost nutná; žádné znatelné úsilí není potřeba
4
Potřeba mírného úsilí
3
Je zapotřebí značného úsilí
2
Žádný význam nebyl pochopen i při maximálním úsilí
1
Tlačítko, které zmáčknete, se na chvíli rozsvítí. Potom žárovka zhasne a bude následovat krátká pauza, než se znovu rozsvítí všechny žárovky pro další skupinu ... vět. Delší pauza bude po každých … skupinách (každá vyžaduje vyřčení názoru). Dohromady bude ... skupin při tomto sezení a podobný počet při následujícím. Děkujeme Vám za vaši pomoc při tomto experimentu. Zdroj: Doporučení ITU-T P.800, vlastní úprava
16
5 Metoda detekovatelnosti odezvy Metoda detekovatelnosti odezvy neboli Quantal-Response Detectability Method. „Tato metoda je ideální pro získávání informací o přítomnosti, či nepřítomnosti některých rušivých vlivů (například ozvěny), které se mohou vyskytnout v hovorovém signálu. Škála ohodnocení je v případě testů vytvořených na základě této metody většinou třístupňová['Aksamít', 2007].“ Obsahuje stupně zobrazené v tabulce č. 4. Tabulka 8: Škála ohodnocení
Škála ohodnocení A
slyšitelné - rušící (Objectionable)
B
slyšitelné - nerušící (Detectable)
C
nerušící (Not Detectable)
Zdroj: Aksamit, 2007, vlastní úprava
Kde B je myšleno jako střed mezi „nerušící“ a „slyšitelné - rušící". Stupnice tohoto druhu, obvykle se třemi možnostmi, mohou být použity v různých testech odezvy, například stupnice uvedená výše může být použita tam, kde je podnětem ozvěna, odraz, zpětná vazba nebo rušivé tóny, zatímco přeslechy a možná ozvěna za určitých okolností mohou být posuzovány na stupnici Srozumitelné (Intelligible) – Detekovatelné (Detectable) – Nedetekovatelné (Not Detectable). Někdy je přípustné považovat tato hlasování jako názorové body s hodnotami 2, 1, 0 odzadu a nakládat s nimi stejným způsobem jako s poslechovými nebo konverzačními názorovými body. Toto ale většinou nepostačuje, protože rozhodnutí na takové stupnici detekovatelnosti (viz výše) nejsou ve skutečnosti ekvivalenty odpovědí na spojité stupnici – jako je např. hlasování na stupnici "hodnocení hlasitosti" (viz bod 4.2.4). Jinými slovy, spornost, nebo srozumitelnost se na rozdíl od detekovatelnosti liší i v druhu, nejen ve stupni. Z tohoto důvodu je užitečnější využít metodu analýzy k vyjádření pravděpodobnosti odpovědi podle každé možnosti zvlášť, jako funkce nějaké reálné proměnné. Aktuální postoj k experimentu tohoto typu se podobá testům poslechu, ovšem s určitými rozdíly. Především se doporučuje[ITU-T P.800], aby první prezentace signálu v každém běhu byla na vysoké poslechové úrovni, takže posluchač nemá pochyby, jaký signál je kandidátem pro jeho rozhodnutí. Tam, kde je přítomna zpětná vazba nebo 17
ozvěna, musí subjekt zároveň mluvit i poslouchat. Šum, slábnutí a jiné rušení jsou někdy zjištěny pomocí odpovědí na stupnici s větší škálou možností. Například: Tabulka 9: Rušení
Rušení Neslyšitelné Téměř neslyšitelné Lehké Mírný Spíše hlasitý Hlasitý Nesnesitelný
A B C D E F G Zdroj: Doporučení ITU-T P.800, vlastní úprava
Tyto stupnice jsou podobného typu jako stupnice hodnocení hlasitosti a mohou být zpracovány analogicky.
18
6 Metoda ohodnocení degradace - DCR „Metoda ACR není vhodná pro testování kvalitních hovorových signálů, neboť není dostatečně citlivá. Citlivější metodou pro tyto signály je ohodnocení degradace DCR (Degradation Category Rating). Metody tohoto typu jsou založeny na porovnávání testovaného signálu se signálem referenčním ['Aksamít', 2007].“
6.1 Prezentace podnětu Podněty jsou prezentovány posluchačům v párech (A-B), nebo opakovaných párech (A-B-A-B), kde A je kvalita referenčního vzorku a B je stejný vzorek zpracovaný systémem. Účelem referenčního vzorku je zachytit každý posudek od posluchačů. Některé "nulové páry" (A-A), nejméně jeden pro každého řečníka, jsou zahrnuty pro kontrolu kvality zachycení. Použití reference a subjektivního posouzení s ohledem na tuto referenci je celkem běžný postup v psychoakustice. Toto směřuje k dobré citlivosti pro celkové hodnocení od posluchačů. Vzorky A a B by měly být odděleny 0.5 – 1 vteřinou. V provedení s opakovaným párem (A-B-A-B) by mělo být oddělení mezi dvěma páry 1 – 1.5 vteřiny. Vliv pořadí pozorovaný v jedno-vzorkových poslechových testech (např. ACR) není pozorován u DCR metody. Tudíž může být použito pouze jedno náhodné pořadí prezentace. Z tohoto důvodu budou základní testy a referenční podmínky osmkrát vyšší než normální podmínky (čtyři řečníci × dva vzorky).
6.2 Vzorky řeči Každá konfigurace vzorků je hodnocena nejméně čtyřmi řečníky. Každý vzorek by měl být tvořen dvěma větami oddělenými přibližně 0.5 vteřinami ticha. Tyto dva vzorky (S1, S2), tedy čtyři různé věty, by měly být vybrány ze širšího souboru tvořeného foneticky vyváženými větami, takže průměrné skóre získané hodnocením referenčních obvodů je pro tyto věty přibližně stejné jako skóre získané ze širšího souboru. Ve výsledku se soubor skládá z osmi vzorků definovaných následovně: x
řečník T1 čte vzorky S1, S2;
x
řečník T2 čte vzorky S1, S2;
x
řečník T3 čte vzorky S1, S2; 19
x
řečník T4 čte vzorky S1, S2.
Následkem je opakování dvou vzorků během testu, což je všeobecně uznáváno za nekritický bod metody, při němž je degradace spočtena s ohledem k referenci. Zvláště výhodné je toto měření pro kvalitní telefony, kde je srozumitelnost řeči téměř dokonalá. Použití různých vzorků pro každou konfiguraci může být jedním z důvodů pro nedostatek citlivosti u ACR metody.
6.3 Instrukce k testu Respondenti by měli být poučeni, aby hodnotili podmínky podle pětibodové stupnice kategorie degradace (snížení) podobné následující: Tabulka 10: Škála ohodnocení
Škála ohodnocení 5
Degradace je neslyšitelná (Degradation is inaudible)
4
Degrace je slyšitelná, ale neruší (Degradation is audible but not annoying)
3
Degradace příliš neruší (Degradation is slightly annoying)
2
Degradace je rušivá (Degradation is annoying)
1
Degradace je velmi rušivá (Degradation is very annoying)
Zdroj: Doporučení ITU-T P.800, vlastní úprava
Veličina spočtená ze skóre (průměrné názorové skóre u degradace) je reprezentována symbolem DMOS.
20
7 Metoda ohodnocení rozdílů – CCR Střídání DCR procedurou nazvanou Comparison Category Rating (CCR). Jak DCR, tak i CCR metoda srovnává systém s fixovaným odkazem vysoké kvality (v případě CCR je stupnice od "Mnohem lepší" do "Mnohem horší"). Tato procedura může být zvláště vhodná pro systémy, které zvýší kvalitu vstupní řeči (například potlačí šum systému). Metoda Comparison Category Rating (CCR) je podobná metodě Degradation Category Rating (DCR). Posluchačům jsou předvedeny dvojice vzorků řeči při každém pokusu. U metody DCR je referenční vzorek (nezpracovaný) předveden nejdříve, poté je následován stejným vzorkem řeči, který byl zpracován jednou ze zmíněných technik. U DCR metody hodnotí posluchači vždy množství, to znamená, jak moc je zpracovaný (druhý) vzorek degradován relativně ke vzorku nezpracovanému (prvnímu). U CCR metody je pořadí zpracovaných a nezpracovaných vzorků vybráno náhodně pro každý pokus. V polovině pokusů je nezpracovaný vzorek následován zpracovaným. U zbývajících pokusů je pořadí obráceno. Posluchači používají následující stupnici k hodnocení kvality druhého vzorku: Tabulka 11: Škála ohodnocení
Škála ohodnocení 3
O mnoho lepší (Much better)
2
Lepší (Better)
1
O málo lepší (Slightly better)
0
Přibližně stejné (About the same)
-1
O málo horší (Slightly worse)
-2
Horší (Worse)
-3
O mnoho horší (Much worse)
Zdroj: Doporučení ITU-T P.800, vlastní úprava
21
Ve výsledku poskytují posluchači dvě hodnocení s jedním výsledkem: "Který vzorek má lepší kvalitu?" a "O kolik?". Metody DCR a CCR jsou obzvláště užitečné pro odhad výkonu telekomunikačních systémů, u nichž byl vstup porušený hlukem v pozadí. Avšak výhodou metody CCR oproti metodě DCR je možnost odhadnout zpracování řeči, které její kvalitu buď degraduje, nebo zlepšuje. Veličina spočtená z hodnocení je značená symbolem CMOS. 7.1.1 Reference kvality Referenční (nezpracovaný) vzorek je předveden buď před zpracovaným degradovaným signálem, nebo po něm. Referenční vzorek je generován pomocí stejného řečníka a tématu řeči, jež bylo použito u zpracovaného vzorku. Tento referenční vzorek bude poškozen stejným hlukem (pokud nějaký byl) a zpracován stejnými předběžnými procesy jako je charakteristika vysílače. Proto bude jiná reference kvality pro každou z podmínek testu. 7.1.2 Předvádění posluchačům Každý ze vzorků řeči je předveden posluchačům pomocí podmínky reference kvality a pomocí testovacího kodeku. Navíc by měl být "nulový pár" zahrnut pro každou referenci kvality. Při těchto pokusech je reference kvality předvedena dvakrát. Posluchači by měli posoudit kvalitu druhého vzorku relativně ke kvalitě prvního vzorku. Tento posudek je proveden na sedmibodové stupnici.
22
7.1.3 Instrukce pro subjekty Tabulka 12: Instrukce pro posluchače
INSTRUKCE PRO POSLUCHAČE "Hodnocení vlivu různých hluků prostředí na kvalitu různých telefonních systémů" V tomto experimentu uslyšíte dvojice vzorků řeči, které byly nahrány pomocí různých experimentálních telefonních přístrojů. Vzorky si poslechnete pomocí telefonního sluchátka před Vámi. Co uslyšíte, bude jedna dvojice vět, krátká pauza a další dvojice vět. Ohodnotíte kvalitu druhé dvojice vět v porovnání s kvalitou první dvojice vět. Poslouchejte pozorně každou dvojici vzorků. Pak, až se rozsvítí zelená žárovka, zaznamenejte prosím váš názor na kvalitu druhého vzorku relativně ke kvalitě prvního vzorku pomocí následující stupnice. Kvalita druhého v porovnání s kvalitou prvního je: Škála hodnocení
Body
O mnoho lepší (Much Better)
3
Lepší (Better)
2
O málo lepší (Slightly Better)
1
Přibližně stejné (About the same)
0
O málo horší (Slightly Worse)
-1
Horší (Worse)
-2
O mnoho horší (Much Worse)
-3
Budete mít pět vteřin k zaznamenání svého názoru stisknutím odpovídajícího tlačítka. Před další dvojicí vět bude krátká pauza. Začneme krátkým nácvikem, abyste se seznámili s procedurou testu. Reálné testy budou trvat 10 až 15 minut. Zdroj: Doporučení ITU-T P.800, vlastní úprava
23
7.1.4 Analýza dat Analýze dat z CCR musí být věnována dostatečná pozornost. Polovina pokusů pro jakékoliv testové podmínky je předváděna v pořadí „nezpracovaná, zpracovaná“ a druhá polovina je předvedena v opačném pořadí. Jednoduché zprůměrování numerických hodnot by mělo přinést CMOS hodnotu přibližně 0 pro všechny podmínky. Pokud je pořadí předvedení „zpracované, nezpracované“, potom musí být znaménko numerické hodnoty obráceno (tzn. -1 → 1, -2 → 2, ... , 2 → -2, 1 → -1) [ITU-T P.800]. Překódované hodnocení může být použito ve výpočtu CMOS, u standardních derivací apod. Výsledky jsou předvedené v pořadí „nezpracované, zpracované“. Příslušná analýza odchylky nebo jiný statistický test může být také provedena na překódovaném hodnocení. Avšak názorové hodnocení porovnání nemusí být stupnice s lineárním intervalem, z čehož vyplývá, že statistiky pro řadové stupnice mohou být aplikovány místo nich.
24
8 Prahová metoda Poslechové testy jsou přímo aplikované v odhadu fyzických přenosových systémů, jež jsou v podstatě jednosměrné. Příklady zahrnují vysílací okruhy, místní rozhlasy a nahrané sdělení systému, které může být poslechově degradováno přitomným zkreslním a šumem. Pomocí přímého porovnání přenosového systému s referenčním je možné odhadnout výkon testovaného systému v otázkách charakteristiky degradace referenčního systému. Tento může být upraven a nastaven na definované hodnoty. Příkladem takové charakteristiky je poměr signálu a hluku.
8.1 Procedura testování Je použita pouze poslechová procedura. Dvojice signálů skládajících se z referenčního signálu a testovacího signálu je předvedena posluchačům, kteří jsou následně požádáni, aby označili, který ze signálu má podle nich vyšší kvalitu (preferenční hodnocení). Subjektivní rovnost je definována jako referenční hodnota odpovídající průniku regresní křivky preferenčního hodnocení na 50% preferenční úrovni. Příklad ekvivalentního SNR získaného pomocí hypotetických preferenčních hodnocení je zobrazen na obrázku č. 1[ITU-T P.800]. Obrázek 1: SNR reference signal (dB)
Zdroj: Doporučení ITU-T P.800, vlastní úprava
8.2 Předvedení signálů Referenční signál A a testovací signál B jsou sestaveny ve stejném počtu A-B dvojic, B-A dvojic a předvedeny v náhodném pořadí. Některé úrovně degradace, 25
rozložené například v 2dB intervalech, jsou vneseny v referenční cestě, takže rozsah preferenčních hodnocení se rozšíří z 20 % na 80 %, kde 50% preference leží uprostřed rozsahu degradace. Časový diagram prezentace je zobrazen na obrázku 9.2 [ITU-T P.800]. Obrázek 2: Časový diagram prezentace
Zdroj: Doporučení ITU-T P.800, vlastní úprava
Subjekt musí udělat rozhodnutí a odpovědět pomocí "A je lepší" nebo "B je lepší"(vynucený výběr). Odpověď "A se rovná B", nebo "Žádný rozdíl" je zakázána. Prezentace by měla trvat asi šest minut, aby u posluchačů nehrála roli únava. Více poslechových vzorků může být předvedeno po dostatečném odpočinku. Replikace (opakování stejných prezentací) by měly být nejméně dvě, doporučují se čtyři nebo pět [ITU-T P.800].
8.3 Zdroje řeči Je nezbytné použít krátké věty namluvené alespoň dvěma muži a dvěma ženami, nejlépe čtyřmi nebo šesti, a každý řečník musí říkat různé věty. Délka řeči by měla být 2.5 - 5 vteřin s ohraničením méně než 10-15 vteřin pro hudební signál. Cvakání na začátku a konci vzorků není přípustné. Lineární mikrofon s dostatečnou šířkou pásma by měl být použit k nahrání zdrojových signálů ve zvukotěsné místnosti s okolním hlukem menším než 20 dBA a časem odrazu menším než 0.3 vteřin v pásmu 125 - 8000 Hz. Pokud jsou použity digitální přístroje, úroveň kvantizačního šumu by měla být menší než úroveň šumu u 14 bitového lineárního PCM[ITU-T P.800].
8.4 Poslechové prostředí Pro poslechový test by měl být použit Hi-Fi systém. Pokud je poslech umožněn pomocí reproduktorů, měly by tyto reproduktory být studiové kvality. Pokud jsou použita sluchátka, je preferován stereofonní poslech. Šířka pásma by měla být minimálně taková jako u testovaného systému. 26
8.5 Posluchači Ačkoliv je preferováno, aby byli posluchači vybíráni podle popisu u metody ACR, není to striktní podmínka u testu porovnávání dvojic. Pokud je účelem poslechového testu získat názory od netrénovaných posluchačů, pak jsou netrénované subjekty nezbytné. Avšak pokud to účelem testu není, potom mohou být použiti trénovaní posluchači a spolehlivost poslechových testů může být zvýšena počtem replikací pro každého posluchače. Minimální počet posluchačů je šest, nejlépe však dvanáct a více. Několik subjektů může poslouchat zároveň, ale musí být zajištěno, že jejich odpovědi jsou získány nezávisle.
27
9 Faktory ovlivňující výsledky subjektivního hodnocení „Na základě empirických zkušeností získaných z testů subjektivního hodnocení bylo zjištěno, že se výsledky jednotlivých hodnotitelů mohou výrazně lišit v závislosti na okolním šumu, na stavu sluchových orgánů hodnotitelů, na únavě hodnotitelů, na místě konání testu apod. ['Aksamít', 2007].“
9.1 Okolní šum „Jestliže je hladina okolního šum nižší o méně než 12 dB, stává se hovorový signál naprosto nesrozumitelným [GAN, R. Z. a kol., 2004, str. 847–859].“ Z tohoto důvodu je doporučováno, aby hladina šumu byla pokud možno co nejnižší, nejlépe by měla být hladina šumu nižší o více než 60 dB oproti hodnocenému vzorku. Díky této hodnotě se docílí srozumitelnosti vzorků pro subjekty.
9.2 Stav sluchových orgánů Stárnutím dochází k různým poruchám a poškozením sluchových orgánů. Např. velmi významnou poruchou sluchu je chronické akustické trauma [LÍK, J. a kol., 2002]. Akustické trauma vznikne vlivem krátkodobého hlukového impulsu o vysoké intenzitě v rozmezí 100 - 140 dB (např. třesky, výstřely apod.) a obranné mechanismy, které jsou ve vnitřním uchu, nedokáží pro krátkost hlukového impulsu reagovat. Změnou tlaku tak může dojít k mechanickému poškození smyslové buňky, která se nalézá ve vnitřním uchu anebo také i části středního ucha jako je bubínek nebo středoušní kůstky. Takto postižené osoby můžou pociťovat šelest nebo zalehnutí ucha, bohužel trvalá částečná ztráta zůstává a pohybuje se obvykle nad 4 kHz.
9.3 Místo konání testu „Doporučení vyžadují konání testu ve zvukotěsné místnosti větší než 20 (30) m3. Tato místnost by měla být také bezodrazová. V menších místnostech může dojít ke zkreslení zvuku vlivem odrazu ['Aksamít', 2007].“
28
PRAKTICKÁ ČÁST 10 Metodika práce Pro dosažení stanoveného cíle práce, kterým je zjištění subjektivních prahů vnímání u testovaných osob za předpokladu použití subjektivních metod měření kvality přenosu hlasu, byly stanoveny následující metodiky práce: x zjištění informací o subjektivních metodách měření kvality přenosu hlasu pro odhad subjektivních prahů, x zajištění subjektů pro připravovaný experiment, x příprava vzorků, x zajištění dotazníku vztahujících se k experimentu, x provedení samotného experimentu, x vyhodnocení dosažených výsledků, x diskuse výsledků. Při prováděném experimentu a vypracování této práce byl použit program Microsoft Office Word 2010, Microsoft Office Excel 2010 a statistický a matematický program Matlab.
29
11 Dotazníky pro vyplnění při experimentu Pro získání informací z experimentu, měření kvality přenosu hlasu pro odhad subjektivních prahů, byly využity dva typy dotazníků. Dotazníky byly vždy rozdány respondentům a po skončení experimentu posbírány, aby byla zajištěna zpětná vazba pro vyhodnocení experimentu. První dotazník, který byl respondentům rozdán, obsahoval 8 tabulek s celkem 128 vzorky a místem pro jejich odpovědi. Respondenti v levém horním rohu dotazníku vyplnili své jméno, čas a datum provádění experimentu. V pravém horním rohu dotazníku byly uvedeny možnosti odpovědí, které mohli respondenti v průběhu experimentu volit, jednalo se o následující možnosti: x
5 = excelent;
x
4 = good;
x
3 = fair;
x
2 = poor;
x
1 = bad.
Druhý dotazník, který byl respondentům při experimentu rozdán, byl obdobného charakteru, také obsahoval 8 úzkých tabulek s celkem 128 vzorky a místem pro jejich odpovědi. Opět měli respondenti uvést své jméno, čas a datum provádění experimentu. Jediným čím se druhý dotazník lišil, byly možnosti odpovědí, tentokrát již respondenti nevybírali ze stupnice 5 – 1 (od nejlepší po nejhorší), ale naopak měli k dispozici následující možnosti: x
A = vyhovuje, kvalita v pohodě;
x
B = nelíbí, ale na stížnost to není;
x
C = hrůza, budu si stěžovat a/nebo vyměním operátora.
Oba dotazníky jsou uvedeny v příloze práce, a to dotazník č. 1 v příloze č. 1 a dotazník č. 2 v příloze č. 2. Aby byly výsledky testu správně zpracovány, byl použit program Matlab a Microsoft Office Excel 2010, s využitím kontingenčních tabulek a grafů pro grafické znázornění zjištěných výsledků.
30
12 Popis přípravy experimentu Pro místo konání experimentu byla použita laboratorní místnost, používaná výzkumnou skupinou K13138 na FEL ČVUT. Test byl proveden dvakrát, poprvé v roce 2008, kdy se ho zúčastnilo 11 subjektů (pouze mužů), kteří byli s daným experimentem seznámeni. Druhý test byl proveden 7. dubna 2010, kterého se zúčastnilo 10 subjektů. Tentokrát se opět jednalo spíše o muže. Přesněji se testu zúčastnilo 9 mužů a jedna žena, všichni účastníci byli v rozmezí 24 – 25 let. Oslovení jsou studenty Českého vysokého učení v Praze. Jednotlivým účastníkům experimentu byly rozdány potřebné pomůcky. Jednalo se o dvě propisky, a to pro případ, že by jedna přestala psát. Dále jim byly také rozdány formuláře (dotazníky), do kterých respondenti zapisovali svá hodnocení. Také bylo nutno připravit 128 hlasových vzorků o různé kvalitě, které se pouštěly po několika vteřinách. Samotný výzkum probíhal v laboratoři, která byla zvukově izolována. Místnost, ve které byl prováděn test, musela dostatečně tlumit zvuk z vnějšího prostředí, taktéž musela být bezodrazová. Tyto místnosti jsou zařízeny a upraveny tak, aby vytvářely přirozené a zároveň pohodlné prostředí pro účastníky experimentu. Při zahájení a samotném testu muselo být v místnosti naprosté ticho, aby subjekty byly schopny správně ohodnotit jednotlivé hlasové vzorky. Laboratoř byla vybavena kvalitní výkonnou reproduktorovou soustavou propojenou s přehrávacím zařízením ve vedlejší místnosti. Před samotným zahájením testu byly účastníkům předány veškeré informace týkající se samotného experimentu. Subjekty musely být jasně srozuměny s tím, co se od nich vyžaduje. Každý test trval okolo 15 minut, mezi kterými byla desetiminutová přestávka, aby si dotazovaní odpočinuli a byli připraveni na druhý test.
31
13 Měření Experimentu se v roce 2008 zúčastnilo jedenáct subjektů a v roce 2010 deset subjektů. Celkově byl experiment prováděn na 21 respondentech. Cílem samotné práce bylo zjistit, zda byly oslovené subjekty spokojené s kvalitou přenosu hlasu, a to za použití subjektivních metod měření. Jak již bylo zmíněno, pro toto měření byly použity dva testy, které obsahovaly 128 vzorků. Jednotlivé vzorky s určitou kvalitou, byly posuzovány právě danými subjekty, kteří je hodnotili stupnicí od 1 do 5 v prvním testu. Ve druhém testu byly vzorky hodnoceny stupnicí A, B a C.
13.1 První test Před zahájením testu byly subjekty upozorněny, že budou neustále pod dohledem kamery, budou snímány mikrofonem a v případě, že by některý z respondentů narušil atmosféru testu (např. smích, kašel apod.) bude muset neprodleně opustit laboratorní místnost, aby nebyl ovlivněn průběh testu u zbylých respondentů. Před každým vzorkem byl puštěn zahajovací tón, který upozorňoval subjekty, aby se připravily na poslech a zapsání svého hodnocení. Již v popisu přípravy testu, bylo zmíněno, že první test probíhá přibližně 15 minut, během nichž bylo subjektům puštěno 128 vzorků, ke kterým zapisovaly svá hodnocení. Hodnocení mělo stupnici od 1 do 5 a každému stupni odpovídalo hodnocení kvality slyšeného zvuku. Tabulka 13: Škále MOS u prvního testu
Škála MOS 5
Excelent
vynikající kvalita
4
Good
dobrá kvalita
3
Fair
přijatelná kvalita
2
Poor
špatná kvalita
1
Bad
velmi špatná kvalita
Zdroj: Doporučení ITU-T RecommendationP.800, vlastní úprava
13.2 Druhý test Jelikož subjekty byly již upozorněny na to, co je během testu povolené a co nikoli, byl po přestávce a odpočinku subjektů, zahájen druhý test. Zmíněno bylo pouze 32
to, že druhý test probíhá shodně s prvním. Upozorněno bylo také na to, že se v druhém testu změnila stupnice hodnocení, a to z 1 až 5 na A až C. Tabulka 14: Škála MOS u druhého testu
Škála MOS A
Vyhovuje, kvalita je v pohodě
B
Nelíbí, ale na stížnost to není
C
Hrůza, budu si stěžovat a/nebo vyměním operátora
Zdroj: Doporučení ITU-T RecommendationP.800, vlastní úprava
13.3 Způsob vyhodnocování výsledků Výsledky hodnocení všech 128 vzorků od jedenácti subjektů, kteří se účastnili experimentu v roce 2008, a deseti subjektů zúčastněných v roce 2010 byly přepsány zvlášť do dvou textových souborů. První z textových souborů byl pojmenován jako znamky.txt a obsahuje hodnocení subjektů z prvního testu. Sloupce souboru znamky.txt zastupují jednotlivé osoby, které se účastnili experimentu. Subjektivní hodnocení kvality slyšeného zvuku od každého respondenta je obsaženo v řádcích souboru a to celkem na 128 vzorcích (resp. 128 řádcích daného souboru). Kvalita slyšeného zvuku byla hodnocena respondenty na stupnici 1 – 5, přičemž známka „5“ vyjadřovala nejlepší kvalitu slyšeného zvuku a naopak známka „1“ kvalitu nejhorší. Druhý textový soubor byl pojmenován pismena.txt a obsahoval hodnocení kvality slyšeného zvuku, který byl ohodnocován písmeny A, B nebo C. Přičemž písmeno „A“ vyjadřovalo nejlepší kvalitu slyšeného zvuku a naopak písmeno „C“ vyjadřovalo nejhorší kvalitu slyšeného zvuku. Podobně jako tomu bylo v prvním z textových dokumentů i zde byly jednotlivé výsledky přepsány do souboru, tentokrát již souboru písmena.txt. Jednotliví respondenti byli opět zaznamenáni v sloupcích souboru a jejich subjektivní hodnocení kvality přehrávaných zvuků u 128 vzorků v řádcích souboru. Avšak pro potřeby výpočtů, bylo nutné hodnocení založené na základě písmen A, B a C převést do počítačem zpracovatelné podoby, proto byly písmena nahrazena číslicemi 1, 2 a 3.
33
Dva textové soubory (znamky.txt a pismena.txt) byly zpracovány z důvodu, aby se prokázalo, že současná škála MOS, která hodnotí kvalitu přenosu hlasu na pětistupňové stupnici (resp. od 1 – 5, viz soubor znamky.txt) je příliš jemná a nevyhovující pro využití telefonními operátory. Proto byla zpracována tří škálová stupnice (resp. A, B a C, viz soubor písmena.txt), která je pro telefonní operátory lépe využitelná, a to především z pohledu její jednoduchosti. Všechny matematické výpočty byly realizovány prostřednictvím programu Matlab, které jsou uvedeny v souboru m-filu pod názvem zpracovani_2008.m. Tento soubor obsahuje zdrojový kód, který byl použit pro výpočet hranic mezi jednotlivými kategoriemi. První část zdrojového kódu obsahuje načtení již vytvořených souborů znamky.txt a pismena.txt, aby s nimi bylo možné dále pracovat. Poté byl vytvořen průměr skrz osoby (odhad střední hodnoty známky nahrávky) a počet, neboli četnost A, B a C pro danou nahrávku. Následně byla provedena granularita neboli rovnoměrné rozdělení osy „x“ po hodnotě 0,2 na intervalu od 1 do 5, čímž se docílilo stanovení jednotlivých binů na daném intervalu (např. 1,0; 1,2; 1,4 … 4,8; 5,0). Poté byla vytvořena střední hodnota intervalů, které byly binem pokryty. Nato byla zaokrouhlena hodnota x(I) do správného binu dle intervalů a vytvořena kompenzace nerovnoměrného zastoupení nahrávek různé kvality (procentuální zastoupení). Rozložení každé kategorie zvlášť bylo aproximováno částí Gaussova normálního rozdělení. Byla vytvořena funkce squaresumnormpdf, která vrací jednu hodnotu odpovídající skutečnosti, respektive jak velké chyby se dopouštíme, proložíme-li naměřený histogram dat Gaussovým rozdělením s konkrétně zvolenými parametry (střední hodnota, směrodatná odchylka a multiplikativní konstanta, upravující výšku maxima rozložení). Funkce je vytvořena pro potřeby metody nejmenších čtverců, sčítá tedy kvadráty odchylek jednotlivých hodnot histogramu od hodnot rozdělení se zvolenými parametry. Celá metoda nejmenších čtverců je pak realizována kombinací standardní
funkce
fminsearch
v kombinaci
s vytvořenou
squaresumnormpdf.
Fminsearch hledá minimum funkce, neboli snaží se najít takové parametry Gaussova rozdělení, aby celková chyba byla nejmenší.
34
Aproximace Gaussovým rozdělením byla zvolena z podstaty problému (symetrické náhodné odchylky od střední hodnoty). Přestože je zřejmé, že naměřené hodnoty nemůžou mít přesně charakter Gaussova rozdělení (hodnoty známek hodnocení jsou z obou stran ohraničené), tak tím, že používáme metodu nejmenších čtverců, neboli aproximujeme pouze přítomné body a nezajímáme se o odchylky v hodnotách, které jsou mimo náš rozsah, dostáváme velice slušnou aproximaci naměřených hodnot. Postupova-li bychom jinak, například střední hodnotu a směrodatnou odchylku počítali standardním postupem z naměřených hodnot, dostali bychom mnohem větší chybu, způsobenou omezením rozsahu našich hodnot, zvlášť patrné by to bylo u krajních tříd A a C, kdy střední hodnota evidentně neodpovídá poloze maxima v histogramu.
13.3.1 Histogramy kategorií A, B, C za rok 2008 Cílem bylo určit hranice ve stupnici 1 – 5 mezi kategoriemi A, B a C. V roce 2008 se účastnilo experimentu, jak již bylo výše zmíněno, celkem 11 subjektů. Přičemž každý ze 128 vzorků má stanoveno průměrné skóre v MOSu. Vyhodnocování výsledků bylo provedeno pomocí histogramu výskytu jednotlivých písmen pro různé hodnoty MOSu v granularitě 0.2 MOS. Pro každý takový interval byla získána informace o tom, kolikrát byl daný vzorek hodnocen odpovědí A, kolikrát B a kolikrát C. Součet prvků ve všech 3 histogramech vyšel 11x128, což je celkem 1408 odpovědí. Histogramy pro jednotlivé kategorie A, B a C lze vidět níže na grafech č. 1 – 3.
35
Graf 1: Histogram ve stupnici 1 - 5 kategorie A za rok 2008
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
Graf 2: Histogram ve stupnici 1 - 5 kategorie B za rok 2008
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
36
Graf 3: Histogram ve stupnici 1 - 5 kategorie C za rok 2008
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
13.3.2 Histogramy kategorií A, B, C za rok 2010 Podobně jako tomu bylo v roce 2008, se určila hranice ve stupnici 1 – 5 mezi kategoriemi A, B a C i v roce 2010. V roce 2010 se experimentu účastnilo 10 subjektů. Opět byl experiment prováděn na 128 vzorcích zvuků o různé kvalitě. Histogramy pro jednotlivé kategorie A, B a C lze vidět níže na grafech č. 4 – 6. Graf 4: Histogram ve stupnici 1 - 5 kategorie A za rok 2010
37
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
Graf 5: Graf 4: Histogram ve stupnici 1 - 5 kategorie B za rok 2010
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
Graf 6: Graf 4: Histogram ve stupnici 1 - 5 kategorie C za rok 2010
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
38
13.4 Výsledky Z provedeného experimentu, který se zabýval subjektivními metodami měření kvality přenosu hlasu pro odhad subjektivních prahů, vyplynulo, že vnímání kvality slyšených zvuků je u každého subjektu (resp. respondenta) odlišné. Je třeba vzít na vědomí jistá omezení související s provedeným experimentem, jedná se hlavně o to, že výzkum byl proveden na malém vzorku subjektů, respektive v roce 2008 se experimentu zúčastnilo 11 osob a v roce 2010 se účastnilo 10 osob, proto se nedá provedený výzkum považovat za seriózní, vzhledem k počtu subjektů, na kterých byl proveden. Aby se výzkum dal považovat za seriózní, bylo by ho třeba provést na daleko vyšším počtu subjektů (např. 1000). Což bohužel není realizovatelné v rámci bakalářské práce, protože by se jednalo o daleko rozsáhlejší výzkum, který by naplňoval charakter spíše diplomové práce, a zároveň by se jednalo o finančně náročný výzkum. Výsledky za roky 2008 a 2010 lze vidět na grafech č. 7 a č. 8 viz níže. V případě interpolací histogramů Gaussovým rozložením pro jednotlivá písmena vznikají průsečíky rozložení A a B resp. B a C, které udávají hranice ve stupnici 1 - 5 mezi kategoriemi A, B a C. V Matlabu byly interpolovány všechny tři histogramy A, B, C, za roky 2008 a 2010, kde se protnuly kategorie A a B, B a C. Tím se nalezly požadované hranice. Nalezené hranice v roce 2008 lze vidět na grafu č. 7 a hranice za rok 2010 jsou zobrazeny v grafu č. 8.
39
Graf 7: Histogram ve stupnici 1-5 mezi kategoriemi A, B, C za rok 2008
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
Graf 8: Histogram ve stupnici 1-5 mezi kategoriemi A, B, C za rok 2010
Zdroj: zpracovaná data v programu Matlab, vlastní úprava
Jednotlivé skóre stupnice MOS, které byly získány během experimentu, byly seskupeny do intervalů po 0,2. Stanovení granularity na úroveň 0,2 bylo provedeno s ohledem na počet dostupných hodnot. Pro každý vzorek z dané skupiny, respektive relativní výskyt každého písmene (A, B nebo C), byly vypočteny hranice mezi kategoriemi A a B, následně B a C (viz tabulka č. 15). 40
Tabulka 15: Výsledné hodnoty hranic mezi kategoriemi (A a B, B a C)
Hranice mezi kategoriemi Hranice mezi kategoriemi AaB BaC Rok 2008
3,85
2,09
Rok 2010
3,44
2,17
Zdroj: vlastní úprava
Z výsledných hodnot hranic mezi kategoriemi lze určit jednotlivé škály MOS, kdy jednotlivé kategorie znamenají: x
A .........................vyhovuje, kvalita v pohodě,
x
B .........................nelíbí, ale na stížnost to není,
x
C .........................hrůza, budu si stěžovat a/nebo vyměním operátora.
Z uvedeného pro rok 2008 vyplývá, že na škále od 1,00 do 2,09 považují subjekty zvuk za „hrůzu a budou si stěžovat a/nebo vymění operátora“. Na škále od 2,09 do 3,85 se respondentům přehrávané vzorku zvuku „nelíbí, ale na stížnost to není“. Naopak za „vyhovující, kvalita v pohodě“ považují subjekty vzorky zvuku na škále od 3,85 až 5,00. V roce 2010 se škály nepatrně posunuly, ale nelze to brát za vypovídající, protože se experimentu účastnilo příliš málo subjektů, aby se výzkum dal považovat za seriózní. Na škále od 1,00 – 2,17 považují subjekty zvuk za „hrůzu, budou si stěžovat a/nebo vymění operátora“. V intervalu od 2,17 – 3,44 se hodnocené vzorky zvuku respondentům „ nelíbí, ale na stížnost to není“. A naposled na škále 3,44 – 5,00 považují subjekty zvuk za „vyhovující, kvalita v pohodě“. Pokud se odhlédne od počtu subjektů, na kterých byl experiment proveden, lze vidět nepatrný posun ve vnímání kvality slyšeného zvuku. Jak lze vidět v tabulce č. 15, která zobrazuje výsledné hodnoty hranic mezi kategoriemi, tak se tolerance od roku 2008 k roku 2010 nepatrně zvýšila, to znamená, že subjekty se spokojí s nižší kvalitou poslouchaného zvuku. Ale je třeba opět říci, že na takto nepatrném vzorku subjektů nelze mluvit o vypovídající schopnosti daného výzkumu.
41
14 Závěr Cílem závěrečné práce bylo analyzovat možnosti aplikace řady ITU-T P.800 pro nalezení
subjektivních
prahů
akceptovatelnosti,
uspokojivosti
a excelentnosti
poskytované služby telefonními operátory. Neboli zjistit za použití subjektivních metod měření kvality přednosu hlasu subjektivní prahy vnímání na testovaném vzorku osob. Tedy zjistit hranice, a to z pohledu toho, co lidé považují za výborné, uspokojivé nebo naprosto nepřijatelné z hlediska kvality přenosu hlasu. V teoretické části práce byly vysvětleny základní pojmy související s danou problematikou. Byly vysvětleny konverzační metody, mezi které patří např. testovací místnosti, problémy související s rozhovorem, vhodnost subjektů pro testování, instrukce, které by se měly subjektům sdělit, metody sbírání dat a další. Následně byly vysvětleny metody, které jsou uvedeny v doporučení ITU-T P.800, mezi které se řadí poslechová metoda, metoda absolutního ohodnocení (ACR), metoda detekovatelnosti odezvy, metoda ohodnocení degradace (DCR), metoda ohodnocení rozdílů (CCR) a také prahová metoda. Poslední kapitola teoretické části se věnovala faktorům, které ovlivňují výsledky subjektivního hodnocení jako je např. okolní šum, stav sluchových orgánů a místo konání testu. V praktické části byly popsány dva subjektivní experimenty, které se konaly v roce 2008 a 2010. Přičemž v roce 2008 se výzkumu zúčastnilo 11 osob a v roce 2010 už jen 10 osob. Subjekty byly převážně mužského pohlaví, pouze v roce 2011 se experimentu účastnila jedna žena. Skoro všichni zúčastnění byli studenty Českého vysokého učení technického a byli neznalí dané problematiky, respektive nikdy neabsolvovali podobný test. Výstupem tohoto experimentu bylo nahradit stávající pětistupňovou škálu MOS, která je pro telefonní operátory příliš jemná a nevyhovující, třístupňovou škálou, která je daleko lépe využitelná především pro její jednoduchost. Z experimentu vyplynulo, že za jednotlivé roky (2008 a 2010) došlo k nepatrnému posunu ve vnímání kvality slyšeného zvuku, a to tak že se tolerance ohledně kvality slyšeného zvuku nepatrně zvýšila, respektive subjekty se v roce 2010 spokojily s o něco menší kvalitou slyšeného zvuku, než tomu bylo v roce 2008. Je však třeba upozornit na neserióznost daného experimentu a to z toho důvodu, že výzkum byl proveden na malém množství subjektů, než který by byl třeba, aby se test dal považovat za seriózní a objektivně vypovídající. 42
POUŽITÉ ZDROJE KULKA, J. Psychologie umění. 2. vydání. Praha : GradaPublishing, 2008. 435 s. ISBN 978-80-247-2329-7. GRACE, R. Hudba a zvuk na počítači. Praha : GradaPublishing, 1999. 259 s. ISBN 807169-519-X. VYSEKALOVÁ, J. Psychologie reklamy. 3. vydání. Praha : GradaPublishing, 2007. 294 s. ISBN 978-80-247-2196-5. Vivia.cz
[online].
c2011
[cit.
2011-02-21].
Rétorika.
Dostupné
z
WWW:
. Access server [online]. 2007-03-08 [cit. 2011-02-22]. Metody subjektivního hodnocení kvality
hovorových
signálů.
Dostupné
z
WWW:
. ITPOINT [online]. c2011 [cit. 2011-03-18]. Měření a hodnocení QoS v IP telefonii . Dostupné z WWW: . GAN, R. Z.; FENG, B. ; SUN, Q. Three-Dimensional Finite Element Modelling of Human Ear for Sound Transmission. Annals of Three-Dimensional Finite Element Modelling of Human Ear for Sound Transmission. Annals of Biomedical Engineering, 2004, vol. 32, no. 2, s. 847 – 859. LÍK,, J.; PELLANT, A. ; CHROBOK, V. Vztah akustiky zevního zvukovodu a chronického akustického traumatu. Pardubice: 2002. Závěrečná zpráva o řešení projektu podpořeného Interní grantovou agenturou Ministerstva zdravotnictví ČR, reg. č. NK 6179-3. ITU-T Recommendation P.800. International telecommunication union, 1996. 37 s.
POUŽITÝ SOFTWARE Microsoft Office 2010 Program Matlab
43
SEZNAM TABULEK, GRAFŮ A OBRÁZKŮ TABULKY Tabulka 1: Formantová pásma vokálů .............................................................................. 2 Tabulka 2: Škála MOS ...................................................................................................... 8 Tabulka 3: Příklady témat rozhovoru ............................................................................. 12 Tabulka 4: Stupnice kvality poslechu ............................................................................. 14 Tabulka 5: Stupnice úsilí při poslechu ............................................................................ 15 Tabulka 6: Stupnice hodnocení hlasitosti ....................................................................... 15 Tabulka 7: Příklady instrukcí pro subjekty ..................................................................... 16 Tabulka 8: Škála ohodnocení .......................................................................................... 17 Tabulka 9: Rušení ........................................................................................................... 18 Tabulka 10: Škála ohodnocení ........................................................................................ 20 Tabulka 11: Škála ohodnocení ........................................................................................ 21 Tabulka 12: Instrukce pro posluchače ............................................................................ 23 Tabulka 13: Škále MOS u prvního testu ......................................................................... 32 Tabulka 14: Škála MOS u druhého testu ........................................................................ 33 Tabulka 15: Výsledné hodnoty hranic mezi kategoriemi (A a B, B a C) ....................... 41
GRAFY Graf 1: Histogram ve stupnici 1 - 5 kategorie A za rok 2008 ......................................... 36 Graf 2: Histogram ve stupnici 1 - 5 kategorie B za rok 2008 ......................................... 36 Graf 3: Histogram ve stupnici 1 - 5 kategorie C za rok 2008 ......................................... 37 Graf 4: Histogram ve stupnici 1 - 5 kategorie A za rok 2010 ......................................... 37 Graf 5: Graf 4: Histogram ve stupnici 1 - 5 kategorie B za rok 2010 ............................ 38 Graf 6: Graf 4: Histogram ve stupnici 1 - 5 kategorie C za rok 2010 ............................ 38 Graf 7: Histogram ve stupnici 1-5 mezi kategoriemi A, B, C za rok 2008 .................... 40 Graf 8: Histogram ve stupnici 1-5 mezi kategoriemi A, B, C za rok 2010 .................... 40
OBRÁZKY Obrázek 1: SNR reference signal (dB) ........................................................................... 25 Obrázek 2: Časový diagram prezentace.......................................................................... 26
44
PŘÍLOHY Příloha 1: Dotazník s pětistupňovou škálou
45
Příloha 2: Dotazník s třístupňovou škálou
46