Mendelova univerzita v Brně Provozně ekonomická fakulta. Aplikace moderních metod klasifikace zvukových dat

Mendelova univerzita v Brnˇe Provoznˇe ekonomická fakulta

Aplikace modern´ıch metod klasifikace zvukov´ ych dat Disertaˇ cn´ı pr´ ace

ˇ Skolitel: ˇ ’astný, CSc. doc. RNDr. Ing. Jiˇr´ı St

Brno 2011

Ing. Jiˇr´ı Fejfar

Rád bych podˇekoval ˇskoliteli a vˇsem spolupracovn´ık˚ um za cenné rady.

Prohlaˇsuji, ˇze jsem tuto disertaˇcn´ı práci vypracoval samostatnˇe a v seznamu literatury a pramen˚ u uvedl veˇskeré informaˇcn´ı zdroje, které jsem pouˇzil.

V Brnˇe, dne 18. srpna 2011

....................................................

Abstract Fejfar, J. Application of Modern Methods for Sound Data Classification. Ph.D. thesis. Brno, 2011. This work describes contemporary methods for sound data classification and their application on sound recordings. This work deals with the selection of sound signal characteristics appropriate for concrete classification criteria followed by the exploration of proper types of artificial neural networks for this task. Different topologies and learnings algorithms of chosen neural networks are proposed and their performance in this classification is compared. Results compared are discussed and the best solution for sound data classificaton based on the content of recordings is chosen. This work also includes the chosen algorithms implementation into the software solution of my own. Keywords classification, sound data, artificial intelligence, neural networks, self-organization

Abstrakt Fejfar, J. Aplikace modern´ıch metod klasifikace zvukových dat. Disertaˇcn´ı práce. Brno, 2011. Práce popisuje modern´ı metody pro klasifikaci zvukov´ ych dat a jejich aplikaci na zvukov´ ych nahrávkách. Je ˇreˇsen zp˚ usob v´ ybˇeru charakteristik audio signálu vhodn´ ych pro konkrétn´ı kritéria klasifikace a dále jsou pro tuto u ´lohu hledány vhodné typy umˇel´ ych neuronov´ ych s´ıt´ı. U vybran´ ych typ˚ u umˇel´ ych neuronov´ ych s´ıt´ı jsou vybrány r˚ uzné varianty topologi´ı a uˇc´ıc´ıch algoritm˚ u, které jsou vzájemnˇe porovnány. V´ ysledky jsou analyzovány a je vybrána nejlepˇs´ı metoda pro klasifikaci zvukov´ ych dat z hlediska jejich obsahu. Práce rovnˇeˇz zahrnuje implementaci vybran´ ych algoritm˚ u v rámci vlastn´ıho softwarového ˇreˇsen´ı. Kl´ıˇ cov´ a slova klasifikace, zvuková data, umˇelá inteligence, neuronové s´ıtˇe, samoorganizace

1

OBSAH

Obsah ´ 1 Uvod 1.1 Struktura práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 C´ıl práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Souˇ casn´ y stav ˇ reˇ sen´ e problematiky 2.1 Podobnost zvukov´ ych dat . . . . . . . . . . . . 2.1.1 Barva zvuku . . . . . . . . . . . . . . . . 2.1.2 V´ yˇskové vztahy . . . . . . . . . . . . . . 2.1.3 Horizontáln´ı vztahy . . . . . . . . . . . . 2.1.4 Forma . . . . . . . . . . . . . . . . . . . 2.1.5 Informaˇcn´ı hustota . . . . . . . . . . . . 2.1.6 Tˇr´ıdˇen´ı podle autora, ˇzańru, v´ıce kritéri´ı ˇ 2.1.7 Casov´ a podobnost . . . . . . . . . . . . 2.1.8 Procesy . . . . . . . . . . . . . . . . . . 2.1.9 Stupnice . . . . . . . . . . . . . . . . . . 2.2 Spoleˇcné vlastnosti – zvukov´ y objekt . . . . . . 2.3 Vizualizace, organizace . . . . . . . . . . . . . . 2.4 Shrnut´ı . . . . . . . . . . . . . . . . . . . . . . . 3 Zpracov´ an´ı zvukov´ eho sign´ alu 3.1 Zvuk a jeho vn´ımán´ı . . . . . . . . . . . . 3.2 Modelován´ı zvukového dˇen´ı . . . . . . . . 3.2.1 Zvuk . . . . . . . . . . . . . . . . . 3.2.2 Hudba . . . . . . . . . . . . . . . . 3.3 Anal´ yza signálu v ˇcasové oblasti . . . . . . 3.4 Spektráln´ı anal´ yza . . . . . . . . . . . . . 3.4.1 Fourierova transformace diskrétn´ıho ˇ 3.5 Casovˇ e frekvenˇcn´ı anal´ yza . . . . . . . . . 3.6 V´ ybˇer charakteristik . . . . . . . . . . . . 3.6.1 Automatick´ y v´ ybˇer charakteristik . ˇ 3.7 C´ıslicové filtry . . . . . . . . . . . . . . . . 4 Metody umˇ el´ e inteligence 4.1 Tˇr´ıdˇen´ı . . . . . . . . . . . . . . . . . . . . 4.2 Rozpoznáván´ı . . . . . . . . . . . . . . . . 4.2.1 Pˇr´ıznakové metody rozpoznáván´ı . 4.2.2 Strukturáln´ı metody rozpoznáván´ı 4.3 Neuronové s´ıtˇe . . . . . . . . . . . . . . . 4.4 Samoorganizace . . . . . . . . . . . . . . . 4.4.1 Vektorová kvantizace . . . . . . . . 4.4.2 Samoorganizu´ıc´ı se mapy . . . . . . 4.4.3 Learning Vector Quantization . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . signálu . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . .

5 6 6

. . . . . . . . . . . . .

7 7 8 9 10 11 13 14 15 15 16 16 17 18

. . . . . . . . . . .

19 20 21 22 24 27 30 30 32 32 33 33

. . . . . . . . .

35 35 36 36 37 37 39 39 40 42

2

OBSAH

4.5

Strojové uˇcen´ı . . . . . . . . . . . . 4.5.1 Uˇcen´ı s uˇcitelem . . . . . . 4.5.2 Uˇcen´ı bez uˇcitele . . . . . . 4.5.3 Uˇcen´ı s ˇcásteˇcn´ ym dohledem

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

5 Aplikace 5.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Ohodnocen´ı dat (labels) . . . . . . . . . . . . . . . . . . . . . 5.1.2 Autorsk´ y zákon . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Volné on-line databáze . . . . . . . . . . . . . . . . . . . . . . 5.1.4 Popis nahrávek . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Dˇelen´ı nahrávek . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.6 Standardizace dat . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.7 Formát v´ ystupn´ıch dat . . . . . . . . . . . . . . . . . . . . . . 5.2 Zkouˇska koncepce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Nahrávky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Charakteristiky . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Shlukován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Vyˇc´ıslen´ı chyby pˇri shlukován´ı . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Zkoumané parametry . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Databáze nahrávek . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 V´ ypoˇcet chyby . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 V´ ysledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.5 Diskuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Porovnán´ı shlukovac´ıch algoritm˚ u . . . . . . . . . . . . . . . . . . . . 5.4.1 Popis v´ yvoje hlasitosti . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Zp˚ usoby porovnán´ı v´ ysledk˚ u shlukován´ı . . . . . . . . . . . . 5.4.3 Srovnávané algoritmy . . . . . . . . . . . . . . . . . . . . . . . 5.4.4 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.5 Labely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.6 Stanoven´ı poˇctu shluk˚ u. . . . . . . . . . . . . . . . . . . . . . 5.4.7 Porovnán´ı v´ ysledk˚ u . . . . . . . . . . . . . . . . . . . . . . . . 5.4.8 Závˇer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Porovnán´ı klasifikaˇcn´ıch algoritm˚ u. . . . . . . . . . . . . . . . . . . . 5.5.1 k nejbliˇzˇs´ıch soused˚ u . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 V´ıcevrstvá neuronová s´ıt’ (MLP) . . . . . . . . . . . . . . . . . 5.5.3 Learning Vector Quantization (LVQ1) . . . . . . . . . . . . . 5.6 Uˇcen´ı s ˇca´steˇcn´ ym dohledem pro Kohonenovu mapu . . . . . . . . . . 5.6.1 Návrh semi-supervised uˇc´ıc´ıho algoritmu pro Kohonenovu mapu 5.6.2 Barven´ı v´ ysledn´ ych map . . . . . . . . . . . . . . . . . . . . . 5.7 Rozliˇsen´ı hudebn´ıch a nehudebn´ıch ukázek . . . . . . . . . . . . . . . 5.8 Metoda klasifikace audio dat . . . . . . . . . . . . . . . . . . . . . . .

42 43 44 44 47 47 47 47 48 48 49 50 51 53 53 54 55 58 59 59 59 61 66 68 68 69 70 70 71 71 72 74 75 75 78 82 83 83 84 85 88

3

OBSAH

6 Implementace 6.1 Mappa – SOM a LVQ implementace v C++ . . . . . . . . . 6.1.1 Programovac´ı jazyk a knihovny . . . . . . . . . . . . 6.1.2 Pouˇzit´ y SW . . . . . . . . . . . . . . . . . . . . . . . 6.1.3 Objektov´ y návrh . . . . . . . . . . . . . . . . . . . . 6.1.4 Poznámky k implementaci . . . . . . . . . . . . . . . 6.2 Virtuáln´ı zvuková laboratoˇr . . . . . . . . . . . . . . . . . . 6.2.1 SoundLab – server . . . . . . . . . . . . . . . . . . . 6.2.2 Klientská aplikace pro anal´ yzu nahrávek – Agent++

. . . . . . . .

89 89 89 89 90 92 93 93 95

7 Zhodnocen´ı v´ ysledk˚ u 7.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Zpracován´ı signálu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Metody umˇelé inteligence . . . . . . . . . . . . . . . . . . . . . . . . .

97 97 98 99

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

8 Z´ avˇ er

101

Literatura

103

4

OBSAH

1

´ UVOD

5

´ Uvod

1

Z´ıskáván´ı hudebn´ıch informac´ı (Music Information Retrieval) je mezioborová discipl´ına snaˇz´ıc´ı se o z´ıskán´ı informac´ı z hudby pomoc´ı metod umˇelé inteligence (Widmer, 2006). Jej´ı vznik je pˇr´ım´ ym následkem potˇreb inteligentn´ıho prohledáván´ı zvukov´ ych databáz´ı, které se objevily v posledn´ıch letech. V´ ysledky v´ yzkumu v této oblasti jsou od roku 2000 kaˇzdoroˇcnˇe publikovány na mezinárodn´ıch konferenc´ıch z´ıskáván´ı hudebn´ıch znalost´ı, napˇr. ISMIR1 , MIREX2 a dalˇs´ıch. Pˇr´ıspˇevky ˇcasto prezentuj´ı nové koncepce ˇreˇsen´ı u ´loh jako napˇr´ıklad automatické tˇr´ıdˇen´ı nahrávek v rozsáhl´ ych databáz´ıch, inteligentn´ı prohledáván´ı rozsáhl´ ych databáz´ı, zpracován´ı mluveného projevu, automatické rozliˇsován´ı nahrávek podle nástroj˚ u, stylu, interpret˚ u atd., nalezen´ı neoˇcekávan´ ych podobnost´ı mezi d´ıly r˚ uzn´ ych ˇzańr˚ u. V této práci hudbu chápeme v nejˇsirˇs´ı definici, jako organizovan´ y zvuk. Zahrnuje tedy vˇsechen zvukov´ y materiál, ve kterém m˚ uˇzeme nalézt urˇcitá pravidla uspoˇrádán´ı – vˇcetnˇe ˇreˇci, zvuk˚ u vydávan´ ych zv´ıˇraty atd. S pˇr´ıchodem digitalizace hudebn´ıch nahrávek se zaˇcaly vytváˇret rozsáhlé hudebn´ı archivy, které je moˇzno elektronicky prohledávat. Na internetu se v posledn´ıch letech objevuj´ı nové a nové databáze3 obsahuj´ıc´ı velké mnoˇzstv´ı audio dat. Vyhledáván´ı v tˇechto databáz´ıch je vˇsak prozat´ım dosti omezené. V souˇcasné dobˇe m˚ uˇzeme vˇetˇsinou vyhledávat pouze na základˇe textov´ ych metadat, napˇr´ıklad autora, stylu, instrumentace a vlastn´ıho textu. Tyto metadata se do databáz´ı zadávaj´ı ruˇcnˇe, takˇze jsou nav´ıc ˇcasto nespolehlivá. V pˇr´ıpadˇe obecn´ ych zvuk˚ u máme k dispozici pouze popis nahrávky, napˇr´ıklad zpˇev ptáka urˇcitého druhu, ˇcas a m´ısto nahrávky. V´ ysledkem je, ˇze se ve velk´ ych databáz´ıch neznám´ ych nahrávek jen tˇeˇzko orientujeme. Mus´ıme se zde spoléhat na naˇse znalosti autora, hudebn´ıho stylu, popˇr´ıpadˇe charakteru zpˇevu urˇcitého druhu ptáka. Sp´ıˇse neˇz na základˇe metadat bychom ale potˇrebovali hledat nahrávky na základˇe jejich obsahu, napˇr´ıklad rytmické struktury, vlastnosti jejich spektra atd. Moˇznost tˇr´ıdit a z r˚ uzn´ ych hledisek porovnávat zvukové nahrávky je pro ˇclovˇeka relativnˇe jednoduchá, je zde vˇsak omezen sv´ ym ˇcasem. Informace o zaznamenaném zvuku nelze z´ıskávat jinak neˇz pozorn´ ym poslechem. V pˇr´ıpadˇe rozsáhl´ ych databáz´ı je takovéto vyhledáván´ı ˇcasovˇe velmi nároˇcné. Kdybychom tyto nahrávky poslouchali s odborn´ıkem, jenˇz by obsah cel´ ych archiv˚ u znal, byl by nám schopen o nich mnohé ˇr´ıci a ukázat nám podobnost s jin´ ymi nahrávkami, coˇz by bylo velmi obohacuj´ıc´ı. S jeho pomoc´ı bychom byli schopni v archivech nalézt nahrávky, které nás z nejr˚ uznˇejˇs´ıch d˚ uvod˚ u (zvukov´ ych, nástrojového obsazen´ı, rytmu, formy) zaj´ımaj´ı. Mohli bychom takto z´ıskávat vˇedomosti o tom, jaká hudba existuje (Serra, In Press) a utváˇret si pˇredstavy o vlastnostech hudby pro nás zaj´ımavé. To je motivac´ı vytvoˇren´ı systému, jenˇz by nám inteligentn´ı prohledáván´ı zvukov´ ych archiv˚ u umoˇzn ˇoval. 1

http://www.ismir.net/ http://www.music-ir.org/mirex/2009/index.php/Main Page 3 http://www.freesound.org, http://www.myspace.com, http://www.musipedia.org 2

6

1.1

1

´ UVOD

Struktura pr´ ace

Kapitola 1 seznamuje s oblast´ı z´ıskáván´ı hudebn´ıch informac´ı a je zde urˇcen´ y c´ıl práce. Kapitola 2 ukazuje souˇcasné moˇznosti tˇr´ıdˇen´ı zvukov´ ych nahráveki a ˇca´steˇcnˇe nastiˇ nuje sloˇzitou otázku podobnosti zvukov´ ych ukázek. Jsou zde rozdˇeleny r˚ uzné zp˚ usoby urˇcován´ı podobnosti hudebn´ıch ukázek a jsou ukázány konkrétn´ı postupy pouˇzité pˇri jejich klasifikaci. V kapitole 3 je popsáno, jak´ ymi druhy signálu se hudebn´ı informace pˇrenáˇsej´ı, jsou zde vysvˇetleny pojmy pomoc´ı kter´ ych m˚ uˇzeme modelovat hudebn´ı a obecnˇe zvukové dˇen´ı. Dále kapitola popisuje d˚ uleˇzité charakteristiky audio signálu a zp˚ usob, jak´ ym je m˚ uˇzeme z´ıskat. V závˇeru je navrˇzen zp˚ usob automatického v´ ybˇeru charakteristik vhodn´ ych pro klasifikaci urˇcit´ ych druh˚ u nahrávek. Kapitola 4 pˇredstavuje pˇrehled a popis metod umˇelé inteligence vyuˇz´ıvan´ ych v této práci a obsahuje návrh rozˇs´ıˇren´ı Kohonenovy samoorganizuj´ıc´ı se mapy o pouˇzit´ı ohodnocen´ ych dat. V kapitole 5 je popsána aplikace navrˇzeného postupu na nˇekolik oblast´ı tˇr´ıdˇen´ı zvukov´ ych nahrávek. Jedná se o klasifikaci hudebn´ıch nahrávek podle zvukového obsahu. Kapitola 6 popisuje d˚ uleˇzitá m´ısta implementace celého ˇreˇsen´ı vˇcetnˇe pouˇzit´ı ’ s´ıt ové architektury. Popisuje u ´lohy ˇreˇsené v rámci virtuáln´ı zvukové laboratoˇre.

1.2

C´ıl pr´ ace

C´ılem disertaˇcn´ı práce je anal´ yza nov´ ych metod a implementace navrˇzen´ ych algoritm˚ u, zejména umˇel´ ych neuronov´ ych s´ıt´ı, pro potˇreby klasifikace zvukov´ ych dat se zamˇeˇren´ım na rozpoznáván´ı fragment˚ u skladeb i celkové struktury skladby. Konkrétnˇe se jedná pˇredevˇs´ım o anal´ yzu vhodn´ ych typ˚ u umˇel´ ych neuronov´ ych s´ıt´ı vˇcetnˇe návrhu a implementace pˇr´ısluˇsn´ ych uˇc´ıc´ıch algoritm˚ u pro u ´lohy klasifikace. Navrˇzené metody a algoritmy jsou testovány ve vlastn´ım vytvoˇreném softwarovém prostˇred´ı.

2

ˇ ´ STAV RE ˇ SEN ˇ E ´ PROBLEMATIKY SOUCASN Y

2

7

Souˇ casn´ y stav ˇreˇsen´ e problematiky

Pˇri prohledáván´ı internetov´ ych databáz´ı s neznám´ ymi nahrávkami naráˇz´ıme na problém nekvalitn´ıho tˇr´ıdˇen´ı (Celma, 2008). Nejsou lidé, kteˇr´ı by tyto nahrávky nˇejak tˇr´ıdili, i potom by toto tˇr´ıdˇen´ı bylo velmi subjektivn´ı. Tˇr´ıdˇen´ı nen´ı jednoduché – nˇekteré zvukové nahrávky jsou si podobné ve v´ıce ohledech (rytmus, spektrum), jiné ne. Automatická klasifikace by zde byla velmi uˇziteˇcná. Pro klasifikaci audio nahrávek je kl´ıˇcové vytvoˇren´ı správn´ ych charakteristick´ ych vektor˚ u. Jsou to vektory obsahuj´ıc´ı informace o ˇcástech nahrávky (ˇcasovém okénku, nebo i vˇetˇs´ım u ´seku). Poté, co jsou charakteristické informace z nahrávek z´ıskány a jsou pˇridány k pˇr´ısluˇsn´ ym nahrávkám do databáze, m˚ uˇzeme tuto databázi zaˇc´ıt na základˇe obsahu nahrávek prohledávat pomoc´ı databázov´ ych dotaz˚ u. Napˇr´ıklad: vyhledej vˇsechny nahrávky, které maj´ı dominuj´ıc´ı jeden tón v´ yˇskového histogramu. Databáze nám vrát´ı mnoˇzstv´ı nahrávek, které budou souviset s popsan´ ym jevem. Jelikoˇz to bude tón, p˚ ujde zˇrejmˇe o hudbu, ta bude m´ıt asi také urˇcit´ y charakter, jelikoˇz bude m´ıt tonáln´ı centrum (viz 3.2.2). Jak ale dosáhnout toho, aby databáze vrátila kupˇr´ıkladu nahrávky zpˇevu urˇcitého druhu ptáka? Jaké parametry zde zadat? Pomoci nám tu m˚ uˇze klasifikace zvukov´ ych dat pomoc´ı metod umˇelé inteligence. Takto bychom mohli nahrávky rozdˇelit do urˇcit´ ych skupin a ty poté povaˇzovat za nahrávky podobné. Otázkou zde je, jak by mˇely b´ yt tyto skupiny definovány. M˚ uˇzeme vyuˇz´ıt roztˇr´ıdˇen´ı na klasickou hudbu, rock, lidovou hudbu, zpˇev pták˚ u atd. Toto tˇr´ıdˇen´ı má vˇsak svá u ´skal´ı, jenˇz zná asi kaˇzd´ y, kdo se pokusil t´ımto zp˚ usobem roztˇr´ıdit sv˚ uj archiv nahrávek. Pro jisté nahrávky nem˚ uˇzeme nalézt vhodnou kategorii, jiné zase patˇr´ı do v´ıce kategori´ı najednou atp. Moˇzné je také tˇr´ıdˇen´ı podle data vzniku hudby. I zde je vˇsak mnoho pˇr´ıpad˚ u, kdy se hudba své dobˇe vymyká. Dalˇs´ı moˇznost´ı by bylo pouˇzit´ı nástroje, jenˇz by na základˇe podobnosti charakteristick´ ych vektor˚ u nahrávek vytváˇrel shluky nezávislé na zaˇzitém tˇr´ıdˇen´ı. Na prvn´ı pohled se to nezdá pˇr´ıliˇs v´ yhodné, jelikoˇz nebudeme moci ve vyhledáván´ı vyuˇz´ıt zaˇzit´ ych kategori´ı. Nab´ızej´ı se tu vˇsak mnohé zaj´ımavé moˇznosti, které by mohly pˇrispˇet k vytvoˇren´ı nového pohledu na tˇr´ıdˇen´ı nahrávek. Vytvoˇrené shluky by se daly porovnávat s tradiˇcn´ımi tˇr´ıdami, coˇz by mohlo pˇrinést zaj´ımavé v´ ysledky. Dalˇs´ım moˇzn´ ym experimentem by mohlo b´ yt napˇr´ıklad zkoumán´ı vztah˚ u, jeˇz vytváˇrej´ı mezi nahrávkami odkazy na pˇrátele“ v portálu myspace4 . Uˇzivatelé, vystavuj´ıc´ı ” zde ukázky své tvorby, maj´ı na sv´ ych portfóli´ıch um´ıstˇeny také tyto odkazy, na kter´ ych se ˇcasto nacház´ı urˇcit´ ym zp˚ usobem podobná hudba.

2.1

Podobnost zvukov´ ych dat

Obecnˇe se nedá pˇredpov´ıdat, kdy lidsk´ y posluchaˇc prohlás´ı dva zvukové vzorky za podobné. Vzorky mohou b´ yt podobné na základˇe slov, instrumentace, melodie, rytmu, interpreta, nebo pouze na základˇe emoc´ı, které hudba nebo zvuk vyvolává. Také je potˇreba myslet na situace, kdy je ˇca´st nahrávky podobná na urˇcitou hudbu a 4

http://www.myspace.com

8

2


dalˇs´ı ˇcást na hudbu jinou. V urˇcitém smyslu mohou b´ yt podobné dvˇe nahrávky (co se melodie t´ yˇce) a v jiném ohledu (textu) jsou si podobné s jin´ ymi nahrávkami. S t´ımto jevem se setkáváme velmi ˇcasto – jeden text pouˇzit´ y ve v´ıce p´ısn´ıch, jedna melodie m˚ uˇze m´ıt v´ıce text˚ u. V pˇr´ıpadˇe práce s velk´ ymi databázemi mohou b´ yt uˇziteˇcná i jednoduchá mˇeˇr´ıtka podobnosti. Pouˇz´ıvaj´ı se mˇeˇr´ıtka podobnosti na základˇe vlastnost´ı spektra (Pape et al., 2008), rytmu, formy, a dalˇs´ıch charakteristik. Jako nejlepˇs´ı se jev´ı moˇznost tyto r˚ uzné mˇeˇr´ıtka podobnosti kombinovat podle toho, co momentálnˇe uˇzivatele zaj´ımá (Rauber et al., 2003). Dalˇs´ı informace o mˇeˇr´ıtkách podobnosti nalezneme v (Bogdanov et al., 2011), (Bogdanov et al., 2009), (Aucouturier – Pachet, 2002), (Senfter, 2008). 2.1.1

Barva zvuku

Barva zvuku je vlastnost, d´ıky n´ıˇz dokáˇzeme rozliˇsit r˚ uzné hudebn´ı nástroje, hlas r˚ uzn´ ych lid´ı atd. Z akustického hlediska jde o zastoupen´ı vyˇsˇs´ıch alikvotn´ıch tón˚ u (viz kapitola 3.2.2) ve zvuku. Pˇr´ıklad vyuˇzit´ı neuronov´ ych s´ıt´ı ve u ´loze rozliˇsen´ı dvou nástroj˚ u nalezneme v (Pape et al., 2008). Pomoc´ı nového typu rekurentn´ı neuronové s´ıtˇe, Democratic Liquid State Machine, vhodného zejména pro klasifikaci ˇcasov´ ych ˇrad, se zde ˇreˇs´ı u ´loha vzájemného rozpoznán´ı zvuku flétny a basové kytary. Vstupn´ımi daty jsou zde jak speciálnˇe vytvoˇrené ukázky zahrnuj´ıc´ı jeden a dva tóny, nebo ˇca´sti stupnic, tak ukázky z CD na kter´ ych je i zvukové pozad´ı. Vˇetˇsina ukázek je dlouhá 1 sekundu, ale jsou zde i delˇs´ı. Vzork˚ u je celkem 234. Zvuková data jsou pˇrevedena pomoc´ı rychlé Fourierovy transformace (Diskrétn´ı Fourierova transformace) do frekvenˇcn´ı oblasti. Délka ˇcasového rámeˇcku, na kter´ y je aplikována Fourierova transformace, je 5,8 ms. Pˇrekvapen´ım se zde ukázal b´ yt poˇcet skryt´ ych jednotek neuronové s´ıtˇe4.3. V optimáln´ım pˇr´ıpadˇe jich bylo 50. Tak velk´ y poˇcet normálnˇe zp˚ usobuje overfitting, ale uˇcen´ı bylo zastaveno jiˇz pˇri pomˇeru 1,5 správnˇe urˇcené tˇr´ıdy k chybnˇe urˇcené, takˇze tento problém byl eliminován. Procento správnˇe urˇcen´ ych vzork˚ u se v závislosti na dalˇs´ıch nastaven´ıch pohybuje od 88 – 99%. Mus´ıme vˇsak vz´ıt v u ´vahu, ˇze jsou tyto dva nástroje velmi odliˇsné. Maj´ı jin´ y princip tvorby tónu (strunn´ y a dechov´ y nástroj). D˚ uleˇzité je, ˇze pro urˇcité typy zvuku jsou podstatné urˇcité charakteristiky a pro jin´ y typ zvuku charakteristiky jiné. Jelikoˇz ale v této fázi zpracován´ı typ zvuku nen´ı znám´ y, je tedy zˇrejmˇe potˇreba vyhodnotit pokud moˇzno vˇsechny a následnˇe podle v´ ysledku vybrat charakteristické. To se dá vyˇreˇsit na základˇe d˚ ukladn´ ych porovnáván´ı u tˇr´ıd´ıc´ıch experiment˚ u. Zat´ımco u jednoduch´ ych zvuk˚ u, které se nepˇrekr´ yvaj´ı, jsou souˇcasné v´ ysledky jejich tˇr´ıdˇen´ı vcelku uspokojivé, pˇri souˇcasném znˇen´ı nˇekolika vrstev (polyfonie) na zvukovém pozad´ı jsou v´ ysledky s lidsk´ ymi schopnostmi nesrovnatelné. Panuje nav´ıc názor, ˇze se zde dosáhlo urˇcité u ´rovnˇe, jej´ıˇz pˇrekroˇcen´ı bude vyˇzadovat hlubˇs´ı znalosti vn´ımán´ı zvuku u lid´ı. Jin´ y pˇr´ıstup v rozliˇsován´ı hudebn´ıch nástroj˚ u nalezneme v (Grecu, 2007).

2.1

Podobnost zvukových dat

2.1.2

9

V´ yˇskov´ e vztahy

V´ yˇskov´ ymi vztahy jsou zde myˇsleny vztahy jednotliv´ ych tón˚ u s ohledem na jejich v´ yˇsku (frekvenci) a vzdálenost mezi jejich v´ yˇskami (pomˇer jejich frekvenc´ı) (Gómez, 2006). Nebereme tu ohled na uspoˇra´dán´ı tón˚ u v ˇcase. Pˇri posuzován´ı nahrávky z hlediska v´ yˇskov´ ych vztah˚ u se pouˇz´ıvaj´ı v´ yˇskové histogramy viz, obrázek 1. Ukazuj´ı nám, kolikrát se jednotlivé tóny v urˇcitém ˇcasovém intervalu zvoleného vzorku vyskytuj´ı. Zde je to prvn´ıch 8 takt˚ u znˇelky z veˇcern´ıˇcku Král´ıci z klobouku“ hrané ” v C dur. Na vodorovné ose jsou ˇc´ısla p˚ ultón˚ u od 1 = C aˇz 12 = H, na svislé ose je jejich ˇcetnost. M˚ uˇzeme z nich vyˇc´ıst d˚ uleˇzité informace ohlednˇe tonáln´ıho centra (kter´ y tón se vyskytuje nejˇcastˇeji), tonáln´ıho uspoˇrádán´ı atd. V´ıce se o v´ yˇskov´ ych histogramech m˚ uˇzeme doˇc´ıst v (Tzanetakis et al., 2002).

Obrázek 1: V´ yˇskov´ y histogram

Melodie m˚ uˇze b´ yt popsána nˇekolika zp˚ usoby, kaˇzd´ y ji popisuje na jiné u ´rovni obecnosti. Základem je zjiˇstˇen´ı frekvenc´ı jednotliv´ ych tón˚ u melodie. Z´ıskáme tak zápis v absolutn´ı v´ yˇsce. Melodie vˇsak m˚ uˇze zaˇc´ınat o libovoln´ y interval (v´ yˇskovou vzdálenost) v´ yˇse ˇci n´ıˇze a pˇresto se neliˇs´ı. Vhodnˇejˇs´ı je tedy zápis pomoc´ı interval˚ u, které mezi sebou jednotlivé tóny melodie maj´ı. Nejobecnˇejˇs´ı je popis pouze pomoc´ı smˇeru, kter´ y melodie má (stoupá, stoupá, dosahuje nejvyˇsˇs´ıho bodu, klesá, klesá, klesá, stoupá atd.). Tyto zp˚ usoby implementuje napˇr´ıklad vyhledávac´ı engine databáze MIDI nahrávek musipedia5 . Vertikáln´ı struktura popisuje vzájemné v´ yˇskové vztahy v´ıce tón˚ u znˇej´ıc´ıch souˇcasnˇe. Opˇet je vhodn´ y zápis pomoc´ı interval˚ u. V pˇr´ıpadˇe, ˇze hlasy dohromady 5

http://www.musipedia.org

10

2


tvoˇr´ı akordy, se m˚ uˇzeme pokusit o zjiˇstˇen´ı jejich funkˇcn´ıch vztah˚ u z hlediska harmonie4.3. Zde je d˚ uleˇzité hodnocen´ı návaznosti akord˚ u. Urˇcován´ı akord˚ u z hudebn´ıch nahrávek je z hlediska ˇsiroké veˇrejnosti oceˇ novaná dovednost, jelikoˇz jsou akordy základn´ım prostˇredkem doprovodu mnoha p´ısn´ı a podobnˇe. Akordy nalézáme ve zpˇevn´ıc´ıch, moˇznost jejich z´ıskán´ı pˇr´ımo z nahrávky obl´ıbené p´ısnˇe je vˇsak pˇresto velmi ˇza´daná. V (Zenz – Rauber, 2007) pˇredstavuj´ı autoˇri algoritmus schopn´ y z audio signálu extrahovat posloupnosti akord˚ u. Popis funkce algoritmu vid´ıme na obrázku 2. V´ ysledek vid´ıme na obrázku 3. Pod diagramem waveformu jsou akordické znaˇcky (F dur, d moll, G dur septakord, B dur, F dur).

Obrázek 2: Algoritmus detekce akord˚ u (Zenz – Rauber, 2007)

2.1.3

Horizont´ aln´ı vztahy

U v´ yˇskov´ ych vztah˚ u jsme pom´ıjeli uspoˇrádán´ı tón˚ u v ˇcase. To je naopak kl´ıˇcové pro posuzován´ı horizontáln´ıch vztah˚ u. Poˇz´ıváme zde histogram periodicity, kter´ y urˇcuje, jak ˇcasto se v ukázce objevuj´ı u ´dery o urˇcité periodické frekvenci (rytmy/tempa). V (Pampalk et al., 2002a) autoˇri rozˇsiˇruj´ı klasické histogramy o informaci

2.1


11

Obrázek 3: Detekce akord˚ u v nahrávce (Zenz – Rauber, 2007)

promˇenlivosti v ˇcase, která je pˇri urˇcován´ı podobnosti cenná. Z histogramu periodicity se urˇcuj´ı následuj´ıc´ı vlastnosti: relativn´ı amplituda (dˇelená sumou amplitud) prvn´ıho a druhého vrcholu histogramu, pomˇer amplitud prvn´ıho a druhého vrcholu, perioda prvn´ıho a druhého u ´deru (v u ´derch za minutu – bpm), celková suma histogramu (jako indikátor celkové periodicity). Tempo by se dalo urˇcit jako nejˇcastˇeji se vyskytuj´ıc´ı frekvence u ´der˚ u nebo nástup˚ u nov´ ych tón˚ u. V hudebn´ı praxi ovˇsem b´ yvá takové, aby se hudebn´ıkovi dobˇre poˇc´ıtalo. Ve skladbˇe, kde budou v´ yluˇcnˇe samé rychlé pasáˇze, se bude poˇc´ıtat pomaleji a noty se budou seskupovat do skupin. Kaˇzdá taková skupina se zahraje na jednu dobu. Urˇcen´ım tempa z´ıskáme myˇslenou mˇr´ıˇzku, v jej´ıchˇz uzlech by se mˇely nacházet vˇsechny ostatn´ı u ´dery / tóny. Podle toho, jaké vzorce budou vytváˇret ostatn´ı tóny v mˇr´ıˇzce vzniklé urˇcen´ım tempa, m˚ uˇzeme hovoˇrit o r˚ uzn´ ych rytmech. V rámci této mˇr´ıˇzky bychom uˇz mohli pouˇz´ıt relativn´ı popis – tón je dvakrát delˇs´ı neˇz pˇredchoz´ı atp. Situace je tu vˇsak znaˇcnˇe komplikovaná, protoˇze témˇeˇr ˇza´dná hudba (kromˇe elektronické) pravidelné tempo nedodrˇzuje. Interpreti si tempo pˇrizp˚ usobuj´ı podle svého c´ıtˇen´ı, ve zpˇevu pták˚ u bychom pravidelné ˇclenˇen´ı také hledali velmi obt´ıˇznˇe. Rytmické vzory (Rhythm patterns, Fluctuation patterns) zobrazuj´ı vztah frekvence u ´der˚ u rytmu a intenzity vn´ımán´ı tohoto zvuku v kritickém pásmu (viz kapitola 3.1). Jelikoˇz je frekvence zvuku pˇrevedena do barkové stupnice (jednotka frekvenˇcn´ıho rozsahu odpov´ıdá ˇs´ıˇrce kritického pásma), je tato psychoakusticky motivovaná metoda zobrazen´ı v podstatˇe nezávislá na lidské citlivosti ve vn´ımán´ı r˚ uzn´ ych frekvenc´ı. Na obrázku. 4 vid´ıme porovnán´ı tohoto diagramu pro klasickou (vlevo) a rockovou (vpravo) hudbu. Dalˇs´ı pˇr´ıklady ve vyhledáván´ı rytmick´ ych vzoru nalezneme v (Pflugfelder, 2008). Nahrávky se zde tˇr´ıd´ı podle tance, jenˇz se na dan´ y rytmus tancuje. Na Obr. 5 vid´ıme r˚ uznˇe vizualizované v´ ysledné mapy. Nalevo je v kaˇzdé buˇ nce mapy zobrazen v´ yseˇcov´ y graf, napravo je vizualizace ve stylu Voroniov´ ych diagram˚ u. Jsou rozeznány tyto rytmy: ˇcervená – chacha, azurová – tango, modrá – jive, oranˇzová – samba, ˇzlutá – rumba, zelená – quickstep, r˚ uˇzová – waltz, fialová – v´ıdeˇ nsk´ y valˇc´ık. 2.1.4

Forma

Oblast´ı zjiˇst’ován´ı formáln´ı struktury hudebn´ı ukázky se zab´ yvá discipl´ına nazvaná Automatická segmentace audia (Automatic Audio Segmentation) (Ong, 2007). Na formu hudebn´ı ukázky m˚ uˇzeme pohl´ıˇzet z mnoha hledisek. Je to zˇrejmˇe nejabs-

12

2


Obrázek 4: Klasick´ a a rockov´ a hudba (Lidy – Rauber, 2008)

Obrázek 5: Tˇr´ıdˇen´ı podle rytmu (Lidy – Rauber, 2008)

traktnˇejˇs´ı charakteristika zvukového dˇen´ı. Nalezneme ji ve velice promyˇslen´ ych strukturách váˇzné hudby, kde se vˇetˇs´ı ˇca´sti skládaj´ı z ˇca´st´ı menˇs´ıch, v hudbˇe populárn´ı a lidové v podobˇe refrén˚ u atd. Zaj´ımavé vˇsak je, ˇze urˇcit´ y zp˚ usob ˇclenˇen´ı projevu pouˇz´ıvaj´ı i zv´ıˇrata. U zpˇevu pták˚ u si m˚ uˇzeme vˇsimnout r˚ uzn´ ych druh˚ u v´ yrazu, které se urˇcit´ ym zp˚ usobem stˇr´ıdaj´ı (melodie m˚ uˇze zaˇc´ınat pokaˇzdé témˇeˇr stejnˇe a po krátké pauze na ni naváˇze origináln´ı zakonˇcen´ı, toto se s mal´ ymi obmˇenami stále opakuje – mohli bychom tuto formu zaznamenat jako ABACADAEAF atd.). ˇ en´ı hudebn´ıho sdˇelen´ı do urˇcit´ Clenˇ ych ˇcást´ı je tedy jak´ ysi pˇrirozen´ y princip. Mohli bychom uvaˇzovat, jestli tato snaha nˇejak souvis´ı s komunikac´ı. V bˇeˇzném zp˚ usobu ˇreˇci (nemysl´ıme zde básnˇe atp.) se forma nacház´ı v dosti skryté podobˇe. Je to v podstatˇe promˇenliv´ y proud slov, vˇet. Nevyskytuj´ı se tu opakován´ı, kontrastn´ı zmˇeny a jiné typické prvky pro hudebn´ı formu. Zato tu ale nacház´ıme myˇslenky, které se rozv´ıjej´ı, navrac´ıme se k nim atd. Jakoby konkrétn´ı vyjádˇren´ı smyslu pomoc´ı slov nutnost pouˇzit´ı formáln´ıch hudebn´ıch v´ yraz˚ u pozmˇen ˇovalo. Zaj´ımavé také je, ˇze formu ABA m˚ uˇze m´ıt 10-ti sekundov´ y popˇevek stejnˇe tak, jako hodinové orchestráln´ı d´ılo. Hudebn´ı forma souvis´ı také s pojmy hudebn´ıch myˇslenek“, ovˇsem na tom, kde ” jedna myˇslenka zaˇc´ıná, kde konˇc´ı a zaˇc´ıná jiná se ˇcasto nemohou shodnout ani lidé

2.1


13

zab´ yvaj´ıc´ı se hudebn´ım rozborem. To ukazuje, ˇze je tato záleˇzitost velmi subjektivn´ı a zˇrejmˇe tˇeˇzko uchopitelná pomoc´ı metod a vˇedomost´ı, které máme dnes k dispozici. V´ıce poznatk˚ u o soudobé hudebn´ı formˇe nalezneme v (Iˇstvan, 2000). Dalˇs´ı formáln´ı rozbory smyˇccov´ ych kvartet Miloslava Iˇstvana vˇcetnˇe jednoduch´ ych grafick´ ych diagram˚ u nalezneme v (Fil´ıpek – Indrák, 2010). V (Peiszer et al., 2008) autoˇri ukazuj´ı dvoufázov´ y algoritmus ˇreˇs´ıc´ı u ´lohu automatické segmentace audia. Segmentem rozum´ıme jednotn´ y d´ıl, tvoˇr´ıc´ı ˇcást formy. V prvn´ı fázi se algoritmus snaˇz´ı naj´ıt hranice segment˚ u (kde jeden d´ıl konˇc´ı a druh´ y zaˇc´ıná). V´ ysledek vid´ıme na Obr. 6.

Obrázek 6: Hranice segment˚ u (Peiszer, 2007)

Na tuto fázi nastupuje druhá fáze detekuj´ıc´ı strukturu. Nahrávka se rozdˇel´ı na ˇcasová pol´ıˇcka, pro která se z´ıská charakteristick´ y vektor (zahrneme do nˇej vˇsechny vlastnosti, které chceme brát pˇri z´ıskáván´ı formy v potaz. Tyto vektory se navzájem porovnaj´ı v dvourozmˇerné matici podobnosti (self-similarity matrix). Takto se z´ıskaj´ı hranice podobn´ ych segment˚ u. Pˇredpokládá se, ˇze budou segmenty stejného typu A, B atd. reprezentovány stejn´ ymi charakteristikami. Pouˇzije se uˇcen´ı bez uˇcitele. Kaˇzdému segmentu se pˇriˇrad´ı charakteristick´ y vektor odvozen´ y z charakteristick´ ych vektor˚ u ˇcasov´ ych okének, které obsahuje. Ke shlukován´ı se pouˇzije standardn´ı k-means algoritmus. V´ ysledek zobrazuje obrázek 7. 2.1.5

Informaˇ cn´ı hustota

Tato charakteristika asi nejv´ıce souvis´ı s hudebn´ı formou. Vystihuje dále pojmy jako hudebn´ı napˇet´ı (Iˇstvan, 2000) a entropie (Abdallah – Plumbley, 2007).

14

2


Obrázek 7: Shlukov´ an´ı segment˚ u (Peiszer, 2007)

2.1.6

Tˇr´ıdˇ en´ı podle autora, ˇ z´ anru, v´ıce krit´ eri´ı

V (Rauber – Fr¨ uhwirth, 2001) je popsán systém zaloˇzen´ y na samoorganizuj´ıc´ı se mapˇe, kter´ y automaticky tˇr´ıd´ı zvukové soubory vzhledem k jejich ˇzánru a zvukov´ ym charakteristikám. K z´ıskán´ı vektor˚ u popisuj´ıc´ıch zvukové vlastnosti se autoˇri nesnaˇz´ı z´ıskat precizn´ı notov´ y pˇrepis, ale jsou pouˇzity frekvenˇcn´ı spektra. Dvoufázov´ y proces nejprve shlukuje jednotlivé zvukové segmenty skladeb na základˇe jejich podobnosti a poté se shlukuj´ı celé skladby v souladu s tˇemito segmenty. Skladby s podobn´ ymi charakteristikami se potom ve v´ ysledné mapˇe objevuj´ı v sousedstv´ı. Takto z´ıskáme velmi intuitivn´ı rozhran´ı k prozkoumáván´ı neznám´ ych zvukov´ ych soubor˚ u. Nev´ yhoda tohoto zp˚ usobu spoˇc´ıvá v hodnocen´ı pouze s ohledem na frekvenˇcn´ı spektrum. Autoˇri navrhuj´ı dalˇs´ı moˇzná vylepˇsen´ı t´ ykaj´ıc´ı se napˇr´ıklad zpracován´ı v´ıce charakteristik bˇehem vytváˇren´ı vstupn´ıho vektoru – zahrnout zde také rytmické a dynamické charakteristiky. Také by se dalo pouˇz´ıt váhov´ ych funkc´ı pro rozliˇsen´ı d˚ uleˇzitosti tˇech ˇci onˇech charakteristik. Dalˇs´ı moˇzné vylepˇsen´ı by mohlo pˇrinést zjemˇ nován´ı mˇr´ıˇzky Kohonenovy mapy. V (Maˇr´ık et al., 2003) je popsáno doplˇ nován´ı dalˇs´ıch neuron˚ u pomoc´ı lineárn´ı interpolace. Takto doplnˇená mˇr´ıˇzka je poté dotrénována. Zaj´ımavé by také bylo mapován´ı do v´ıcerozmˇerného prostoru a poté jeho prohl´ıˇzen´ı v r˚ uzn´ ych pr˚ umˇetech. To by nám umoˇznilo napˇr´ıklad pozorovat v jednom pr˚ umˇetu spektráln´ı spojitosti nahrávek, v jiném rytmické podobnosti, v dalˇs´ım formáln´ı atd. Dalˇs´ı informace na téma klasifikace podle ˇzańru nalezneme v (Guaus, 2009), (Mayer et al., 2008a), (Mayer et al., 2008b). Experiment pouˇzit´ı neuronové s´ıtˇe v oblasti klasifikace podle autora nalezneme v (Pape et al., 2008). Je zde pouˇzita jiˇz zm´ınˇená architektura DLSM na jin´ y typ u ´lohy. Pˇri anal´ yze se vycház´ı z MIDI (viz3.2.2) záznamu. V nˇem máme zapsanou tónovou v´ yˇsku a délku, na zabarven´ı zvuku se v tomto experimentu nebere ohled. Neuronová s´ıt’ má za u ´kol od sebe rozliˇsit ukázky z Bachova Dobˇre temperovaného

2.1

15


klav´ıru a ukázky z Beethovenov´ ych klav´ırn´ıch sonát. Tato u ´loha je d´ıky tomu, ˇze oba skladatelé patˇr´ı do jin´ ych stylov´ ych obdob´ı, jednoduˇsˇs´ı a navazuje na ni u ´loha rozliˇsit smyˇccová kvarteta od Haydna a Mozarta, kteˇr´ı jsou si stylovˇe mnohem bl´ıˇze. MIDI soubor je pˇreveden na ˇcasovou posloupnost tak, aby se zachovaly informace o v´ yˇsce a délce tónu. Testuje se zde nˇekolik algoritm˚ u klasifikace. Nejjednoduˇsˇs´ı z nich pouze sˇc´ıtá celkovou délku jednotliv´ ych tónov´ ych v´ yˇsek a vytváˇr´ı tak jak´ ysi pˇrevod z ˇcasové do v´ yˇskové domény. Z tréninkové mnoˇziny pak vybere tˇr´ıdu, která má nejmenˇs´ı ´ eˇsnost klasifikace tohoto algoritmu je 71,3% diferenci ve v´ yˇskové charakteristice. Uspˇ pˇr´ıpad˚ u, zat´ımco u ´spˇeˇsnost DLSM je 92,7% pˇr´ıpad˚ u u rozliˇsován´ı mezi Bachem a Beethovenem. V sloˇzitˇejˇs´ım pˇr´ıpadˇe Haydna a Mozarta je to 54,9% a 63,5% pro DLSM. Bˇehem konference pro v´ ymˇenu informac´ı z oblasti z´ıskáván´ı informac´ı z hudby MIREX 2005 (MIR, 2005) byl proveden test r˚ uzn´ ych algoritm˚ u pro klasifikaci nahrávek podle jejich ˇzańru s v´ ysledky uveden´ ymi v tabulce 1. Tabulka 1: Porovn´ an´ı algoritm˚ u tˇr´ıdˇen´ı audia dle ˇzánru (MIR, 2005)

Poˇ rad´ı 01 02 03 04 05 06 07 08 09 10 11 12 13

2.1.7

´ castn´ık Uˇ Bergstra, Casagrande & Eck (2) Bergstra, Casagrande & Eck (1) Mandel & Ellis West, K. Lidy & Rauber (SSD+RH) Pampalk, E. Lidy & Rauber (RP+SSD) Lidy & Rauber (RP+SSD+RH) Scaringella, N. Ahrendt, P. Burred, J. Soares, V. Tzanetakis, G.

´ eˇ Uspˇ snost v % 82 81 78 75 75 75 74 74 73 71 62 60 60

ˇ Casov´ a podobnost

Hudebn´ı události nemus´ı b´ yt na stejnˇe dlouh´ ych ˇcasov´ ych okamˇzic´ıch. Barvu zvuku, jenˇz dosáhneme urˇcit´ ym nástrojov´ ym sloˇzen´ım m˚ uˇzeme pouˇz´ıt jen na nˇekolika sekundách, pˇritom m˚ uˇze m´ıt stejnou barvu celá skladba. Stejná melodie a rytmus mohou b´ yt rozprostˇreny na libovolnˇe dlouh´ y ˇcasov´ y u ´sek (diminuce, augmentace, tempo). Forma ABA m˚ uˇze b´ yt nˇekolikaminutová i nˇekolikahodinová. 2.1.8

Procesy

B´ yvá také bˇeˇzné (od zpˇevu pták˚ u po klasickou hudbu), ˇze se zejména na melodie a rytmus aplikuje urˇcit´ y proces (Medek, 1998), kter´ y ji transformuje do jiné podoby.

16

2


Vzor a obraz jsou také podobné. Z nejznámˇejˇs´ıch proces˚ u jmenujme rak – melodie se zap´ıˇse pozpátku, inverzi – melodie se vertikálnˇe pˇreklop´ı kolem urˇcitého stˇredu soumˇernosti. 2.1.9

Stupnice

Pˇri urˇcován´ı melodie se snaˇz´ıme nacházet tóny na základˇe jejich frekvenc´ı a pomoc´ı nich nalézt melodii. Je tu vˇsak nˇekolik zásadn´ıch problém˚ u. Napˇr´ıklad m˚ uˇze b´ yt melodie v jiném systému ladˇen´ı, neˇz je evropsk´ y (Serrà, 2011) (temperované ladˇen´ı). Zjiˇstˇené frekvence tón˚ u potom do naˇs´ı osnovy“ nebudou zapadat. Jiná komplikace ” nastane, pokud napˇr´ıklad zpˇevák nedrˇz´ı pˇri zpˇevu pevnou v´ yˇsku tónu – urˇcen´ı nˇejaké frekvence je tedy komplikované aˇz nemoˇzné. Dále se m˚ uˇzeme setkat s nahrávkou vyladˇen´ ych bic´ıch nástroj˚ u. Vyladˇen´ ych vˇsak jen tak, ˇze jsme schopni ˇr´ıci tento je ” vyˇsˇs´ı, neˇz tento“, pevné frekvence vˇsak ani zde nenalezneme. V tˇechto situac´ıch se nab´ız´ı následuj´ıc´ı postup (Fejfar – Lud´ık, 2009): nalézt hranice mezi r˚ uzn´ ymi tóny“, ” v tˇechto tónech nalézt shluky, tyto poté seˇradit a vytvoˇrit individuáln´ı stupnici“. ” Dále si zkusme ukázat moˇzné vyuˇzit´ı tohoto principu pˇri nalézán´ı harmonické struktury. Opˇet je bˇeˇzn´ y pˇr´ıstup, snaˇz´ıc´ı se rozkládat souzvuky na jednotlivé tóny a z jejich kombinac´ı poté urˇcit, jaké akordy tvoˇr´ı. Problémy nastanou, pokud budeme hodnotit hudbu za hranicemi tonality, pouˇz´ıvaj´ıc´ı netradiˇcn´ı nástroje atd. Pˇritom se nedá ˇr´ıci, ˇze by zde neplatily obecné principy harmonie. Znovu by se zde dal vyuˇz´ıt v´ yˇse popsan´ y princip – nalézt hranice mezi r˚ uzn´ ymi souzvuky, nalézt jejich shluky a tyto hodnotit. Napˇr´ıklad nejpoˇcetnˇejˇs´ı ze shluk˚ u oznaˇcit jako tóniku atd. Rytmické struktury jsou, i kdyˇz se to na prvn´ı pohled nezdá, velmi podobné na harmonické. Skladba hraná v jednom tempu je analogická skladbˇe hrané na jeden ” akord“. Pomˇer základn´ıho tónu a jeho oktávy odpov´ıdá pomˇeru základn´ıho tempa a dvojnásobné rychlosti (1 : 2), kvinta odpov´ıdá triolovému pomˇeru (2 : 3), kvarta rychlejˇs´ı triole (3 : 4) atd.

2.2

Spoleˇ cn´ e vlastnosti – zvukov´ y objekt

Zvukov´ y objekt (Janer et al., 2009) reprezentuje jakoukoli zvukovou událost, kterou dokáˇzeme vn´ımat. M˚ uˇze se jednat o tón, u ´der, interval, rytmus, hudebn´ı myˇslenku, ˇca´st hudebn´ı formy atd. Hudebn´ı objekt má své charakteristické vlastnosti, na základˇe kter´ ych je rozpoznateln´ y od jin´ ych hudebn´ıch objekt˚ u. Nahrávka se skládá z hudebn´ıch objekt˚ u. Tradiˇcnˇe se popis hudebn´ıho objektu rozliˇsuje na pohled z hlediska v´ yˇskov´ ych vztah˚ u, horizontáln´ıch vztah˚ u a formy. Kaˇzdou tuto kvalitu vn´ımáme jin´ ym zp˚ usobem. V´ yˇsku slyˇs´ıme, do tempa a rytmu se vc´ıt´ıme a formu pˇri poslechu skladby abstrahujeme. Jakoby kaˇzdá tato kvalita byla spojena s jin´ ym smyslov´ ym“ vjemem. ” Vˇsechny tyto vlastnosti vˇsak maj´ı spoleˇcného jmenovatele a t´ım je ˇcas. V pˇr´ıpadˇe v´ yˇskov´ ych vztah˚ u vn´ımáme poˇcet kmit˚ u za sekundu (jednotkou je hertz), v pˇr´ıpadˇe tempa poˇcet u ´der˚ u za minutu (bpm) – posunuli jsme se pouze na jinou u ´roveˇ n. Rytmus je uspoˇra´dán´ı událost´ı (zejména zaˇcátk˚ u tón˚ u) v ˇcase – v ˇcasovém mˇeˇr´ıtku

2.3

17

Vizualizace, organizace

shodném s tempem. Forma d´ıla je opˇet uspoˇrádán´ı událost´ı v ˇcase (tentokrát cel´ ych hudebn´ıch objekt˚ u) a v mnohem vˇetˇs´ım ˇcasovém mˇeˇr´ıtku, opˇet o u ´roveˇ n v´ yˇse. Tyto vztahy zachycuje Tab. 2. Ze znalosti v´ yˇsky tón˚ u m˚ uˇzeme odvozovat jejich vzájemné uspoˇrádán´ı do souzvuk˚ u (nˇekdy akord˚ u), ze znalosti tempa m˚ uˇzeme odvozovat rytmické vztahy. Stejnˇe, jako se mˇen´ı tónina skladby a vˇsechen materiál tak transponujeme v´ yˇs ˇci n´ıˇz (intervaly mezi tóny z˚ ustávaj´ı zachovány), mˇen´ı se i tempo skladeb a vˇse se pak odv´ıj´ı rychleji, ˇci pomaleji (pˇri zachován´ı pomˇeru rychlost´ı). Tabulka 2: Spoleˇcné vlastnosti charakteristik vyˇsˇs´ı u ´rovnˇe

Událost Sledujeme? Rozmˇer Abs. mˇeˇr´ıtko Rel. mˇeˇr´ıtko Ref. veliˇcina

2.3

Barva Kmit Spektrum Sekunda Spektrum ??? ???

V. vztahy Kmit Frekvence Sekunda Hz Interval Tónina

H. vztahy poˇca´tek zvuku uspoˇra´dán´ı Minuta Bpm Celá, p˚ ulová Metrum

Forma Hudebn´ı objekt uspoˇra´dán´ı Trván´ı skladby Forma ??? ???

Vizualizace, organizace

V práci (Pampalk et al., 2003) autoˇri nab´ızej´ı nov´ y koncept hodnocen´ı podobnosti a vyhledáván´ı v hudebn´ıch sb´ırkách pomoc´ı zobrazován´ı záznam˚ u z mnoha po” hled˚ u“. Kombinuj´ı se r˚ uzná hlediska a uˇzivatel si m˚ uˇze vyb´ırat, která jsou pro nˇej v tu chv´ıli zaj´ımavá. Z hlediska histogramu spektra a histogramu periodicity se tvoˇr´ı dva r˚ uzné pohledy na stejná data. Dále autoˇri kombinuj´ı tyto dva pohledy s pohledem zamˇeˇren´ ym na meta informace (obecnˇe s pohledem, kde neexistuje vektorov´ y prostor – napˇr. osobn´ı hodnocen´ı, autoˇri atd.). Autoˇri zde pouˇz´ıvaj´ı novou techniku nazvanou uspoˇra´dané Kohonenovy mapy (alligned SOM) (Pampalk, 2003), která uˇzivateli umoˇzn ˇuje tyto pohledy kombinovat a sledovat tak nahrávky z r˚ uzn´ ych hledisek. V (Pampalk et al., 2004) autoˇri pˇredstavuj´ı hierarchické shlukován´ı pomoc´ı Kohonenov´ ych map. Obyˇcejné Kohonenovy mapy totiˇz postrádaj´ı moˇznost extrahovat ze zpracovávan´ ych dat jejich hierarchickou strukturu. Pouˇz´ıvaj´ı zde rostouc´ı hierarchické Kohonenovy mapy (Growing Hierarchical Self-Organizing Map) (Dittenbach et al., 2005) jeˇz ˇreˇs´ı tento problém skrze flexibiln´ı strukturu, jenˇz pˇri prokládán´ı dat nar˚ ustá. Pomoc´ı mˇeˇr´ıtek zaloˇzen´ ych na variaci dat se rozhoduje, které oblasti mapy jsou vhodn´ ymi kandidáty pro hierarchickou expanzi. Autoˇri zde nab´ızej´ı dalˇs´ı vylepˇsen´ı ˇreˇs´ıc´ı nˇekteré nedostatky GHSOM. Dalˇs´ı práce zab´ yvaj´ıc´ı se organizac´ı archiv˚ u jsou (Rauber et al., 2002b), (Pampalk et al., 2002b). Na obrázku 8 vid´ıme seskupen´ı r˚ uzn´ ych hudebn´ıch ukázek do tzv. hu” debn´ıch ostrov˚ u“. Mapy reprezentuj´ı stejné ukázky ze dvou extrémn´ıch pohled˚ u.

18

2


Obrázek 8: Uspoˇr´ adané Kohonenovy mapy (Pampalk et al., 2003)

Obrázek a“(vlevo) je pouze z rytmického hlediska, obrázek b“(vpravo) pouze ze ” ” spektráln´ıho hlediska. Pokud se na ukázky d´ıváme z hlediska jejich spektra, je ostrov klasické hudby (vlevo nahoˇre) rozdˇelen na dva ostrovy H a I, kde H reprezentuje klav´ırn´ı hudbu a I orchestráln´ı (orchestráln´ı hudba má ˇsirˇs´ı frekvenˇcn´ı spektrum). Z pohledu periodicity se v této oblasti vytvoˇr´ı jeden velk´ y ostrov, jenˇz zahrnuje veˇskerou hudbu klasickou – ostrov A a spojuje ho nav´ıc s ostrovem G, kde m˚ uˇzeme nalézt i hudbu neklasickou“ napˇr. p´ıseˇ n Little Drumer Boy od Crosbyho a Bowieho, ” nebo Yesterday od Beatles. Pˇrestoˇze jsou v mapách jisté rozd´ıly, z˚ ustává celková orientace stejná. Zvláˇstˇe ostrovy A a H/I, C a J, D/E a K, G a M obsahuj´ı pˇreváˇznˇe stejné hudebn´ı ukázky, coˇz ukazuje na jejich pˇr´ıbuznost ve v´ıce ohledech. Lákavé by zde bylo napˇr´ıklad vyhledáván´ı ostrova typick´ ych zástupc˚ u“ a naopak ukázek ” patˇr´ıc´ıch, co se t´ yˇce spektra, na jin´ y ostrov, neˇz co se t´ yˇce rytmu.

2.4

Shrnut´ı

Pokud bychom mˇeli nˇejak´ ym zp˚ usobem shrnout obsah pˇredeˇsl´ ych kapitol, dalo by se ˇr´ıci, ˇze je moˇzno klasifikovat ze dvou základn´ıch hledisek: • Hlasitost a barva zvuku. Tyto veliˇciny urˇcujeme pˇri poslechu okamˇzitˇe, nepotˇrebujeme si pamatovat pˇredeˇslé zvukové dˇen´ı. Pˇri zpracován´ı poˇc´ıtaˇcem pro nˇe vˇetˇsinou pouˇz´ıváme charakteristiky signálu ve frekvenˇcn´ı oblasti. Pro jejich urˇcen´ı se vol´ı velmi krátká ˇcasová okénka, v nichˇz se povaˇzuj´ı za konstantn´ı. Jejich pr˚ ubˇeh je posléze moˇzno sledovat podél celé nahrávky. • Melodie, rytmus, forma. Zde mus´ıme brát v u ´vahu delˇs´ı ˇcasov´ yu ´sek, na kterém tyto u ´tvary posuzujeme. Nemá smysl mluvit o melodii v rámci u ´seku dlouhého zlomek sekundy. U rytmu je tento ˇcasov´ y u ´sek asi stejnˇe dlouh´ y, u formy je jeˇstˇe delˇs´ı. Pro jejich urˇcován´ı m˚ uˇzeme vyuˇz´ıt i charakteristik v ˇcasové oblasti. Je tˇreba si ale uvˇedomit, ˇze i forma m˚ uˇze b´ yt tvoˇrena hudebn´ımi objekty charakteristick´ ymi svou barvou.

3

3

´ Í ZVUKOVEHO ´ ´ ZPRACOVAN SIGNALU

19

Zpracov´ an´ı zvukov´ eho sign´ alu

Signál m˚ uˇzeme definovat jako fyzikáln´ı veliˇcinu pˇrenáˇsej´ıc´ı nˇejakou zprávu (Zaplat´ılek – Doˇ nar, 2006). Mnoˇzstv´ı pˇrenesené informace závis´ı ve velké m´ıˇre na pˇr´ıjemci. Zkuˇsen´ y hudebn´ık dokáˇze napˇr´ıklad z nahrávky z´ıskat mnohem v´ıce informac´ı neˇz posluchaˇc, jenˇz se hudbou nezab´ yvá. Také m˚ uˇzeme ˇr´ıci, ˇze kupˇr´ıkladu pták z´ıská ze zpˇevu ostatn´ıch koleg˚ u jiné informace, neˇz ˇclovˇek. Mnoˇzstv´ı pˇrenesené inforˇ ım v´ıce dokáˇzeme pˇredpov´ıdat, co v bumace lze mˇeˇrit pomoc´ı m´ıry neurˇcitosti. C´ douc´ıch chv´ıl´ıch uslyˇs´ıme, t´ım ménˇe informac´ı z poslechu z´ıskáváme. Zaj´ımavé je, ˇze pokud tedy posloucháme hudbu (a jej´ı interpretaci), kterou známe, ˇza´dné nové informace nám jiˇz poslech nepˇrináˇs´ı. To souvis´ı s jevem, ˇze uˇz nás poslech oposlouchané“ ˇ ım je hudba sloˇzitˇejˇs´ı, t´ım déle trvá, neˇz ”velké mnoˇzstv´ı hudby neuspokojuje. C´ v signálu obsaˇzen´ ych informac´ı z´ıskáme a poslech nás pˇrestane bavit. Otv´ırá se tu velmi zaj´ımavá otázka moˇznosti mˇeˇrit“ zaj´ımavost hudby. Ta vˇsak vˇzdy z˚ ustane ve ” velké m´ıˇre závislá na posluchaˇci. Naˇsim c´ılem je ze signálu – zvuku z´ıskat co nejv´ıce informac´ı a ty zprostˇredkovat posluchaˇci. Abychom mohli s reáln´ ymi signály efektivnˇe pracovat, mus´ıme je vhodn´ ym zp˚ usobem modelovat. Reálné signály popsat zp˚ usobem, jenˇz uchová charakteristiky signálu, které pˇrenáˇsej´ı pro nás podstatné informace. V pˇr´ıpadˇe zvuku je pro nás podstatn´ y pr˚ ubˇeh amplitudy. Nezávislou promˇennou je zde ˇcas, závisle promˇennou je amplituda. Takovémuto signálu ˇr´ıkáme jednorozmˇern´ y signál a m˚ uˇzeme ho zobrazit v rovinˇe. Signál souvisl´ y v ˇcase a hodnotách naz´ yváme analogov´ y. Ten vznikne kupˇr´ıkladu pouˇzit´ım mikrofonu, jenˇz pˇrevede zmˇeny tlaku vzduchu na zmˇeny elektrického napˇet´ı. Pˇri zpracován´ı digitáln´ı technikou analogov´ y signál pouˇzit´ım A/D pˇrevodn´ıku diskretizujeme jak v ˇcase (vzorkovac´ı frekvence – obvykle 44 kHz), tak v hodnotách (poˇcet bit˚ u, do nichˇz ukládáme namˇeˇrenou amplitudu – obvykle 16 bit˚ u – 65 536 hodnot). Dalˇs´ı vlastnost´ı, kterou u zvuku m˚ uˇzeme uvaˇzovat, je periodicita. Signál je periodick´ y, pokud je splnˇena podm´ınka 1, v intervalu t ∈ (−∞, ∞). s(t) = s(t + k · T0 ),

k = 0, 1, 2, ...

(1)

s(t) je hodnota signálu v ˇcase t a T0 je perioda. Tuto podm´ınku v praxi zjednoduˇsujeme a za periodické povaˇzujeme i signály, jenˇz obsahuj´ı dostateˇcn´ y poˇcet cykl˚ u po dobu trván´ı pozorován´ı. To plat´ı kupˇr´ıkladu u tón˚ u, které maj´ı po dobu svého trván´ı v´ıceménˇe stejnou frekvenci. Situace je sloˇzitˇejˇs´ı napˇr´ıklad u ˇreˇci, kde konstantn´ı frekvenci nalézáme jen obˇcas. Jelikoˇz se nav´ıc dá pr˚ ubˇeh zvukového signálu modelovat funkcemi sinus a kosinus, m˚ uˇzeme ho také oznaˇcit jako signál harmonick´ y. Pˇri popisu periodického signálu pouˇz´ıváme také frekvenci 2 a u ´hlovou frekvenci 3. F0 = ω=

1 T0

[Hz = s−1 ]

2π = 2πF0 T0

[s−1 ]

(2) (3)

20

3


V oblasti zvuku dále nalézáme jak deterministické, tak stochastické signály. Kupˇr´ıkladu pr˚ ubˇeh signálu u poˇc´ıtaˇcové hudby m˚ uˇzeme teoreticky pˇresnˇe spoˇc´ıtat v libovolném okamˇziku pokud známe noty (pˇr´ıpadnˇe MIDI) a parametry oscilátoru. Z pohledu teorie informace tedy takov´ y záznam nenese ˇza´dnou informaci. Horˇs´ı uˇz by to bylo s v´ ypoˇctem hodnot signálu u ˇzivého vystoupen´ı, ˇreˇci, zpˇevu pták˚ u. V takov´ ych pˇr´ıpadech bychom jen stˇeˇz´ı vytvoˇrili pˇresn´ y model, povaˇzujeme tedy tyto signály za stochastické a modelujeme je s urˇcitou chybou. Zvukov´ y signál m˚ uˇzeme z´ıskat nˇekolika zp˚ usoby. Bud’to zvuk syntetizovat (Serra, 1989), (Lidy et al., 2005) nebo nahrát. U nahrávek se bude jednat o stochastick´ y signál, u syntetizovaného zvuku o deterministick´ y (budeme m´ıt pˇresn´ y model, jak zvuk vznikl). Oba tyto signály maj´ı r˚ uzné vlastnosti a v práci budeme vyuˇz´ıvat oboje. V obou pˇr´ıpadech dostaneme analogov´ y signál, kter´ y mus´ıme pro potˇreby zpracován´ı na poˇc´ıtaˇci diskretizovat.

3.1

Zvuk a jeho vn´ım´ an´ı

Zvuk se ˇs´ıˇr´ı jako periodické zmˇeny tlaku vzduchu, tedy podéln´ ym vlnˇen´ım. Závislost tlaku vzduchu na ˇcase v konkrétn´ım m´ıstˇe popisuje rovnice harmonického kmitán´ı (vztah 4) u0 t = A sin ωt

(4)

kde A je amplituda tlaku vzduchu, ω je u ´hlová frekvence zmˇen tlaku vzduch a lze ji vypoˇc´ıtat pomoc´ı vztahu 3. Na vn´ımán´ı zvuku se odráˇz´ı mnoho faktor˚ u, jak m˚ uˇzeme naj´ıt napˇr´ıklad v (Fastl – Zwicker, 2007) nebo (Psychoakustika). Nejd˚ uleˇzitˇejˇs´ı z nich jsou uvedeny v následuj´ıc´ım pˇrehledu. Lidé vn´ımaj´ı zvuk o frekvenc´ıch v rozsahu 20 Hz – 20 kHz. Ve vztahu 4 v´ yˇsku tónu popisuje u ´hlová frekvence ω. S rostouc´ım vˇekem pˇrestáváme b´ yt schopni vn´ımat vysoké tóny. Nejcitlivˇejˇs´ı je ˇclovˇek na frekvence v rozmez´ı 2 – 4 kHz, kde se nacház´ı pásmo ˇreˇci. Na frekvenci je také závislá vzdálenost, na kterou se zvuk ˇs´ıˇr´ı: vˇetˇs´ı dosah maj´ı n´ızké frekvence. Z toho d˚ uvodu napˇr´ıklad slyˇs´ıme ze vzdáleného koncertu hlavnˇe basy a bic´ı. Dynamick´ y rozsah je rozd´ıl mezi nejhlasitˇejˇs´ım a nejtiˇsˇs´ım vn´ımateln´ ym zvukem. Uprostˇred slyˇsitelného frekvenˇcn´ıho spektra je asi 120 dB. Hlasitost zvuku popisuje ve vztahu 4 veliˇcina A, je tedy závislá na amplitudˇe zmˇen tlaku v ˇcase. Vn´ımaná hlasitost zvuku je vˇsak jeˇstˇe závislá na frekvenci, jak ukazuje obrázek 9. Jednotkou hlasitosti je u ´roveˇ n tlaku vzduchu (Sound Pressure Level) a mˇeˇr´ı se v decibelech. Lze ji urˇcit pomoc´ı vztahu 5. 2 p p = 20 log10 (5) Lp = 10 log10 p2ref pref

3.2

Modelován´ı zvukového dˇen´ı

21

Obrázek 9: Kˇrivky stejné hlasitosti (Mathworks.com, 2010)

Rozliˇsovac´ı frekvence je schopnost rozliˇsit 2 r˚ uzné frekvence (v´ yˇsky tón˚ u). Tato schopnost je u kaˇzdého ˇclovˇeka jiná. Uprostˇred slyˇsitelného spektra je za ideáln´ıch podm´ınek nˇekolik cent˚ u. Jeden cent je 1/1200 oktávy (viz kapitola 3.2.2). Kritické pásmo (critical band) vystihuje fakt, ˇze v´ yˇskové vztahy zvuku vn´ımáme ve vnitˇrn´ım uchu pomoc´ı hlem´ yˇzdˇe s Cortiho orgánem. Hlem´ yˇzd’ lze pomyslnˇe rozdˇelit do tzv. kritick´ ych pásem, pˇriˇcemˇz kaˇzdé pásmo detekuje jiné frekvence. Pokud znˇej´ı dva frekvenˇcnˇe bl´ızké tóny souˇcasnˇe, m˚ uˇze jeden z nich potlaˇcit slyˇsitelnost druhého. Tomuto jevu ˇr´ıkáme frekvenˇcn´ı a ˇcasové maskován´ı. Jev závis´ı na frekvenˇcn´ı vzdálenosti a u ´rovni maskuj´ıc´ıho signálu. Pokud po hlasitém tónu nastupuje tón tich´ y, je jeho vn´ımán´ı také potlaˇceno.

3.2

Modelov´ an´ı zvukov´ eho dˇ en´ı

Nejobecnˇeji m˚ uˇzeme zvuk popsat jako spojit´ y aperiodick´ y stochastick´ y signál, tomu odpov´ıdá kupˇr´ıkladu analogov´ y signál z mikrofonu. Je spojit´ y, jelikoˇz je tlak vzduchu dopadaj´ıc´ı na membránu mikrofonu pomoc´ı elektromagnetu pˇremˇenˇen na napˇet´ı, jenˇz se v ˇcase plynule mˇen´ı. Protoˇze v ˇcasovém intervalu nahrávky nen´ı splnˇena podm´ınka 1, nem˚ uˇzeme tedy signál povaˇzovat za periodick´ y. Na sloˇzitém pr˚ ubˇehu signálu se pod´ıl´ı obrovské mnoˇzstv´ı vliv˚ u, jako napˇr´ıklad nejr˚ uznˇejˇs´ı zvuky

22

3


pˇrim´ıchané z okol´ı, ˇsumy a hluk. Z toho d˚ uvodu nen´ı moˇzné pr˚ ubˇeh signálu dopˇredu urˇcit a povaˇzujeme jej tedy za stochastick´ y. Jin´ y extrém je zvuk generovan´ y poˇc´ıtaˇcem. V poˇc´ıtaˇci je zvuk reprezentován hodnotami amplitudy v ˇcasov´ ych okamˇzic´ıch. Takov´ y signál je tedy diskrétn´ı, i kdyˇz b´ yvá vzdálenost mezi ˇcasov´ ymi okamˇziky velmi malá (viz 3.2.1), takˇze v´ ysledek zn´ı stejnˇe jako signál analogov´ y. V omezen´ ych ˇcasov´ ych okamˇzic´ıch je také takov´ y signál periodick´ y. A jelikoˇz jsou vˇsechny parametry oscilátoru generuj´ıc´ıho zvuk dány, m˚ uˇzeme ho povaˇzovat za deterministick´ y. 3.2.1

Zvuk

Digitálnˇe se audio signál zaznamenává pomoc´ı pulznˇe kódové modulace viz obrázek 10. Vzorkovac´ı frekvence se vol´ı podle Nyquistovy vzorkovac´ı vˇety (Nyquist, 2002) alespoˇ n dvojnásobná oproti frekvenci zaznamenávaného signálu. Jak bylo uvedeno v kapitole 3.1, dokáˇz´ı lidé vn´ımat zvuk do frekvence 22000 Hz. Potˇrebujeme u toho signálu zachytit minimálnˇe kladnou a zápornou ˇca´st amplitudy, tedy 2 vzorky na kmit. Vycház´ı tedy vzorkovac´ı frekvence 44100 Hz. Kóduje se obvykle s rozliˇsen´ım 16 bit˚ u, tedy máme pro hodnotu signálu 65536 moˇzn´ ych hodnot.

Obrázek 10: Pulznˇe k´ odov´ a modulace

Toto odpov´ıdá standardn´ımu zp˚ usobu uloˇzen´ı nahrávek na CD disc´ıch. V´ yhodou i nev´ yhodou tohoto formátu je uloˇzen´ı velkého mnoˇzstv´ı informac´ı. Mnoˇzstv´ı pamˇeti potˇrebné pro zachycen´ı zvuku m˚ uˇzeme vypoˇc´ıtat podle vztahu 6

3.2

23


B = t · fv · b · k

(6)

kde t je délka nahrávky fv je poˇcet vzork˚ u za sekundu, b je poˇcet bit˚ u na vzorek a k je poˇcet kanál˚ u. Pro minutu stereo nahrávky nám vyjde 60·44000·16·2 = 84 480 000 bit˚ u, coˇz je pˇribliˇznˇe 10 MB. ˇ V´ yhoda, vysoká kvalita záznamu, je nesporná. Casto jde o nahrávky událost´ı, které se uˇz nebudou opakovat, takˇze je uloˇzen´ı v co nejvyˇsˇs´ı kvalitˇe vhodné. Vzniká zde otázka zp˚ usobu uloˇzen´ı dat. Kapacita u ´loˇzn´ ych médi´ı stále roste, avˇsak mnoˇzstv´ı nahrávek také pˇrib´ yvá, nav´ıc je tˇreba myslet i na zálohován´ı a ˇzivotnost médi´ı. Zaj´ımavé moˇznosti v uloˇzen´ı a sd´ılen´ı takovéhoto velkého mnoˇzstv´ı dat nab´ızej´ı distribuované souborové systémy6 , kde jsou velké soubory rozloˇzeny na malé kousky, které jsou uloˇzeny na r˚ uzn´ ych poˇc´ıtaˇc´ıch v s´ıti. Data je moˇzno komprimovat pomoc´ı bezztrátové a ztrátové komprese. Z dat komprimovan´ ych bezztrátovou kompres´ı lze zpˇetnˇe vytvoˇrit p˚ uvodn´ı nahrávku. Zm´ınil bych zde zejména volnˇe dostupn´ y kodek (kodér – dekodér) Free Looseless Audio Codec7 a proprietárn´ı Monkey’s audio8 . V´ yhod bezztrátové komprese lze vyuˇz´ıt pro ˇreˇsen´ı problému s kapacitou u ´loˇzn´ ych médi´ı a velikost´ı datového toku pˇri sd´ılen´ı takov´ ychto soubor˚ u v s´ıti. Ve spojen´ı s distribuovan´ ym souborov´ ym systémem by ’ zˇrejmˇe ˇslo o ideáln´ı ˇreˇsen´ı, zajiˇst uj´ıc´ı nejvyˇsˇs´ı kvalitu uloˇzen´ ych nahrávek spojenou s menˇs´ı velikost´ı potˇrebného prostoru pro jejich uloˇzen´ı a nárok˚ u na pˇrenos dat v s´ıti. Pˇri ˇreˇsen´ı problému zpracován´ı tˇechto nahrávek je vˇsak naopak v´ yhodné pouˇz´ıt ztrátovou kompresi. Z nahrávky jsou pˇri n´ı odstranˇeny informace, které u lid´ı nevyvolávaj´ı sluchov´ y vjem kv˚ uli frekvenˇcn´ımu ˇci ˇcasovému maskován´ı popsanému v kapitole 3.1. Zm´ınil bych zde nejbˇeˇznˇejˇs´ı formáty pro bezztrátovou komprimaci (mp39 , Ogg Vorbis10 . Jelikoˇz lze pˇredpokládat, ˇze nebudeme brát ohled na charakteristiky, které lidé nejsou schopni sluchem vn´ımat, je toto zjednoduˇsen´ı pˇr´ıpustné. Pokrok zde záleˇz´ı na v´ yzkumu v oblasti psychoakustiky, na vytvoˇren´ı lepˇs´ıho modelu, kter´ y by umoˇznil pˇresnˇeji urˇcit, které informace lze odstranit a které nikoli. Tato otázka je nav´ıc individuáln´ı pro kaˇzdého posluchaˇce. Dále se touto tématikou zab´ yvá kapitola Psychoakustické pˇredzpracován´ı audio dat. Pˇri poslechu hudby poˇzadujeme vysokou kvalitu jej´ıho záznamu, jelikoˇz jakékoli zkreslen´ı zvuku (kter´ y si pamatujeme z ˇzivého vystoupen´ı) ruˇs´ı. Pro vn´ıman´ı informac´ı v hudbˇe obsaˇzen´ ych nám vˇsak mnohdy postaˇc´ı kvalita mnohem niˇzˇs´ı. Rozeznat dva nástroje jsme schopni i z mp3 nahrávky, melodii jsme schopni vn´ımat i po telefonu a pro urˇcen´ı formy bychom mohli pˇripustit dalˇs´ı zjednoduˇsen´ı. Jelikoˇz se nesnaˇz´ıme naj´ıt rozd´ıl mezi stejn´ ym d´ılem kódovan´ ym v nekomprimované CD kvalitˇe a kupˇr´ıkladu mp3 formátem s n´ızk´ ym datov´ ym tokem (jedná se o stejné d´ılo z hlediska stylu, tempa, barvy zvuku), ale jde nám o z´ıskán´ı informac´ı o hudebn´ıch vlastnostech 6

http://www.redhat.com/gfs/ http://flac.sourceforge.net/ 8 http://www.monkeysaudio.com/ 9 http://lame.sourceforge.net/ 10 http://www.xiph.org/ogg/ 7

24

3


nahrávky, m˚ uˇzeme z d˚ uvodu zv´ yˇsen´ı v´ ypoˇcetn´ı rychlosti odstranit ze signálu ˇca´sti, které nevyvolávaj´ı sluchov´ y vjem, nebo nejsou nezbytné pro z´ıskán´ı námi zvolené vlastnosti. Vˇzdy záleˇz´ı na vlastnosti, kterou chceme extrahovat. Pokud budeme cht´ıt kupˇr´ıkladu rozliˇsit nahrávky zpˇevu pták˚ u od nahrávek váˇzné hudby, staˇc´ı nám pro tuto u ´lohu mal´ y kousek záznamu ze správnˇe zvoleného m´ısta. M˚ uˇzeme tedy pouˇz´ıt nˇekter´ y z algoritm˚ u ztrátové komprese, sn´ıˇzit frekvenci vzorkován´ı, pˇrevést stereo záznam na mono, v urˇcit´ ych pˇr´ıpadech m˚ uˇzeme i odstranit celé ˇca´sti nahrávky a nechat pouze reprezentativn´ı u ´seky. V urˇcit´ ych experimentech (Rauber et al., 2002a) byly napˇr´ıklad zvukové ukázky pˇrevzorkovány na 11 kHz mono, dále bylo odstranˇeno 10 s záznamu ze zaˇca´tku a konce nahrávek. Takto z´ıskáme data obsahuj´ıc´ı pouze informace, které nás zaj´ımaj´ı. V databázi vˇsak mus´ı z˚ ustat p˚ uvodn´ı nahrávka, kterou po vyhledán´ı nab´ıdneme posluchaˇci. Pˇresn´ y zp˚ usob vn´ımán´ı zvuku u ˇclovˇeka je závisl´ y na mnoha faktorech a dosud pro nˇej nebyla vyvinuta uspokojivá teorie. 3.2.2

Hudba

Hudbu od ostatn´ıho zvukového dˇen´ı oddˇeluje právˇe urˇcitá moˇznost vytvoˇren´ı modelu, jenˇz dˇen´ı popisuje. V mnoha pˇr´ıpadech nevyuˇz´ıvá celé frekvenˇcn´ı spektrum, ale pouze urˇcité diskrétn´ı ˇrady frekvenc´ı. Tato vlastnost nen´ı náhodná, ale vycház´ı z pˇrirozené schopnosti tˇeles (hlasivek, strun, dˇrev, blan ...) rezonovat a vytváˇret tak tóny u dan´ ych v´ yˇskách. Tento princip zde alespoˇ n jednoduˇse vysvˇetl´ıme, jelikoˇz plat´ı obecnˇe a nalezneme jej v hudbˇe po celém svˇetˇe. Tón je v hudbˇe základn´ım materiálem, oproti ˇsumu je to zvuk se stálou“ frekvenc´ı. Tato frekvence nemus´ı ” b´ yt konstantn´ı, m˚ uˇze kupˇr´ıkladu oscilovat kolem stˇredn´ı hodnoty (vibráto), nebo se m˚ uˇze plynule mˇenit z jedné frekvence k druhé (glissando). Intervaly pˇredstavuj´ı vzdálenost mezi jednotliv´ ymi v´ yˇskov´ ymi stupni. Je to velice d˚ uleˇzitá charakteristika, jelikoˇz drtivá vˇetˇsina lid´ı nedokáˇze urˇcit absolutn´ı v´ yˇsku tónu, dokáˇze vˇsak dobˇre vn´ımat vzdálenost mezi dvˇema tóny. Tuto vlastnost urˇcuje pomˇer frekvenc´ı dvou tón˚ u, mezi nimiˇz interval urˇcujeme: 1 : 2 – oktáva, 2 : 3 – kvinta, 3 : 4 – kvarta, 4 : 5 – velká tercie, 5 : 6 – malá tercie atd. Toto m˚ uˇzeme sledovat na obrázku 12. Alikvotn´ı ˇrada je základn´ı princip urˇcuj´ıc´ı v´ yˇskové vztahy tón˚ u vznikaj´ıc´ıch na kmitaj´ıc´ıch tˇelesech. Obrázek 11 ukazuje, jak na kmitaj´ıc´ı strunˇe vznikaj´ı tzv. vyˇsˇs´ı harmonické kmity. Na strunˇe kmitaj´ıc´ı se základn´ı (fundamentáln´ı) frekvenc´ı vzniká kmitán´ı s dvojnásobnou frekvenc´ı, která vydává o oktávu vyˇsˇs´ı tón atd. Podobn´ y zp˚ usob tvorby tón˚ u existuje u vˇsech nástroj˚ u, napˇr. u dechov´ ych kmitá vzduchov´ y sloupec, u bic´ıch kmitá samo tˇeleso. Kolik a jak´ ych vyˇsˇs´ıch harmonick´ ych tón˚ u se ozve, závis´ı na rezonanˇcn´ıch vlastnostech tˇelesa. Housle maj´ı jin´ y tvar desky neˇz viola, proto je barva zvuku jiná. Stejnˇe tak hlas ˇclovˇeka závis´ı na fyziologii jeho tˇela. Ladˇen´ı je zp˚ usobem, jak´ ym jsou odvozeny frekvence tón˚ u v celé stupnici. Taˇ bulka 3 ukazuje rozd´ıl ladˇen´ı Cistého (pouˇz´ıvá pro odvozen´ı vˇsech tón˚ u pouze oktávu a kvintu) a temperovaného (dˇel´ı oktávu na 12 stejn´ ych d´ılk˚ u – p˚ ultón˚ u). Frekvenci

3.2

25


Obrázek 11: Kmit´ an´ı na strunˇe

Obrázek 12: Alikvotn´ı ˇrada

n-tého tónu alikvotn´ı ˇrady v ˇcistém ladˇen´ı m˚ uˇzeme vypoˇc´ıtat podle vztahu 7 fn+1 = fn ·

n+1 n

(7)

kde fn+1 je frekvence odpov´ıdaj´ıc´ıho tónu ˇrady. Frekvenci n-tého tónu alikvotn´ı ˇrady v temperovaném ladˇen´ı vypoˇc´ıtáme podle vztahu 8 fn+1 = fn · pi (8) kde p je temperovan´ y p˚ ultón a odpov´ıdá p = 21/12 a i je velikost intervalu v p˚ ultónech (12 je oktáva, 7 kvinta, 5 kvarta atd.).

26

3


Rozd´ıl frekvenc´ı v centech se vypoˇcte podle vztahu 9 log FFct 1 1 c= log (2 12 ) 100

(9)

kde Fc je frekvence tónu v ˇcistém ladˇen´ı a Ft je frekvence tónu v temperovaném ladˇen´ı. Hodnoty uvedené v tabulce 3 m˚ uˇzeme v prostˇred´ı GNU Octave vypoˇc´ıtat pomoc´ı následuj´ıc´ıho kódu: %zakladni ton je 3 oktavy pod komornim a ... subkontra A A=440*(2/1)^-3; FREK_cista(1)=A; FREK_temp(1)=A; temper_pulton=2^(1/12); interval=[12 7 5 4 3 3 2 2 2 2 1 1 2 1 1]; for j=1:15 FREK_cista(j+1)=FREK_cista(j)*((j+1)/j); FREK_temp(j+1)=FREK_temp(j)*temper_pultonînterval(j); end FREK_cista’ FREK_temp’ FREK_rozdil=(FREK_cista-FREK_temp)’ FREK_centy=(log(FREK_cista./FREK_temp)./log((2^(1/12))^(1/100)))’ a odpov´ıdaj´ıc´ı zvukov´ y v´ ystup z´ıskáme takto: CELKOVY_CAS=16; %sekundy SR=44100; %sample rate ST=1/SR; %step X=0:ST:CELKOVY_CAS; %osa_x AMPL1=(0.5/(SR/4))*(0:SR/4); AMPL2(1:(SR/2)-2)=0.5; AMPL3=0.5+(-0.5/(SR/4))*(0:SR/4); AMPL=[AMPL1 AMPL2 AMPL3]; for k=1:CELKOVY_CAS start=1+(k-1)*SR; stop=SR+(k-1)*SR; Y(start:stop,1)=AMPL.*sin(2*pi*FREK_cista(k).*X(start:stop)); Y(start:stop,2)=AMPL.*sin(2*pi*FREK_temp(k).*X(start:stop)); end wavwrite(Y,44100,16,’alikvoty.wav’);

3.3

27

Analýza signálu v ˇcasové oblasti

Tabulka 3: Porovn´ an´ı frekvenc´ı alikvotn´ıch tónu v ˇcistém a temperovaném ladˇen´ı

ˇ ıslo C´ 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16

N´ azev a a e a cis e g a h cis dis e f g gis a

ˇ e [Hz] Cist´ 55 110 165 220 275 330 385 440 495 550 605 660 715 770 825 880

Temp. [Hz] 55.000 110.000 164.814 220.000 277.183 329.628 391.995 440.000 493.883 554.365 622.254 659.255 698.456 783.991 830.609 880.000

Rozd´ıl [Hz] 0.00000 0.00000 0.18622 0.00000 -2.18263 0.37244 -6.99544 0.00000 1.11670 -4.36526 -17.25397 0.74489 16.54354 -13.99087 -5.60940 0.00000

Rozd´ıl [cent] 0.00000 0.00000 1.95500 0.00000 -13.68629 1.95500 -31.17409 0.00000 3.91000 -13.68629 -48.68206 1.95500 40.52766 -31.17409 -11.73129 0.00000

Formát MIDI (Musical Instrument Digital Interface) pˇredstavuje jakousi elektronickou obdobou notového zápisu. V textovém souboru je zaznamenána délka, v´ yˇska, s´ıla a dalˇs´ı parametry jednotliv´ ych tón˚ u“. Ty pak vznikaj´ı tak, ˇze jim synte” tizér pˇriˇrad´ı konkrétn´ı zvuk (tak jako hudebn´ık vytvoˇr´ı zvuk odpov´ıdaj´ıc´ı notovému zápisu). Tento formát je pouˇzit v mnoha experimentech z´ıskáván´ı hudebn´ıch informac´ı. Mezi jeho v´ yhody patˇr´ı malá velikost soubor˚ u a tud´ıˇz bezproblémové uloˇzen´ı a rychlé zpracován´ı. Velice komplikovan´ y je vˇsak pˇrevod nov´ ych nahrávek do tohoto formátu (spolehlivˇe jej m˚ uˇze provést pouze vyspˇel´ y hudebn´ık). Je to v podstatˇe u ´loha zapsán´ı slyˇsené hudby do not. Tato u ´loha se také ˇreˇs´ı pomoc´ı metod umˇelé inteligence, v souˇcasné dobˇe vˇsak automaticky pˇrevádˇet sloˇzitˇejˇs´ı hudby do not spolehlivˇe nelze. Problém nespoˇc´ıvá ani ve v´ ypoˇcetn´ı sloˇzitosti, sp´ıˇse nám chyb´ı vˇedomosti o tom, jak´ ym zp˚ usobem funguje vn´ımán´ı hudby u ˇclovˇeka. V (Klapuri, 2004) autor odhaduje, ˇze v´ yvoj bude trvat roky, moˇzná desetilet´ı, neˇz se automatická transkripce dostane na 95% u ´rovnˇe schopnost´ı ˇskolen´ ych hudebn´ık˚ u v této oblasti. MIDI formát nav´ıc neuchovává informaci o barvˇe zvuku, pro popis hudebn´ıch nahrávek v ˇsirokém slova smyslu proto nen´ı vhodn´ y.

3.3

Anal´ yza sign´ alu v ˇ casov´ e oblasti

Námi analyzovaná data jsou vzorky p˚ uvodn´ıho analogového signálu, jenˇz reprezentoval zmˇenu tlaku vzduchu v ˇcase. Nezávislou promˇennou (oblast´ı ve které byl poˇr´ızen) je zde tedy ˇcas. Tento signál m˚ uˇzeme znázornit pomoc´ı waveformu na obrázku 13, jenˇz má ˇcas zachycen na ose X. Z tohoto vyobrazen´ı si jiˇz m˚ uˇzeme udˇelat urˇcitou

28

3


pˇredstavu o povaze informac´ı, jeˇz ze signálu m˚ uˇzeme v ˇcasové oblasti z´ıskat. Horn´ı waveform zachycuje ˇcást Matouˇsov´ ych paˇsij´ı J.S. Bacha, zat´ımco spodn´ı waveform zachycuje prolog k opeˇre Orfeo od Claudia Monteverdiho. Jelikoˇz je na ose Y amplituda signálu, odpov´ıdaj´ı m´ısta s malou amplitudou tich´ ym u ´sek˚ um a m´ısta s velkou amplitudou naopak u ´sek˚ um hlasit´ ym. Z toho bychom mohli usuzovat na celkovou skladbu nahrávky. Na spodn´ım diagramu kupˇr´ıkladu jasnˇe vid´ıme, ˇze se skládá ze tˇr´ı ˇca´st´ı, nav´ıc ˇze je prvn´ı a tˇret´ı stejná. M˚ uˇzeme tedy tvrdit, ˇze má skladba, co se hlasitosti t´ yˇce, formu ABA. Pokud bychom si detailnˇe zobrazil urˇcité ˇcásti, mohli bychom zde podobn´ ym zp˚ usobem nalézt informace o rytmu. Obdobnˇe m˚ uˇzeme pozorovat stˇr´ıdán´ı urˇcit´ ych ˇca´st´ı v horn´ım diagramu. M˚ uˇzeme tedy ˇr´ıci, ˇze z charakteristik v ˇcasové oblasti dokáˇzeme z´ıskat informace o formˇe a rytmu. Nedokáˇzeme ale takto zjistit ˇza´dné informace o barvˇe zvuku potaˇzmo nástrojovém obsazen´ı. V této kapitole uvedeme charakteristiky vypoˇc´ıtané v origináln´ı (ˇcasové) oblasti, tedy bez jakékoli transformace.

Obrázek 13: Waveform

Mohutnost impulzu je u spojitého signálu dána plochou, kterou vymezuje jeho grafick´ y pr˚ ubˇeh. U diskrétn´ıho signálu je mohutnost dána vztahem 10 M=

∞ X

s(k)

(10)

k=−∞

Stˇredn´ı hodnota se historicky vztahuje k periodick´ ym signál˚ um a je definována jako pr˚ umˇerná hodnota signálu v rámci jedné periody. Smˇerodatná odchylka je odmocninou z rozptylu náhodné veliˇciny a je dána vztahem 11.

3.3

29

Analýza signálu v ˇcasové oblasti

σ(X) =

p D(X)

(11)

Medián, jenˇz je 50% kvantilem náhodné veliˇciny. Tyto nejjednoduˇsˇs´ı ˇctyˇri charakteristiky vypoˇctené pro nahrávky zachycené na obrázku 13 vid´ıme na obrázku 14. Nahrávky byly rozdˇeleny na deset d´ıl˚ u, ve kter´ ych byly charakteristiky vypoˇcteny. Z charakteristik druhé nahrávky je jasnˇe patrné, ˇze má 2 vrcholy, jimˇz odpov´ıdá ˇca´st A. Interpretace tˇechto charakteristik u prvn´ı nahrávky je diskutabiln´ı.

Obrázek 14: Charakteristiky signálu

Poˇcet pˇrekroˇcen´ı nulové u ´rovnˇe (Zero crossing rate) je jedna z charakteristik urˇcovaná pˇr´ımo z waveform˚ u (v ˇcasové doménˇe). Urˇcuje, kolikrát za sekundu signál pˇrekroˇc´ı nulovou u ´roveˇ n – pˇrejde z pozitivn´ı hodnoty na negativn´ı ˇci naopak. Tato charakteristika m˚ uˇze ukazovat bud’to základn´ı frekvenci, nebo nejhlasitˇejˇs´ı signál a slouˇz´ı jako základn´ı nástroj pro rozliˇsen´ı ˇreˇci a hudby. Tato charakteristika je pouˇzita v experimentu popsaném v kapitole 5.7. Efektivn´ı hodnota energie (Root Mean Square Energy) se spoˇc´ıtá jako druhá mocnina z hodnoty energie v ˇcasovém okénku. Je to také hodnota z´ıskávaná pˇr´ımo

30

3


z waveform˚ u, je tedy lehce implementovatelná. Tato hodnota je dobr´ ym identifikátorem hlasitosti a m˚ uˇze také poslouˇzit pˇri urˇcován´ı charakteristik na vyˇsˇs´ı u ´rovni – napˇr. detekce audio událost´ı, segmentace nebo pˇri odhadu tempa. Pomˇer n´ızké energie (Low Energy Rate) je obvykle definován jako procento ˇcasov´ ych okének obsahuj´ıc´ıch ménˇe energie pˇrenáˇsené zvukem, neˇz je pr˚ umˇer vˇsech ˇcasov´ ych okének v audio vzorku. Energie se poˇc´ıtá jako efektivn´ı hodnota energie.

3.4

Spektr´ aln´ı anal´ yza

Spektráln´ı anal´ yza je zaloˇzena na transformaci signálu z p˚ uvodn´ı ˇcasové oblasti do oblasti frekvenˇcn´ı. Nezávislou promˇennou se tedy stane frekvence. Tento pˇrevod m˚ uˇzeme uskuteˇcnit nˇekolika zp˚ usoby, pˇriˇcemˇz je v souˇcasné dobˇe nejpouˇz´ıvanˇejˇs´ı Fourierova transformace a vlnková transformace (wavelet transform). 3.4.1

Fourierova transformace diskr´ etn´ıho sign´ alu

Fourierova transformace diskrétn´ıho signálu (DTFT) je dána vztahem 12. DTFT{fn } = F (ω) =

∞ X

fn · e−jωnT

(12)

n=−∞

Zpˇetná DTFT pouˇzitelná pro v´ ypoˇcet koeficient˚ u Fourierovy ˇrady a t´ım pro z´ıskán´ı spektra sloˇzitého signálu je definována vztahem 13. 1 fn = 2π

Z

π T

F (ω) · ejωT n dω

(13)

− Tπ

Pro numerick´ y v´ ypoˇcet je v´ yhodné pouˇz´ıt algoritmu Fast Fourier transform (Jan, 2002), jenˇz umoˇzn ˇuje rychl´ y v´ ypoˇcet tohoto vztahu. Tento algoritmus je implementován v Matlabu a GNU Octave funkc´ı fft(), kterou v práci vyuˇz´ıváme. Na obrázku 15 vid´ıme signál, jenˇz je tvoˇren superpozic´ı tˇr´ı harmonick´ ych kmit˚ u. Jeden má frekvenci 55 Hz, druh´ y 110 Hz a tˇret´ı 165 Hz. Jejich amplituda je 1, 0,75 a 0,5. Signál by se tedy dal popsat rovnic´ı 14. y = 1 sin(2πω55t) + 0,75 sin(2πω110t) + 0,5 sin(2πω165t)

(14)

Ve spodn´ı ˇca´sti vid´ıme obraz signálu ve frekvenˇcn´ı oblasti. Tˇri vrcholy odpov´ıdaj´ı tˇrem harmonick´ ym kmit˚ um. M˚ uˇzeme si vˇsimnout toho, ˇze jejich v´ yˇska nedosahuje amplitudy dané koeficienty vzorce 14. Fourierova transformace je definována na intervalu (−∞, ∞), coˇz u naˇseho signálu nen´ı splnˇeno. Dalˇs´ı pˇr´ıˇciny bychom mohli naj´ıt v (Jan, 2002). U reálného zvukového signálu nav´ıc nem˚ uˇzeme splnit podm´ınku periodicity signálu, jelikoˇz se parametry oscilátoru pˇri hˇre, zpˇevu, mluven´ı atd. dost podstatnˇe mˇen´ı. M˚ uˇzeme vˇsak jako periodickou povaˇzovat urˇcitou malou ˇca´st signálu. Této

3.4

Spektráln´ı analýza

31

Obrázek 15: Fourierova trensformace signálu definovaného vztahem 14

ˇ ım je toto okénko delˇs´ı, t´ım lépe lze Fourieˇca´sti ˇr´ıkáme ˇcasové okénko (window). C´ rovou transformac´ı urˇcit jednotlivé sloˇzky signálu, avˇsak se t´ım zhorˇsuje rozliˇsovac´ı schopnost v ˇcase, které je vˇenována kapitola 3.5. Na obrázku 16 je pr˚ ubˇeh signálu a jeho obraz ve frekvenˇcn´ı oblasti pro ˇcasové okénko dlouhé 256 vzork˚ u (t = 1/44 000 · 256 = 0, 005 81 [s]), jenˇz zaˇc´ıná v ˇcase 10 sekund. Nahoˇre je nahrávka 1 a dole nahrávka 2. Z obrazu ve frekvenˇcn´ı oblasti nemohu soudit nic o rytmu nebo formˇe skladby, zato mohu posuzovat v´ yˇsku tónu, barvu zvuku, nástrojové obsazen´ı. U nahrávky 1 je nejsilnˇejˇs´ı frekvence zhruba 1 400 Hz, kdeˇzto u nahrávky v je to 600 Hz. M˚ uˇzeme tedy ˇr´ıci, ˇze v ˇcase 10 sekund je na nahrávce jedna zachycen vyˇsˇs´ı tón. Spektráln´ı tok je veliˇcina spektráln´ı domény, která se spoˇc´ıtá jako rozd´ıl ˇctverc˚ u rozdˇelen´ı frekvenc´ı dvou po sobˇe jdouc´ıch ˇcasov´ ych okének. Mˇeˇr´ı pomˇer lokáln´ıch zmˇen ve spektru. Pokud je mezi dvˇema sn´ımky velká zmˇena spektra, je tento pomˇer vysok´ y. Spektráln´ı tˇeˇziˇstˇe je taková frekvence, kdy je energie vˇsech niˇzˇs´ıch frekvenc´ı stejná jako energie vˇsech vyˇsˇs´ıch frekvenc´ı. Je mˇeˇr´ıtkem tvaru spektra. Základn´ı audio frekvence (fundamentáln´ı frekvence) je nejniˇzˇs´ı frekvenc´ı v harmonické sérii. Viz Alikvotn´ı ˇrada. Audioharmonicita ukazuje, do jaké m´ıry je signál harmonick´ y (hudebn´ı tóny nebo samohlásky obsahuj´ı vyˇsˇs´ı harmonické kmity na rozd´ıl od hluk˚ u a dalˇs´ıch neznˇel´ ych zvuk˚ u).

32

3


Obrázek 16: Srovn´ an´ı Fourierovy trensformace dvou vzork˚ u reálného signálu

3.5

ˇ Casovˇ e frekvenˇ cn´ı anal´ yza

Pˇri anal´ yze signál˚ u se jejich spektrum v ˇcase promˇen ˇuje a je uˇziteˇcné tyto zmˇeny sledovat. To nám umoˇzn ˇuje spektrogram, jenˇz vid´ıme na obrázku 17. Pˇredstavuje ˇ zde pˇrib´ pohled na na obˇe nahrávky z hlediska spektra. Cas yvá ve smˇeru vodorovné osy. Dalˇs´ı charakteristiky pouˇz´ıvané pˇri zpracován´ı signálu nalezneme v (Rao, 2008) a v (Lidy – Rauber, 2005).

3.6

V´ ybˇ er charakteristik

V´ ybˇer charakteristik (deskriptor˚ u) je pro u ´spˇeˇsnost klasifikace audio dat kl´ıˇcová, jelikoˇz vˇsechny klasifikaˇcn´ı algoritmy pracuj´ı s charakteristick´ ymi vektory vstupn´ıch dat a právˇe na jejich kvalitˇe jejich u ´spˇeˇsnost závis´ı. Pokud si také pˇredstav´ıme zp˚ usob práce pˇri prohledáván´ı zvukové databáze, budeme se dotazovat na urˇcité vlastnosti, které ovˇsem mus´ıme b´ yt schopni z nahrávky z´ıskat. Nemohu kupˇr´ıkladu vyhledávat nahrávky hudby ve 3/4 taktu, pokud nebudu schopen naj´ıt v nahrávce tˇeˇzké a lehké doby (jednu tˇeˇzkou – v´ yraznˇejˇs´ı, následuj´ı dvˇe lehké – slabˇs´ı). Zat´ımco nˇekteré algoritmy z´ıskávaj´ı charakteristické vlastnosti pˇr´ımo z waveform˚ u nahrávky, velká vˇetˇsina pracuje se spektráln´ı reprezentac´ı audio signálu. Ve snaze z´ıskat informace potˇrebné k detekci rytmu, v´ yˇsky, melodie, barvy (charakteristiky vyˇsˇs´ı u ´rovnˇe) pracuj´ı algoritmy vˇetˇsinou s informacemi o frekvenˇcn´ım pásmu, energii

ˇ ıslicové filtry 3.7 C´

33

Obrázek 17: Spektrogram

pˇrenáˇsené zvukem nebo se statistick´ ymi veliˇcinami popisuj´ıc´ımi signál (charakteristiky niˇzˇs´ı u ´rovnˇe). Experimenty ukazuj´ı, ˇze je v´ yhodné pouˇz´ıt psychoakustické modely, v´ ypoˇcetnˇe se tak pˇribl´ıˇzit lidskému vn´ımán´ı a zkvalitnit tak informace obsaˇzené ve zvukov´ ych charakteristikách. Jsou zde popsány nˇekteré charakteristiky niˇzˇs´ı u ´rovnˇe (low-level characteristics) obecnˇe pouˇz´ıvané pˇri vyhledáván´ı na základˇe obsahu. Charakteristiky vyˇsˇs´ı u ´rovnˇe jsou popsány v kapitole 2 – melodie, rytmus atd. 3.6.1

Automatick´ y v´ ybˇ er charakteristik

Pokud budeme cht´ıt urˇcit hledanou hudbu na základˇe mnoˇzin ukázek definovan´ ych uˇzivatelem (Bogdanov et al., 2010) najdi nˇeco podobného, jako je tohle“, mus´ıme ” b´ yt schopni automaticky vyhledat charakteristiky vhodné pro popis zrovna vytvoˇrené mnoˇziny ukázek, coˇz nen´ı jednoduch´ yu ´kol. Potˇrebujeme objektivn´ı mˇeˇr´ıtko popisu daného objektu. Zˇrejmˇe bychom pˇri hledán´ı ideáln´ıho popisu mohli vyuˇz´ıt statistick´ ych metod (Fejfar et al., 2010a). Dále se v´ ybˇerem charakteristik zab´ yvá kapitola 4.2.1.

3.7

ˇ ıslicov´ C´ e filtry

Velmi rozˇs´ıˇrenou metodou zpracován´ı signálu jsou filtry. Pomoc´ı filtru je moˇzné ze smˇesi v´ıce signál˚ u vybrat urˇcité (pro nás uˇziteˇcné) sloˇzky a potlaˇcit jiné (napˇr´ıklad ˇsum). Obecnˇe je moˇzné mˇenit vlastnosti jednotliv´ ych sloˇzek (pomˇerné zastoupen´ı, ˇcasové vztahy) (Jan, 2002). Filtry mohou b´ yt realizovány analogovˇe i ˇc´ıslicovˇe. V t0to kapitole se budeme dále zab´ yvat ˇc´ıslicov´ ymi filtry.

34

3


Princip obecného filtru spoˇc´ıvá v konvoluci vstupn´ıho signálu s impulsn´ı odezvou filtru; u rekurzivn´ıch filtr˚ u se do signálu jeˇstˇe pˇriˇcte konvoluce v´ ystupn´ıho signálu s impulsn´ı odezvou rekurzivn´ı ˇca´sti filtru, coˇz znázorˇ nuje obrázek 18 a zachycuje vztah 15.

ˇ Obrázek 18: Obecnˇe rekurzivn´ı filtr (Cernock´ y, 2009)

y[k] =

Q X k=0

bk x[n − k] −

P X

ak y[n − k]

(15)

k=1

Dále m˚ uˇzeme filtry rozdˇelit na: • filtry s koneˇcnou impulsn´ı charakteristikou (FIR – finite impulse response), 0 pro k < 0 a pro k > Q h[k] = (16) bk pro 0 ≤ k ≤ Q kde h[k] je impulsn´ı odezva, • filtry s nekoneˇcnou impulsn´ı charakteristikou (IIR – infinite impulse response), – ˇcistˇe rekurzivn´ı, kde jsou nenulové pouze b0 , a1 . . . ap a – obecnˇe rekurzivn´ı, kde ak i bk jsou nenulové. Pomoc´ı filtr˚ u m˚ uˇzeme realizovat ˇctyˇri typy u ´prav: doln´ı propust, horn´ı propust, pásmová propust a pásmová zádrˇz. Jak vypl´ yvá z principu filtr˚ u, m˚ uˇzeme je vyuˇz´ıt zejména pro u ´pravu signálu, coˇz se m˚ uˇze hodit bˇehem ˇcásti pˇredzpracován´ı celé u ´lohy klasifikace audio dat. Jde nám zde o zv´ yraznˇen´ı vlastnosti signálu, jenˇz odpov´ıdá kritériu, podle kterého klasifikujeme, respektive o odstranˇen´ı ˇcást´ı signálu, jenˇz nás pˇri klasifikaci nezaj´ımá. Jako pˇr´ıklad je moˇzné uvést odstranˇen´ı vysok´ ych (harmonick´ ych) frekvenc´ı pomoc´ı doln´ı propusti pˇri urˇcován´ı melodie (barva zvuku daná pomˇerem vyˇsˇs´ıch harmonick´ ych frekvenc´ı nás zde nezaj´ımá). Tento filtr by mohl m´ıt napˇr´ıklad koeficienty b0,1,2 = 1/3, takˇze pˇri konvoluci se vstupn´ım signálem dojde k pr˚ umˇerován´ı“ ” tˇr´ı sousedn´ıch hodnot podle vztahu 17 y[k] = 1/3x[k − 2] + 1/3x[k − 1] + 1/2x[k − 2]

(17)

vstupn´ıho signálu, ˇc´ımˇz se signál vyhlad´ı“ a dojde tak k odstranˇen´ı vyˇsˇs´ıch ” ˇ frekvenc´ı (Cernock´ y, 2009).

4

ˇ E ´ INTELIGENCE METODY UMEL

4

35

Metody umˇ el´ e inteligence

Umˇelá inteligence je ˇsiroká oblast s mnoha aplikacemi (klasifikace, shlukován´ı, rozpoznán´ı vzor˚ u, predikce, poˇc´ıtaˇcové vidˇen´ı, navigace autonomn´ıch robot˚ u, obsluha sonaru, zpracován´ı text˚ u atd.) i nástroji, kter´ ymi dané u ´lohy ˇreˇs´ı (statistické metody, algoritmy prohledáván´ı prostoru, neuronové s´ıtˇe, metody strojového uˇcen´ı, dolován´ı dat). Nalézá uplatnˇen´ı v u ´lohách, které nejsou jednoznaˇcnˇe a jednoduˇse ˇreˇsitelné, nebo je potˇreba aby byly ˇreˇseny rychle (v reálném ˇcase). Oblast umˇelé inteligence se pˇrekr´ yvá nebo zahrnuje dalˇs´ı obory, jako jsou neuronové s´ıtˇe, strojové uˇcen´ı, algoritmy inspirované pˇr´ırodou. Z tohoto velkého mnoˇzstv´ı pˇr´ıstup˚ u jsou v následuj´ıc´ıch kapitolách popsány nejd˚ uleˇzitˇejˇs´ı principy z oblasti umˇelé inteligence vztahuj´ıc´ı se ke klasifikaci hudebn´ıch nahrávek.

4.1

Tˇr´ıdˇ en´ı

Tˇr´ıdˇen´ı (klasifikace nebo shlukován´ı, viz obrázek 23) je postup, kter´ ym dokáˇzeme data roztˇr´ıdit do mnoˇzin, jeˇz zahrnuj´ı podobné prvky. Jak ale ukazuje kapitola 2.1, je otázka podobnosti dosti sloˇzitá. Situaci m˚ uˇzeme popsat pomoc´ı obrázku 19. Mnoˇziny hudebn´ıch nahrávek se pˇrekr´ yvaj´ı, takˇze urˇcité nahrávky mohou napˇr´ıklad patˇrit do mnoˇziny 1, co se t´ yˇce rytmu a do mnoˇziny 2, co se t´ yˇce nástrojového obsazen´ı. Mus´ıme vˇzdy pˇresnˇe urˇcit, podle jakého kritéria chceme klasifikovat a na základˇe toho vybrat charakteristiky audio signálu které budou nahrávky popisovat tak, aby byly dobˇre separovatelné.

2

1 3 Obrázek 19: Klasifikaˇcn´ı mnoˇziny

Netˇr´ıd´ıme nahrávky samotné (jako objekty reálného svˇeta), ale napˇred tyto nahrávky urˇcit´ ym zp˚ usobem pop´ıˇseme a z´ıskáme tak obraz – charakteristick´ y vektor, jenˇz je zobrazen´ım reálné nahrávky z hlediska zvoleného popisu. (Maˇr´ık et al., 1997). Vzniklé charakteristické vektory dále tˇr´ıd´ıme. Popis nahrávky je tedy pro tˇr´ıdˇen´ı kl´ıˇcov´ y. Mus´ıme si vˇsak uvˇedomit, ˇze popis objektu vhodn´ y pro jeden algoritmus nemus´ı b´ yt vhodn´ y pro jin´ y a naopak. Museli bychom nalézt ideáln´ı klasifikátor pro dan´ y popis, coˇz nen´ı moˇzné. M˚ uˇzeme si napˇr´ıklad pˇredstavit, ˇze dvˇema posluchaˇc˚ um m˚ uˇze pro klasifikaci stejného jevu vyhovovat jin´ y popis. Schopnost klasifikovat separovatelná data závis´ı u umˇel´ ych neuronov´ ych s´ıt´ı jak na jejich natrénován´ı, tak

36

4


zejména na jejich topologii a nastaven´ı vah. Pokud jsme tedy schopni nahrávky popsané urˇcit´ ym zp˚ usobem klasifikovat urˇcitou neuronovou s´ıt´ı, neznamená to, ˇze bude tento popis vhodn´ y pro jinou topologii této s´ıtˇe, nebo dokonce jin´ y typ neuronové s´ıtˇe. Tento problém ukazuje obrázek 20. Klasifikátor lze nastavit dvˇema zp˚ usoby (Maˇr´ık et al., 1993): • Anal´ yzou problému a definován´ım rozhodovac´ıho pravidla pˇred klasifikac´ı. V pˇr´ıpadˇe rozdˇelen´ı klasické hudby od ostatn´ıho zvukového dˇen´ı by mohlo rozhodovac´ı pravidlo rozhodovat na základˇe toho, zda se v nahrávce podaˇrilo nalézt nˇejaké tóny (´ useky se stálou v´ yˇskou). • Sestaven´ım rozhodovac´ıho pravidla s pouˇzit´ım objekt˚ u, jejichˇz správná klasifikace je pˇredem známa. V pˇredeˇslém pˇr´ıpadˇe tedy sestaven´ım trénovac´ı mnoˇziny s hudebn´ımi, respektive nehudebn´ımi ukázkami. Uˇzivatelsky pˇr´ıvˇetiv´ y popis hledan´ ych nahrávek s pouˇzit´ım objekt˚ u se známou správnou klasifikac´ı nalezneme v (Fejfar et al., 2010a). V práci (Pape et al., 2008) pouˇz´ıvaj´ı pro navrˇzen´ı klasifikátoru standardn´ı metody strojového uˇcen´ı. Pouˇz´ıvané klasifikátory zahrnuj´ı algoritmy statistického rozpoznán´ı vzor˚ u jako je k-nejbliˇzˇs´ıch soused˚ u, Gauss˚ uv klasifikátor a neuronové s´ıtˇe.

N

Obrázek 20: Klasifik´ ator

4.2 4.2.1

Rozpozn´ av´ an´ı Pˇr´ıznakov´ e metody rozpozn´ av´ an´ı

Obrazem objektu (nahrávky) jsou u pˇr´ıznakov´ ych metod rozpoznáván´ı vektory ˇc´ıseln´ ych hodnot – pˇr´ıznak˚ u. Mohou to b´ yt nejr˚ uznˇejˇs´ı charakteristiky jak z ˇcasové, tak frekvenˇcn´ı oblasti (viz kapitola 3.3, resp. kapitola 3.4). Nen´ı zde zachyceno nic z jejich vzájemného vztahu. Diskriminaˇcn´ı funkce urˇcuje m´ıru pˇr´ısluˇsnosti k dané tˇr´ıdˇe. Toto je situace v experimentu popsaném v kapitole 5.2. Objekty jsou popsány jednoduch´ ymi charakteristikami signálu v ˇcasové oblasti. Kaˇzd´ y neuron Kohonenovy mapy (viz kapitola 4.4.2) má nastaven vlastn´ı vektor (codebook vector) o shodné

4.3

Neuronové s´ıtˇe

37

dimenzi s charakteristick´ ymi vektory a na základˇe vzdálenosti tˇechto vektor˚ u, diskriminaˇcn´ı funkce, se urˇcuje m´ıra pˇr´ısluˇsnosti k tˇr´ıdám. Na základˇe jej´ıch hodnot se poté vybere neuron (neprezentuj´ıc´ı konkrétn´ı tˇr´ıdu), jenˇz má hodnotu diskriminaˇcn´ı funkce minimáln´ı. Dalˇs´ı moˇznost´ı vytváˇren´ı takov´ ychto shluk˚ u nahrávek jsou metody shlukové anal´ yzy. Pˇrehled nalezneme v (Maˇr´ık et al., 1997). D˚ uleˇzitá je skuteˇcnost, ˇze vzr˚ ustaj´ıc´ı poˇcet pˇr´ıznak˚ u nevede ke zv´ yˇsen´ı správnosti klasifikace. Toto nás nut´ı vyb´ırat pˇr´ıznaky na základˇe d˚ ukladné anal´ yzy problému. Existuj´ı metody, jeˇz nám s v´ ybˇerem pomohou. Tyto metody se op´ıraj´ı o pˇrevod do niˇzˇs´ı dimenze nebo o minimalizaci pravdˇepodobnostn´ı chyby klasifikace (Maˇr´ık et al., 1997). 4.2.2

Struktur´ aln´ı metody rozpozn´ av´ an´ı

Strukturáln´ı metody rozpoznáván´ı pouˇz´ıvaj´ı k popisu objekt˚ u základn´ıch popisn´ ych element˚ u – primitiv. Mezi tˇemito elementy mohou b´ yt prostorové, funkˇcn´ı a jiné vztahy. Strukturáln´ı popis nav´ıc oproti pˇr´ıznakovému umoˇzn ˇuje popisovat objekty pomoc´ı jejich ˇcást´ı a vztah˚ u mezi nimi (Maˇr´ık et al., 1997). Toto je zˇrejmˇe pˇr´ıpad hudby a jej´ıch bohat´ ych vztah˚ u mezi objekty na vˇsech hierarchick´ ych u ´rovn´ıch. Jako pˇr´ıklad zde m˚ uˇzeme uvést anal´ yzu souzvuk˚ u z hlediaka harmonie. Je potˇreba modelovat vztahy mezi souzvuky a hodnotit jejich spojen´ı. Pro tyto u ´ˇcely m˚ uˇzeme vyuˇz´ıt (Aucouturier – Sandler, 2001) napˇr´ıklad teorie jazyk˚ u a gramatik nebo Skryté Markovovy modely.

4.3

Neuronov´ e s´ıtˇ e

Neuronová s´ıt’ je s´ıt’ mnoha navzájem bohatˇe propojen´ ych jednoduch´ ych procesor˚ u. (Maˇr´ık et al., 1993) Graf propojen´ı se obvykle naz´ yvá topologie s´ıtˇe. Procesory pak naz´ yváme neurony, protoˇze velice zjednoduˇsenˇe modeluj´ı skuteˇcné neurony v lidské centráln´ı nervové soustavˇe.

ˇıma – Neruda, 1996) Obrázek 21: Form´ aln´ı neuron (S´

Základem matematického modelu neuronové s´ıtˇe je formáln´ı neuron (perceptron) zobrazen´ y na obrázku 21. Ten má podobnˇe jako biologick´ y neuron vstupy

38

4


(v biologii naz´ yvané dendrity). Tyto vstupy mohou reprezentovat v´ ystup jin´ ych neuron˚ u nebo podnˇety z vnˇejˇs´ıho okol´ı. Pokud jde o podnˇety z okoln´ıho svˇeta – vstupn´ıho prostoru – bude vektor tvoˇren´ y tˇemito podnˇety charakterizovat jist´ y zkouman´ y objekt. Kaˇzd´ y spoj vedouc´ı do neuronu má urˇcitou váhou spoje wi , která udává napˇr´ıklad jeho d˚ uleˇzitost. Váˇzen´ y souˇcet podnˇet˚ u xi reprezentovan´ ych reáln´ ymi ˇc´ısly a odpov´ıdaj´ıc´ıch vah udává celkový podnˇet podle vztahu 18. Pokud je tento celkov´ y podnˇet vˇetˇs´ı neˇz práh neuronu, vznikne na v´ ystupu neuronu odezva. Tato vlastnost je základem schopnosti neuronu klasifikovat vstupy do dvou tˇr´ıd. Základn´ı schopnost´ı v´ıcevrstv´ ych s´ıt´ı je proto také klasifikace vstup˚ u. ξ=

n X

w i xi

(18)

i=1

Pro ˇreˇsen´ı sloˇzitˇejˇs´ıch u ´loh, kde napˇr´ıklad nem˚ uˇzeme v prostoru oddˇelit dvˇe tˇr´ıdy pomoc´ı jedné roviny (funkce XOR), m˚ uˇzeme vyuˇz´ıt v´ıcevrstvé neuronové s´ıtˇe zobrazené na obrázku 22. Vrstva propojuj´ıc´ı vstupn´ı prostor s neuronovou s´ıt´ı se naz´ yvá vstupn´ı vrstva, v´ ystup s´ıtˇe realizuje v´ ystupn´ı vrstva a mezi nimi jsou vrstvy skryté. Vstupn´ı vrstva se do poˇctu vrstev nepoˇc´ıtá, takˇze s´ıt’ na obrázku 22 je dvouvrstvá. Neuronové s´ıtˇe pracuj´ı ve dvou fáz´ıch. V prvn´ı fázi se uˇc´ı a v druhé fázi ˇcinnost vybavuje. Pˇri uˇcen´ı se neuronová s´ıt’ pˇrizp˚ usobuje ˇreˇsen´ı nového problému. Váhy spoj˚ u jsou na poˇcátku nastaveny nejˇcastˇeji náhodnˇe. Na vstup neuronové s´ıtˇe se pˇrivedou vstupy z trénovac´ı mnoˇziny, v´ ystupy poté ukazuj´ı, do které tˇr´ıdy vstup patˇr´ı. Takto pracuje napˇr´ıklad v´ıcevrstvá neuronová s´ıt’ (Multi-layer perceptron, MLP) pouˇzitá v experimentu popsaném v kapitole 5.5.

ˇıma – Neruda, 1996) Obrázek 22: Dvouvrstv´ a s´ıt’ pro v´ ypoˇcet funkce XOR (S´

4.4

39

Samoorganizace

4.4

Samoorganizace

V této práci se zab´ yváme zejména s´ıtˇemi a principy aplikovateln´ ymi pˇri samoorganizaci. Ta vycház´ı ze soutˇeˇzn´ı strategie uˇcen´ı (competitive learing). Je to princip, kdy ˇıma – Neruda, spolu v´ ystupn´ı neurony s´ıtˇe soutˇeˇz´ı o to, kter´ y z nich bude aktivn´ı (S´ 1996). Tento princip zahrnuje jak algoritmy uˇcen´ı (viz kapitola 4.5) bez uˇcitele (VQ, SOM), tak algoritmy uˇcen´ı s uˇcitelem (LVQ). V tomto poˇrad´ı jsou i v následuj´ıc´ıch kapitolách popsány. 4.4.1

Vektorov´ a kvantizace

´ Ukolem vektorové kvantizace je aproximovat hustotu pravdˇepodobnosti skuteˇcn´ ych vstupn´ıch vektor˚ u x pomoc´ı koneˇcného poˇctu reprezentant˚ u (codebook vectors) ˇıma – Neruda, 1996). Kaˇzdému vstupn´ımu vektoru (jenˇz reprezentuje zkouman´ (S´ y objekt) potom odpov´ıdá jeden reprezentat. Pˇritom jeden reprezentant m˚ uˇze odpov´ıdat v´ıce zkouman´ ym objekt˚ um – zastupuje jejich skupiny (shluky). Pomoc´ı vzdálenosti vstupn´ıho vektoru a vektoru reprezentanta m˚ uˇzeme urˇcit, jak moc si objekt a reprezentant odpov´ıdaj´ı. Zpoˇca´tku jsou reprezentanti rozm´ıstˇeni náhodnˇe nebo mohou pravidelnˇe vyplˇ novat cel´ y vstupn´ı prostor. M˚ uˇzeme tedy pro prvn´ı vstupn´ı vektor vybrat reprezentanta, kter´ y je mu nejbl´ıˇze a urˇcit podle (Kohonen et al., 1996a), (Kohonen et al., 1996b) jeho vzdálenost jako c = arg min ||x − mi ||

(19)

i

Nalezen´ı vhodn´ ych reprezentant˚ u pro vˇsechny vstupn´ı vektory tedy znamená minimalizaci chyby dané vzorcem Z E = ||x − mc ||2 p(x)d(x) (20) pˇritom obyˇcejnˇe neznáme hustotu pravdˇepodobnosti, ale máme k dispozici mnoˇzinu vstupn´ıch vektor˚ u – trénovac´ı mnoˇzinu. Potom je minimalizace chyby dána vzorcem k

1 X (t) ||x − mc ||2 E= k t=1

(21)

ˇıma – Neruda, 1996). kde x(t) je vstupn´ı vektor trénovac´ı mnoˇziny (S´ Kohonenovo uˇ cen´ı Myˇslenku uvedenou v pˇredchoz´ım odstavci m˚ uˇzeme realizovat pomoc´ı jednoduché samoorganizuj´ıc´ı se s´ıtˇe uˇcené algoritmem Kohonenova uˇcen´ı. Je to iterativn´ı algoritmus hledaj´ıc´ı pˇribliˇzné ˇreˇsen´ı u ´lohy vektorové kvantizace. Kohonen stanovil jako c´ıl uˇc´ıc´ıho procesu nalezen´ı mnoˇziny reprezentant˚ u maj´ıc´ıch stejné pravdˇepodobnosti v´ ybˇeru (vybereme-li náhodn´ y vstupn´ı vektor z rozdˇelen´ı pravdˇepodobnosti odpov´ıdaj´ıc´ı rozdˇelen´ı tréninkové mnoˇziny, bude m´ıt kaˇzd´ y reˇıma – Neruda, 1996). prezentant stejnou pravdˇepodobnost, ˇze je mu nejbl´ıˇze) (S´

40

4


Kohonenova s´ıt’ je tvoˇrena dvˇema vrstvami, které jsou u ´plnˇe propojené. Vstupn´ı vrstva slouˇz´ı k distribuci vstupn´ıch vektor˚ u. Poˇcet jejich neuron˚ u tedy odpov´ıdá velikosti vstupn´ıho vektoru. Druhá – kompetiˇcn´ı vrstva je tvoˇrena reprezentanty. ˇıma – Neruda, 1996) Poˇcet reprezentant˚ (S´ u ve druhé vrstvˇe urˇcuje poˇcet tˇr´ıd, do nichˇz se bude shlukovat. Jejich um´ıstˇen´ı ve vstupn´ım prostoru je dáno hodnotami vah mi = mi1 , ..., min . Podle vzorce 1, arg mini ||x − mi || t yj = (22) 0, jinak. m˚ uˇzeme spoˇc´ıtat v´ ystup kaˇzdého neuronu. Plat´ı tedy, ˇze vstupem jsou libovolná reálná ˇc´ısla a v´ ystupem je 1 u nejbliˇzˇs´ıho reprezentanta – neuronu a 0 u vˇsech ostatn´ıch. Tento princip se naz´ yvá v´ıtˇez bere vˇse (winner takes all). V pˇr´ırodˇe je pozorována také lateráln´ı inhibice pomoc´ı které v´ıtˇezn´ y neuron oslabuje ostatn´ı sousedn´ı neurony. Nav´ıc kaˇzd´ y v´ıtˇezn´ y neuron zmˇen´ı své váhy smˇerem k právˇe pˇredloˇzenému vstupn´ımu objektu podle vzorce t arg mini ||x − mi || mi + θ(xt − mti ), t+1 (23) mi = t mi , jinak. kde parametr θ urˇcuje m´ıru zmˇeny vah a postupnˇe se sniˇzuje (Kohonen et al., 1996a). Toto je anologi´ı lidského uˇcen´ı. V mlád´ı kaˇzdé zaznamenané události podstatnˇe mˇen´ı zkuˇsenost, kdeˇzto ve stáˇr´ı se zkuˇsenost uˇz v podstatˇe nemˇen´ı. Takto se vektor vah reprezentanta dostává do stˇredu shluk˚ u vstupn´ıch objekt˚ u. Tento algoritmus se ve v´ ysledku velmi podobá algoritmu k-means, jenˇz také hledá stˇredy shluk˚ u. ˇ Oba ˇreˇs´ı u ´lohu VQ. Reˇsen´ı mohou b´ yt stejná v závislosti na nastaven´ı parametr˚ u ˇıma – Neruda, 1996). U tohoto algoritmu se pˇrizp˚ (S´ usobuj´ı váhy pouze jednoho neuronu – v´ıtˇeze – t´ım se liˇs´ı od samoorganizuj´ıc´ı se mapy popsané v dalˇs´ı kapitole. ˇıma – Neruda, 1996) je také popsán pˇr´ıpad, kdy jsou dvˇe izolované doV (S´ stateˇcnˇe vzdálené oblasti, pˇriˇcemˇz jedna je reprezentována jedn´ım neuronem a druhá vˇsemi ostatn´ımi, coˇz nen´ı v souladu s poˇzadavkem aby, byli reprezentanti vyb´ıráni se stejnou pravdˇepodobnost´ı, jako data, která reprezentuj´ı. To lze vyˇreˇsit napˇr´ıklad pomoc´ı lokáln´ıch pamˇet´ı, zaloˇzen´ ych na myˇslence stejné pravdˇepodobnosti v´ıtˇezstv´ı (1/k pro k reprezentant˚ u) kaˇzdého reprezentanta. 4.4.2

Samoorganizu´ıc´ı se mapy

Samoorganizuj´ıc´ı se mapy (Self-organizing map, SOM, Kohonenovy mapy) (Kohonen et al., 2001), (Vesanto – Alhoniemi, 2000) ,(Kohonen et al., 1996a) jsou jedn´ım z nejv´ yraznˇejˇs´ıch model˚ u umˇel´ ych neuronov´ ych s´ıt´ı splˇ nuj´ıc´ıch paradigma uˇcen´ı bez uˇcitele. Mapuj´ı mnoharozmˇern´ y vstupn´ı prostor do dvourozmˇerného v´ ystupn´ıho prostoru pˇri pokud moˇzno co nejvˇernˇejˇs´ım zachován´ı topologick´ ych vztah˚ u (nav´ıc oproti pˇredchoz´ımu algoritmu obsahuj´ı v´ ystupn´ı neurony topologické uspoˇra´dán´ı). Jsou pouˇzitelné v mnoha oblastech vˇcetnˇe shlukován´ı audio dat. C´ılem samoorganizuj´ıc´ıch se map je zobrazen´ı v´ıcerozmˇern´ ych dat do dvourozmˇerného prostoru tak, aby byly podobné poloˇzky z mnoharozmˇerného prostoru

4.4

41

Samoorganizace

um´ıstˇeny v mapˇe pobl´ıˇz sebe. Kohonenovy mapy se skládaj´ı z jednotek uspoˇra´dan´ ych do dvourozmˇerného vizualizaˇcn´ıho prostoru. Obvykle se jednotky uspoˇra´dávaj´ı do pravo´ uhlé ˇci ˇsesti´ uheln´ıkové mˇr´ıˇzky. Kaˇzdé jednotce je pˇriˇrazen modelov´ y vektor z mnoharozmˇerného vstupn´ıho prostoru. Vstupn´ı poloˇzka (charakterizována sv´ ym vektorem) je zobrazena do jednotky s nejv´ıce podobn´ ym modelov´ ym vektorem. Kohonenova mapa m˚ uˇze b´ yt náhodnˇe inicializována – náhodné vektory ve vstupn´ım prostoru jsou pˇriˇrazeny kaˇzdému modelovému vektoru. Alternativu pˇredstavuje napˇr. inicializace na základˇe dvou hlavn´ıch pˇredstavitel˚ u dat. Po inicializaci se iterativnˇe stˇr´ıdaj´ı dva kroky aˇz do dosaˇzen´ı konvergence. Prvn´ım krokem je nalezen´ı jednotky s nejv´ıce podobn´ ym modelov´ ym vektorem (best matching unit) pro kaˇzdou jednotku vstupn´ıho prostoru (dat) podle vztahu 19. V druhém kroku se modelové vektory neuron˚ u v okol´ı Nc (t) v´ıtˇezného neuronu uprav´ı tak, aby lépe odpov´ıdaly dat˚ um ze vstupn´ıho prostoru s tou podm´ınkou, ˇze sousedn´ı jednotky reprezentuj´ı podobné jedince vstupn´ıho prostoru. Toho m˚ uˇzeme dosáhnout pomoc´ı ˇ vztahu (S´ıma – Neruda, 1996): t mi + θ(xt − mti ), i ∈ Nc (t) t+1 mi = (24) t mi , jinde. nebo vyjádˇreno jinak (Kohonen et al., 1996a): mt+1 = mti + htci (xt − mti ) i

(25)

kde hci je jádro sousednosti (neighbour kernel) a udává m´ıru pˇrizp˚ usoben´ı se vektoru neuronu k pˇredloˇzenému charakteristickému vektoru. Obvykle je hci (t) = h(rc − ri , t), kde rc a ri jsou vektory udávaj´ıc´ı polohu reprezentanta a charakteristického vektoru. Pokud se zvˇetˇsuje jejich vzdálenost, hci → 0. Velikost a tvar této funkce urˇcuje tvrdost“ povrchu mapy pˇri pˇrizp˚ usobován´ı se dat˚ um. Je moˇzné ji ” vyjádˇrit nˇekolika zp˚ usoby. Napˇr´ıklad pomoc´ı okol´ı v´ıtˇezného neuronu oznaˇceného jako Nc (t). M˚ uˇzeme pak stanovit tento parametr jako α(t), pro i ∈ Nc (t) hci = (26) 0, pro i 3 Nc (t) kde α(t) je monotónnˇe se sniˇzuj´ıc´ı funkce ˇcasu (0 < α(t) < 1). Toto jádro se v implementaci sompak naz´ yvá bubble“. Dalˇs´ı moˇznost´ı je pouˇzit´ı Gaussovy ” funkce: (rc − ri )2 (27) hci = α(t). exp − 2σ 2 (t) kde α(t) i σ(t) jsou monotónnˇe se sniˇzuj´ıc´ı funkce. Kohonenova mapa má dva hlavn´ı parametry, jedn´ım je velikost mapy, druh´ ym koneˇcn´ y rádius sousednosti. Vˇetˇs´ı mapy dávaj´ı v zobrazován´ı vˇetˇs´ı rozloˇzen´ı, ale nev´ yhodou je vˇetˇs´ı v´ ypoˇcetn´ı sloˇzitost. Mapa m˚ uˇze m´ıt bud’to stejn´ y poˇcet neuron˚ u, jako poˇcet ˇza´dan´ ych shluk˚ u, nebo vˇetˇs´ı poˇcet, pˇriˇcemˇz je dána s´ıti urˇcitá volnost pˇri

42

4


tvorbˇe shluk˚ u – ostrov˚ u. Optimáln´ı poˇcet shluk˚ u m˚ uˇzeme nalézt napˇr´ıklad pomoc´ı algoritmu v-fold clustering (Hsu et al., 2000). Koneˇcn´ y rádius sousednosti udává hladkost zobrazen´ı a mˇel by b´ yt nastaven vzhledem k ˇsumu v datech. Podle (Bishop, 2006) spoˇc´ıvá hlavn´ı nev´ yhoda Kohonenovy mapy zejména v nemoˇznosti pouˇzit´ı nˇekteré dobˇre definované nákladové funkce, coˇz ztˇeˇzuje nastaven´ı parametr˚ u modelu a zajiˇstˇen´ı konvergence. Nen´ı zde také ˇza´dná záruka, ˇze samoorganizace bude fungovat, jelikoˇz toto záleˇz´ı na volbˇe parametr˚ u pro kaˇzdou mnoˇzinu dat. 4.4.3

Learning Vector Quantization

Algoritmus LVQ – Learning Vector Quantization lze vyuˇz´ıt pro uˇcen´ı Kohonenovy mapy v pˇr´ıpadˇe uˇcen´ı s uˇcitelem. Autor popisuje základn´ı variantu a poté nˇekolik vylepˇsen´ ych. LVQ1 Algoritmus nazvan´ y Learning Vector Quanization (Kohonen et al., 1996b) je ˇcasto oznaˇcován jako pˇredch˚ udce samoorganizuj´ıc´ı se mapy popsané v kapitole 4.4.2. Je to pˇredstavitel uˇcen´ı s uˇcitelem. Po nalezen´ı reprezentanta (codebookvector) pomoc´ı vztahu 19 algoritmus pokraˇcuje u ´pravou vektoru reprezentanta podle vzorce

mt+1 c

=

mtc + αt (xt − mtc ), mtc − αt (xt − mtc ),

pokud x a mc náleˇz´ı do stejné tˇr´ıdy pokud x a mc nenáleˇz´ı do stejné tˇr´ıdy

(28)

D˚ uleˇzité je, ˇze u ostatn´ıch neuron˚ u mi , kde i 6= c z˚ ustávaj´ı vektory nezmˇenˇeny. mt+1 = mti i

(29)

Algoritmus je také moˇzné upravit do formy optimalizované vzhledem k rychlosti konvergence k optimáln´ımu ˇreˇsen´ı (Kohonen et al., 1996b). Tento upraven´ y algoritmus se naz´ yvá OLVQ1 a pracuje na principu u ´pravy koeficientu αt ze vztahu 28. LVQ2(.1), LVQ3 Tato vylepˇsen´ı pˇredchoz´ıho algoritmu se snaˇz´ı posunout svou ˇıma – Nerozhodovac´ı hranici smˇerem k Bayesovské hranici známé ze statistiky (S´ ruda, 1996). Algoritmus LVQ2 se k této hranici bl´ıˇz´ı do urˇcitého poˇctu iterac´ı, kdy se zaˇcne opˇet vzdalovat. Tento nedostatek napravuje algoritmus LVQ3.

4.5

Strojov´ e uˇ cen´ı

Pˇrehledné rozdˇelen´ı algoritm˚ u strojového uˇcen´ı nalezneme v (Abney, 2007). Rozˇs´ıˇren´ı o metody uˇcen´ı s ˇcásteˇcn´ ym dohledem nalezneme v (Zhu – Goldberg, 2009). V´ ysledek shrnuje obrázek 23.

4.5

43

Strojové uˇcen´ı

Reálné hodnoty

REGRESE

KLASIFIKACE semi-supervised classification constrained clustering

ODHAD SHLUKOVÁNÍ HUSTOTY Učení bez učitele

Nominální hodnoty

Učení s učitelem

Obrázek 23: Metody strojového uˇcen´ı

4.5.1

Uˇ cen´ı s uˇ citelem

V pˇr´ıpadˇe uˇcen´ı s uˇcitelem (supervised learning) existuje vnˇejˇs´ı kritérium (uˇcitel) urˇcuj´ıc´ı jak má vypadat správn´ y v´ ystup algoritmu. Tento v´ ystup se srovná s aktuáln´ım v´ ystupem algoritmu a provede se u ´prava tak, aby byl v dalˇs´ı iteraci v´ ystup algoritmu bl´ıˇze správnému v´ ystupu. V pˇr´ıpadˇe neuronov´ ych s´ıt´ı se váhy upravuj´ı podle zvoleného algoritmu tak, aby se rozd´ıl mezi skuteˇcn´ ym a ˇzádan´ ym v´ ystupem zmenˇsoval. S´ıti se poté pˇredloˇz´ı nov´ y v´ ystup z trénovac´ı mnoˇziny a cel´ y postup se opakuje. V´ yhodou uˇcen´ı s uˇcitelem je obvykle vysoká pˇresnost, nev´ yhodou je nutnost pˇr´ıpravy ohodnocen´ ych vzork˚ u (labeled data) pro proces uˇcen´ı. V nˇekter´ ych pˇr´ıpadech je z´ıskán´ı takov´ ych dat velmi nákladné aˇz nemoˇzné. Mezi základn´ı metody uˇcen´ı s uˇcitelem patˇr´ı: • K-nejbliˇzˇs´ıch soused˚ u (k-Nearest Neighbour)11 je algoritmus urˇcuj´ıc´ı kategorii neznámé instance podle ohodnocen´ı urˇcitého mnoˇzstv´ı (k) nejbliˇzˇs´ıch ohodnocen´ ych instanc´ı. Patˇr´ı do skupiny algoritm˚ u uˇc´ıc´ıch se z instanc´ı (Instance-based learning). Na obrázku 24 vid´ıme jeho ukázku pˇri zjiˇst’ován´ı pˇr´ısluˇsnosti neznámé instance (ˇcerného ˇctverce) do tˇr´ıd ˇcerven´ ych respektive modr´ ych ˇctverc˚ u. Pˇri nastaven´ı k = 3 algoritmus najde tˇri nejbliˇzˇs´ı sousedy (2 ˇcervené proti 1 modrému), urˇc´ı pˇrevaˇzuj´ıc´ı oznaˇcen´ı (mus´ı b´ yt lich´ y poˇcet soused˚ u, aby nedocházelo k nerozhodn´ ym situac´ım) – ˇcervené oznaˇcen´ı – a pˇriˇrad´ı neznámou instanci do této tˇr´ıdy. Pro k = 5 bude ˇcern´ y ˇctverec pˇriˇrazen ke tˇr´ıdˇe modr´ ych ˇctverc˚ u. • V´ıcevrstvá neuronová s´ıt’ (Multi layer perceptron) je základn´ı neuronová s´ıt’ tvoˇrená v´ıce vrstvami neuron˚ u – perceptron˚ u (viz obr. 22). M˚ uˇze b´ yt uˇcena napˇr´ıklad algoritmem back-propagation. 11

http://www.scholarpedia.org/article/K-nearest neighbor

44

4


k=5

k=3

Obrázek 24: Klasifikace kNN (k = 3, 5)

• Learning Vector Quantization je algoritmus uˇcen´ı s uˇcitelem pouˇziteln´ y pro Kohonenovu mapu (viz kap. 4.4.3). 4.5.2

Uˇ cen´ı bez uˇ citele

V mnoha pˇr´ıpadech nemáme moˇznost urˇcit, jak má vypadat v´ ystup algoritmu, jelikoˇz nemáme k dispozici ohodnocená data. Je to napˇr´ıklad pˇr´ıpad internetov´ ych hudebn´ıch databáz´ı, kde nejsou o nahrávkách ˇza´dné zaruˇcené informace. Algoritmus tedy mus´ı sám v datech naj´ıt hranice mezi shluky (nebo jejich stˇredy) a urˇcit podle toho pˇr´ısluˇsnost dat ke shluk˚ um. Dalˇs´ım d˚ uleˇzit´ ym parametrem m˚ uˇze b´ yt poˇcet shluk˚ u, kter´ y lze zjiˇst’ovat, pokud tuto informaci nemáme k dispozici. V´ yhodou uˇcen´ı bez uˇcitele je moˇznost pouˇzit´ı neohodnocen´ ych trénovac´ıch dat, nev´ yhodou je obvykle niˇzˇs´ı pˇresnost. Mezi základn´ı metody uˇcen´ı bez uˇcitele patˇr´ı: • k-means. Algoritmus pˇriˇrazuj´ıc´ı oznaˇcen´ı neznám´ ych dat podle k stˇred˚ u shluk˚ u. • Expectation maximization. Algoritmus hledaj´ıc´ı shluky na základˇe rozdˇelen´ı pravdˇepodobnosti shluk˚ u. • Self-organizing map. Algoritmus uˇcen´ı bez uˇcitele pouˇziteln´ y pro Kohonenovu mapu. 4.5.3

Uˇ cen´ı s ˇ c´ asteˇ cn´ ym dohledem

Uˇcen´ı s ˇca´steˇcn´ ym dohledem (Semi-supervised learning) pˇredstavuje snahu o vyuˇzit´ı veˇsker´ ych informac´ı, jak z ohodnocen´ ych tak i neohodnocen´ ych dat. Snaˇz´ı se vyuˇz´ıt v´ yhod obou pˇr´ıstup˚ u v uˇcen´ı – uˇcen´ı s uˇcitelem a uˇcen´ı bez uˇcitele. Vˇzdy je potˇreba z´ıskat alespoˇ n malou mnoˇzinu ohodnocen´ ych dat. Tato kapitola se snaˇz´ı roztˇr´ıdit moˇzné pˇr´ıstupy v uˇcen´ı s ˇcásteˇcn´ ym dohledem. Jelikoˇz je tato oblast vcelku nová, nen´ı dˇelen´ı jeˇstˇe ustálené. C´ıl a princip tˇechto algoritm˚ u se dá popsat dvˇema základn´ımi zp˚ usoby analogicky se smˇerem odkud se do prostoru (viz obrázek 23) mezi uˇcen´ım s uˇcitelem a bez uˇcitele dostaneme.

4.5

Strojové uˇcen´ı

45

Klasifikace s ˇ c´ asteˇ cn´ ym dohledem V (Zhu – Goldberg, 2009) je nazvána Semi” supervised classification“. Metoda vycház´ı z algoritmu uˇcen´ı s uˇcitelem (proto classification). C´ıl m˚ uˇzeme definovat dvˇema zp˚ usoby: • rozˇs´ıˇren´ı klasifikace (uˇcen´ı s uˇcitelem) o postupy redukuj´ıc´ı mnoˇzstv´ı potˇrebn´ ych ohodnocen´ ych trénovac´ıch dat. • doladˇen´ı v´ ysledk˚ u algoritm˚ u uˇcen´ı s uˇcitelem pomoc´ı neohodnocen´ ych dat. Do této kategorie patˇr´ı napˇr´ıklad algoritmy Co-training a Self-training (Zhu – Goldberg, 2009). Tyto obalovac´ı“(wrapper) algoritmy mnoho obalovat libovoln´ y ” algoritmus uˇcen´ı s uˇcitelem schopn´ y poskytnout m´ıru pravdˇepodobnosti správné pˇredpovˇedi. Algoritmus Self-training funguje podle následuj´ıc´ıho schématu: Procedure selfTrain (L0, U) L0 jsou oznaˇ cen´ a data, U jsou neoznaˇ cen´ a data c = train(L0) loop dokud nen´ ı splnˇ eno ukonˇ covac´ ı krit´ erium L = L0 + select(label(U, c)) c = train(L) end loop return c Klasifikátor se tedy nauˇc´ı na mnoˇzinˇe trénovac´ıch dat (obyˇcejnˇe malé), poté klasifikuje neohodnocená data. Data, u nichˇz je velká pravdˇepodobnost správné klasifikace si poté pˇridá do mnoˇziny ohodnocen´ ych dat. Poté se cel´ y postup opakuje. Oproti tomu funguje algoritmus Co-training následuj´ıc´ım zp˚ usobem: Procedure coTrain (L, U) L jsou oznaˇ cen´ a data, U jsou neoznaˇ cen´ a data P = n´ ahodn´ y v´ ybˇ er loop dokud nen´ ı splnˇ eno ukonˇ covac´ ı krit´ erium f1 = train(view1(L)) f2 = train(view2(L)) L = L + select(label(P, f1))+ select(label(P, f2)) Odstranit oznaˇ cen´ a data z P a doplnit P end loop Na data se zde pohl´ıˇz´ı ze dvou pohled˚ u“. Na kaˇzdém pohledu je natrénován ” klasifikátor. Tyto dva klasifikátory si poté navzájem opravuj´ı chybné hodnocen´ı na základˇe pravdˇepodobnosti správného oznaˇcen´ı neznám´ ych dat. Algoritmus cotraining má nˇekolik pˇredpoklad˚ u. Hlavnˇe mus´ı existovat v´ıce pohled˚ u na stejná data. Ty by mˇely nav´ıc splˇ novat tyto podm´ınky (Zhu – Goldberg, 2009): • kaˇzd´ y pohled mus´ı b´ yt sám dostaˇcuj´ıc´ı pro dobrou klasifikaci, • pohledy by na sobˇe nemˇely b´ yt závislé.

46

4


Shlukov´ an´ı s ˇ c´ asteˇ cn´ ym dohledem (Constrained clustering) je mnohem ménˇe popsaná oblast neˇz pˇredchoz´ı. (Zhu – Goldberg, 2009) se j´ı nezab´ yvá, v (Chapelle et al., 2006) nalezneme jednu kapitolu na toto téma. Nen´ı v n´ı vˇsak popsána moˇznost pouˇzit´ı SOM algoritmu. Vycház´ıme zde z algoritm˚ u uˇcen´ı bez uˇcitele. Principem tˇechto algoritm˚ u je vyuˇzit´ı v´ yhod uˇcen´ı s uˇcitelem (lepˇs´ı v´ ysledky klasifikace), pˇri shlukován´ı neoznaˇcen´ ych dat (oznaˇcen´ ymi daty pomoci uˇc´ıc´ımu algoritmu bez uˇcitele dosáhnout v´ ysledk˚ u srovnateln´ ych s klasifikac´ı s uˇcitelem). Toho m˚ uˇze b´ yt dosaˇzeno r˚ uzn´ ymi podm´ınkami typu: • instance A a instance B mus´ı náleˇzet do stejného shluku, • instance A a instance B by nemˇela náleˇzet do stejného shluku. Tyto podm´ınky poté omezuj´ı algoritmus pˇri tvorbˇe shluk˚ u. Mohou m´ıt také r˚ uznou prioritu, takˇze nˇekteré jsou brány v u ´vahu vˇzdy, jiné jen za urˇcit´ ych podm´ınek. Podm´ınky m˚ uˇzeme z´ıskat napˇr´ıklad od experta, které zná danou u ´lohu. Nav´ıc bychom do skupiny algoritm˚ u rozˇs´ıˇruj´ıc´ıch shlukován´ı mohli zapoˇc´ıtat následuj´ıc´ı princip: Pˇrid´ an´ı dodateˇ cn´ ych informac´ı do v´ ysledk˚ u shlukov´ an´ı V tomto pˇr´ıpadˇe pouˇzijeme uˇz hotov´ y v´ ysledek shlukován´ı a pouze jej obohat´ıme o informace z´ıskané z ohodnocen´ ych dat. Jedn´ım takov´ ym znám´ ym semi-supervised algoritmem je Label propagation (Zhu, 2002). Tato metoda umoˇzn ˇuje ˇs´ıˇren´ı znaˇcek (labels) ve shluc´ıch nalezen´ ych pomoc´ı uˇcen´ı bez uˇcitele. Pouˇzit´ı algoritmu label-propagation pro Kohonenovu mapu nalezneme v (Herrman, 2007). Podobn´ ym algoritmem je ˇs´ıˇren´ı informace o pˇr´ısluˇsnosti k reprezentantovi (zde je jich menˇs´ı poˇcet, neˇz neuron˚ u v Kohonenovˇe mapˇe) (Koneˇcn´ y – Trenz, 2009). Tito reprezentanti mohou b´ yt zvoleni expertem nebo stanoveni na základˇe známého poˇctu shluk˚ u. ˇıma – Neruda, 1996) nalezneme algoritmus (v kapitole Kombinace algoritm˚ u V (S´ o LVQ) pracuj´ıc´ı na tomto principu: 1. Uˇcen´ı bez uˇcitele (SOM). 2. Oznaˇcen´ı v´ ystupn´ıch neuron˚ u kategoriemi. 3. Douˇcen´ı s´ıtˇe jedn´ım z algoritm˚ u LVQ.

5

APLIKACE

5 5.1

47

Aplikace Data

Pro veˇskeré zvukové experimenty je d˚ uleˇzité m´ıt kvalitn´ı data, nad kter´ ymi budou experimenty provedeny. V oblasti zpracován´ı hudby existuj´ı bohaté zdroje zvukov´ ych dat. Je ale dobré vyˇreˇsit nˇekolik otázek ohlednˇe volby databáze. 5.1.1

Ohodnocen´ı dat (labels)

Pokud budeme zkoumat vlastnosti tˇr´ıd´ıc´ıch algoritm˚ u (uˇcen´ı s uˇcitelem, bez uˇcitele i semi-sepervised learning), coˇz je pˇr´ıpad vˇsech experiment˚ u v této práci, potˇrebujeme pracovat s ohodnocen´ ymi daty. To znamená, ˇze pˇredem mus´ıme vˇedˇet do jaké tˇr´ıdy konkrétn´ı instance patˇr´ı. I kdyˇz pˇri pozdˇejˇs´ım vyuˇzit´ı vybran´ ych algoritm˚ u tyto ohodnocen´ı znát nebudeme (uˇcen´ı bez uˇcitele), nebo budeme znát ohodnocen´ı jen malé ˇca´sti dat (semi-supervised learning), pro v´ ybˇer algoritm˚ u vhodného pro konkrétn´ı u ´lohu mus´ıme b´ yt schopni porovnat v´ ysledek algoritm˚ u (pˇriˇrazen´ı instanc´ı k tˇr´ıdám) se skuteˇcnou situac´ı nebo pˇresnˇeji s nˇejakou d˚ uvˇeryhodnou aproximac´ı skuteˇcného stavu. I pˇri v´ yvoji algoritm˚ u uˇcen´ı bez uˇcitele mus´ıme v´ ysledné shluky porovnat s nˇejak´ ym skuteˇcn´ ym shlukován´ım, které se snaˇz´ıme s pouˇzit´ım vyv´ıjeného algoritmu hledat. Toto je zˇrejmˇe nejvˇetˇs´ı omezen´ı pˇri v´ ybˇeru testovac´ıch dat, nebot’ kvalitnˇe ohodnocen´ ych dat nen´ı mnoho a jejich ohodnocen´ı je velmi ˇcasovˇe i finanˇcnˇe nároˇcné. Vzniká zde také nov´ y zaj´ımav´ yu ´kol v podobˇe smysluplného ohodnocován´ı velkého mnoˇzstv´ı dat, kde mohou naj´ıt uplatnˇen´ı napˇr´ıklad on-line hry (Law – von Ahn, 2009). 5.1.2

Autorsk´ y z´ akon

Nahrávky jsou obvykle chránˇeny proti kop´ırován´ı. To brán´ı opakován´ı experimentu dalˇs´ımi zájemci. Existuj´ı zde dvˇe ˇreˇsen´ı z nichˇz kaˇzdé má své v´ yhody a nev´ yhody. Pˇri pouˇzit´ı zákonem chránˇen´ ych nahrávek je v´ yhoda v jejich mnohem vˇetˇs´ım mnoˇzstv´ı. Nev´ yhodou je nutnost uveden´ı jednoznaˇcného identifikátoru (viz kapitola 6.2.2) kaˇzdé nahrávky, aby si je pˇr´ıpadn´ y zájemce mohl obstarat a experiment zopakovat. To m˚ uˇze b´ yt samozˇrejmˇe dosti finanˇcnˇe a ˇcasovˇe nároˇcné. Zvláˇstn´ım ˇreˇsen´ım m˚ uˇze b´ yt z´ıskán´ı charakteristik a identifikátoru nahrávky od uˇzivatele bez dalˇs´ıho kop´ırován´ı samotné nahrávky. Tento zp˚ usob vyuˇz´ıvá databáze virtuáln´ı zvukové laboratoˇre popsané v kapitole 6.2. Pˇr´ı pouˇzit´ı nahrávek volnˇe dostupn´ ych pˇres Internet (nechránˇené autorsk´ ym zákonem) mohou zájemci experiment bez problému opakovat a vylepˇsovat. Je zde vˇsak problém v omezen´ ych zdroj´ıch takov´ ych nahrávek. Nejde ani o poˇcet nahrávek, ale sp´ıˇs netypické hudebn´ı vlastnosti takov´ ych nahrávek. Obsah hudby ve voln´ ych databáz´ıch neodpov´ıdá obsahu archiv˚ u bˇeˇzn´ ych hudebn´ıch posluchaˇc˚ u, coˇz nˇekdy

48

5

APLIKACE

m˚ uˇze b´ yt d˚ uleˇzité. Experimenty vyuˇz´ıvaj´ıc´ı volnˇe dostupné nahrávky jsou popsány v kapitole 5.3 a 5.4. 5.1.3

Voln´ e on-line datab´ aze

Existuje soupis12 databáz´ı obsahuj´ıch nahrávky volnˇe dostupné pro z´ıskáván´ı hudebn´ıch informac´ı (MIR) aktualizovan´ y v ˇcervnu 2009. Mezi nejvˇetˇs´ı datábáze patˇr´ı archiv zvuk˚ u nahran´ ych uˇzivateli portálu freesound.org 13 , Novou hudbu nalezneme na portálu avantgardeproject.org 14 , kde je ohlednˇe práv uvedeno All ma” terials are for non-commercial and/or educational use only.“. V tˇechto pˇr´ıpadech se jedná vˇetˇsinou o nahrávky akustické hudby. Kvalitn´ım zdrojem elektronické hudby by mohla b´ yt virtuáln´ı zvuková laboratoˇr, viz kapitola 6.2. V experimentech popsan´ ych v kapitolách 5.3 a 5.4 je pouˇzita databáze Magnatagatune15 (Law – von Ahn, 2009) obsahuj´ıc´ı v listopadu 2010 v´ıce neˇz 25 000 p˚ ulminutov´ ych v´ ysek˚ u z nahrávek pouˇziteln´ ych pro v´ yzkumné u ´ˇcely. Tyto nahrávky jsou nav´ıc ohodnoceny uˇzivateli pomoc´ı tag˚ u“ hodnot´ıc´ıch tyto nahrávky z r˚ uzn´ ych hledisek – hlasitosti, ” nástrojového obsazen´ı, ˇzańru atd. Dalˇs´ı v´ yhodou této databáze je moˇznost jej´ıho kompletn´ıho staˇzen´ı a prac´ı s nahrávkami bez pˇripojen´ı k internetu. Nev´ yhodou je, ˇze nahrávky nejsou vcelku, takˇze napˇr´ıklad nejsou vhodné pro experimenty s klasickou hudebn´ı formou. 5.1.4

Popis nahr´ avek

Nahrávky v databázi mezi sebou tvoˇr´ı velmi bohaté vztahy viz kapitola 2.1. Pro nˇekteré uˇc´ıc´ı algoritmy (viz kapitola 4.5.1, 4.5.3) je nutné m´ıt k dispozici popis tˇechto vztah˚ u (pro nˇekteré nahrávky, nebo dokonce pro vˇsechny). Také je takov´ y popis vhodn´ y pro pozdˇejˇs´ı porovnán´ı s v´ ysledkem experiment˚ u. Popis m˚ uˇze zohledˇ novat následuj´ıc´ı kritéria: • Barva zvuku: nástrojové obsazen´ı, zp˚ usob v´ yvoje nástrojového (vokáln´ıho) obsazen´ı v ˇcase. • Vertikáln´ı vztahy: zp˚ usob práce s melodi´ı, akordy. • Rytmus: zp˚ usob práce s rytmem. • Forma: formáln´ı v´ ystavba. • Styl, autor, ˇzańr. Z´ıskat celkov´ y popis nahrávky je velmi nároˇcné. Nˇekteré atributy jako napˇr´ıklad nástrojové obsazen´ı, styl, autor a ˇzánr b´ yvaj´ı s nahrávkami uvedeny (v digitáln´ı formˇe, napˇr´ıklad ve formˇe ID3 tag˚ u). Melodii, akordy a rytmus lze z´ıskat z pˇrepisu 12

http://grh.mur.at/sites/default/files/mir datasets 0.html http://www.freesound.org/ 14 http://www.avantgardeproject.org/ 15 http://tagatune.org/Magnatagatune.html 13

5.1

Data

49

nahrávky do MIDI (m˚ uˇze ji obsahovat nˇekterá MIDI databáze16 17 ). Nˇekteré informace, jako napˇr´ıklad formaln´ı rozbor, neb´ yvaj´ı u nahrávek dostupné. 5.1.5

Dˇ elen´ı nahr´ avek

Podle kritéria, na jehoˇz základˇe nahrávky klasifikujeme, b´ yvá potˇreba nahrávku rozdˇelit na menˇs´ı d´ıly, které poté vystupuj´ı samostatnˇe. Vedle toho, ˇze si budou podobné celé nahrávky, mohou b´ yt podobné pouze jejich ˇca´sti. Délka tˇechto u ´sek˚ u m˚ uˇze b´ yt pro kaˇzdou nahrávku a kaˇzdé kritérium jiná. Dalo by se pouze ˇr´ıci, ˇze mohu nahrávku dˇelit na konstantn´ı poˇcet u ´sek˚ u a konstantn´ı délku u ´sek˚ u. Dˇelen´ı na konstantn´ı poˇcet u ´sek˚ u je v´ yhodné z hlediska klasifikace, dalˇs´ıho zpracován´ı neuronovou s´ıt´ı, jelikoˇz ta potˇrebuje na svém vstupu vektory o konstantn´ım poˇctu rozmˇer˚ u. Nev´ yhodou m˚ uˇze b´ yt r˚ uzná délka vytvoˇren´ ych u ´sek˚ u pro r˚ uznˇe dlouhé nahrávky. Pokud nastav´ıme napˇr´ıklad poˇcet d´ılk˚ u na 30, vzniknou pro minutovou nahrávku d´ıly o délce 2 sekundy a pro hodinovou o délce 2 minuty. Je potom potˇreba zajistit ( napˇr. pomoc´ı normalizace), aby se spoˇctené charakteristiky daly pro nestejnˇe dlouhé nahrávky porovnávat. U nˇekter´ ych charakteristik to nen´ı problém, jelikoˇz signál vˇetˇsinou kol´ısá kolem nulové u ´rovnˇe, takˇze napˇr´ıklad pouˇzitá suma hodnot signálu viz kapitola 5.2.2 nen´ı závislá na délce d´ılku. Následuj´ıc´ı kód v jazyce MATLAB ukazuje funkci pro dˇelen´ı nahrávky na konstantn´ı poˇcet u ´sek˚ u. function [ pocet_d, delka_d, pocet_samplu_v_d ]... = dily_za_nahravku( dpp, sr, delka_nahr) % rozdeli nahravky na konstantni pocet useku pocet_d=dpp; delka_d=delka_nahr/pocet_d; pocet_samplu_v_d=floor(delka_d*sr); end Vstupn´ımi parametry funkce jsou poˇcet d´ılk˚ u za nahrávku dpp, vzorkovac´ı freku (pocet d – stejn´ y, vence sr a délka nahrávky delka nahr. Funkce vrac´ı poˇcet d´ıl˚ u v d´ılu pocet samplu v d. jako vstupn´ı parametr), délku d´ılu delka d a poˇcet vzork˚ Dˇelen´ı na konstantn´ı délku u ´sek˚ u je v´ yhodné u veliˇcin vyˇzaduj´ıc´ıch pro v´ ypoˇcet stejnˇe dlouhé u ´seky. Tempo napˇr´ıklad m˚ uˇzeme uvádˇet v u ´derech za sekundu (bps), Fourierova trensformace se obvykle poˇc´ıtá pro stˇejnˇe dlouhé u ´seky. Funkce pro dˇelen´ı nahrávky na konstantn´ı délku u ´sek˚ u vypadá v MATLABu následovnˇe. function [ pocet_d, delka_d, pocet_samplu_v_d ]... = dily_za_sekundu( dps, sr, delka_nahr) % rozdeli nahravky na useky o konstantni delce pocet_d=floor(delka_nahr*dps); 16 17

http://free.mididb.com/ http://www.musipedia.org/

50

5

APLIKACE

delka_d=1/dps; pocet_samplu_v_d=sr/dps; end Vstupn´ımi parametry funkce jsou poˇcet d´ılk˚ u za sekundu dps, vzorkovac´ı freku pocet d, délku d´ılu vence sr a délka nahrávky delka nahr. Funkce vrac´ı poˇcet d´ıl˚ delka d a poˇcet vzork˚ u v d´ılu pocet samplu v d. Vstupn´ı a v´ ystupn´ı parametry jsou yˇse, liˇs´ı se pouze u vstupn´ıho pastejné, jako u funkce dily za nahravku popsané v´ rametru udávaj´ıc´ıho nam´ısto poˇctu d´ılk˚ u za nahrávku dpp poˇcet d´ılk˚ u za sekundu dps. Délka d´ılu je nyn´ı nepˇr´ımo u ´mˇerná poˇctu d´ılk˚ u za sekundu. Je zaj´ımavé, ˇze d´ıly o r˚ uzné délce se pouˇz´ıvaj´ı napˇr´ıklad pro popis hudebn´ı formy. Pˇri zmenˇsován´ı délky d´ıl˚ u se pˇrecház´ı na d´ıly o stejné délce – takty. Toto pozorován´ı popisuje následuj´ıc´ı pˇrehled: • d´ıl – charakterizuje formu – konstantn´ı poˇcet • takt – konstantn´ı délka u ´seku • okénko – charakterizuje barvu, signál je uvnitˇr periodick´ y, nˇekolik milisekund, napˇr. Hammingovo okno (Jan, 2002). ´ Uloha správného rozdˇelen´ı nahrávek je, aˇc se to na prvn´ı pohled nezdá, dosti sloˇzitá. Jako nejvˇetˇs´ı problém se jev´ı nalezen´ı hranic mezi velk´ ymi u ´seky o r˚ uzné délce. V experimentech popsan´ ych v kapitolách 5.2, 5.3 a 5.4 staˇc´ı jednoduché dˇelen´ı na konstantn´ı poˇcet u ´sek˚ u. Sloˇzitˇejˇs´ı dˇelen´ı m˚ uˇzeme nalézt napˇr´ıklad v experimentu popsaném v kapitole 6.2. 5.1.6

Standardizace dat

V mnoha situac´ıch je potˇreba porovnávat objekty popsané r˚ uzn´ ym zp˚ usobem, coˇz zp˚ usob´ı, ˇze maj´ı data (charakteristické vektory) r˚ uznou velikost (jednotky) i polohu. Napˇr´ıklad hlasitost m˚ uˇzeme vyˇc´ıslit pomoc´ı smˇerodatné odchylky, ale také pomoc´ı sumy spektra. Grafy tˇechto vektor˚ u maj´ı velice podobn´ y pr˚ ubˇeh, ale dosti odliˇsné jednotky. Dalˇs´ım pˇr´ıkladem mohou b´ yt stejná zvuková událost zaznamenaná s r˚ uznou citlivost´ı mikrofonu. D˚ uleˇzit´ y je také pˇr´ıpad, kdy k popisu nˇejaké vlastnosti pouˇzijeme veliˇcinu závislou na poˇctu vzor˚ u (délce zvukového záznamu). V pˇr´ıpadˇe, ˇze pak chceme nahrávku dˇelit na konstantn´ı poˇcet d´ılk˚ u (abychom z´ıskali charakteristické vektory o stejném poˇctu rozmˇer˚ u), budou nám pro r˚ uznˇe dlouhé nahrávky vycházet vektory s hodnotami závisl´ ymi na délce d´ılku. V tˇechto pˇr´ıpadech mus´ıme vyuˇz´ıt standardizaci dat. Je to taková u ´prava, kdy maj´ı data po pˇrevodu stˇredn´ı hodnotu z¯j = 0 a smˇerodatnou odchylku sj = 1. Stˇredn´ı hodnotu m˚ uˇzeme z´ıskat pomoc´ı vztahu 30 n

1X zi,j z¯j = n i=1 a smˇerodatnou odchylku podle vztahu 31

(30)

5.1

51

Data

v u u sj = t

n

1 X (zi,j − z¯j )2 n − 1 i=1

(31)

z ˇcehoˇz m˚ uˇzeme vypoˇc´ıtat standardizovanou hodnotu podle vztahu 32. xi,j =

zi,j − z¯j sj

(32)

V´ ysledek transformace ukazuje obrázek 25. Testovací data 5 4.5 4 3.5 3 2.5 2 1.5 1

Testovací standardizovaná data 1.5 1 0.5 0 -0.5 -1

0

2

4

6

8

10

0

2

4

6

8

10

Validační standardizovaná data 1.5

Validační data 5

1

4.5

0.5

4

0

3.5 3

-1.5

-0.5 0

2

4

6

8

10

-1

0

2

4

6

8

10

Střední hodnota Aritmetický průměr

Obrázek 25: Standardizace dat

5.1.7

Form´ at v´ ystupn´ıch dat

Otázka zp˚ usobu oznaˇcen´ı v´ ystupn´ıch dat se v pr˚ ubˇehu experimnt˚ u ukázala jako d˚ uleˇzitá. Je potˇreba stanovit urˇcit´ y zp˚ usob ukládán´ı z´ıskan´ ych informac´ı. Nejde zde ani tak o formát ve smyslu textov´ y / binárn´ı nebo o uloˇzen´ı v databázi / souboru, ale sp´ıˇse o pojmenován´ı informac´ı o instanc´ıch a reprezentantech, které potˇrebujeme odliˇsit. Z d˚ uvod˚ u srovnatelnosti vlastn´ıch implementac´ı algoritm˚ u a v´ ysledk˚ u algoritm˚ u v prostˇred´ı Weka (jsou zde ˇsiroké moˇznosti porovnáván´ı) jsme se inspirovali v´ ystupn´ım formátem pouˇzit´ ym t´ımto prostˇred´ım. Zp˚ usoby uloˇzen´ı v´ ysledk˚ u algoritm˚ u s uˇcitelem a bez uˇcitele se zde liˇs´ı:

52

5

APLIKACE

uˇ cen´ı s uˇ citelem (kNN): @relation heavy_silence_3d_std_weka_predicted @attribute @attribute @attribute @attribute @attribute

X1 numeric X2 numeric X3 numeric predictedlabel {heavy,silence} label {heavy,silence}

@data 0.299962,0.264275,0.268314,heavy,heavy 0.18985,0.186568,0.188426,heavy,heavy ... uˇ cen´ı bez uˇ citele (k-means): @relation heavy_silence_3d_std_weka_clustered @attribute @attribute @attribute @attribute @attribute @attribute

Instance_number numeric X1 numeric X2 numeric X3 numeric label {heavy,silence} Cluster {cluster0,cluster1}

@data 0,0.222538,0.190573,0.189241,heavy,cluster1 1,0.215563,0.217857,0.217267,heavy,cluster1 ... Je zde nˇekolik rozd´ıl˚ u. Algoritmy uˇcen´ı bez uˇcitele pouˇz´ıvaj´ı ˇc´ıslo instance. Data jsou seˇrazena postupnˇe podle ˇc´ısel instanc´ı. Následuj´ı v obou pˇr´ıpadech atributy. Následuj´ı informace o skuteˇcném labelu instance a o labelu pˇriˇrazeném algoritmem (v pˇr´ıpadˇe uˇcen´ı bez uˇcitele se tato informace naz´ yvá Cluster) jejichˇz poˇrad´ı je v obou pˇr´ıpadech rozd´ılné (pˇredposledn´ı a posledn´ı sloupec). Za touto hlaviˇckou jsou data. Navrˇ zen´ y vlastn´ı form´ at by mˇel m´ıt stejn´ y formát dat jak pro algoritmy uˇcen´ı s uˇcitelem (LVQ), bez uˇcitele (SOM) a také pro algoritmy s ˇca´steˇcn´ ym dohledem. Pojmenujme si zde nˇekolik informac´ı o instanc´ıch a reprezentantech (neuronech), které je zastupuj´ı. ˇ ıslo instance. Je kl´ıˇcová informace rozliˇsuj´ıc´ı jednotlivé instance. Algoritmus • C´ m˚ uˇze naˇc´ıtat instance v náhodném poˇrad´ı. Vypisovat je v poˇrad´ı, jak byly

5.2

•

• •

•

Zkouˇska koncepce

53

naˇcteny, nebo podle pˇriˇrazen´ ych reprezentant˚ u ˇci jin´ ych atribut˚ u. Tato informace by mˇela b´ yt vˇzdy v prvn´ım sloupci. Atributy. Atributy m˚ uˇzeme oproti ˇc´ıslu instance (pomoc´ı ˇc´ısla instance) snadno vyhledat v p˚ uvodn´ım zdroji dat. Nav´ıc m˚ uˇze b´ yt atribut˚ u velké mnoˇzstv´ı (stovky), coˇz znepˇrehledˇ nuje v´ ystupn´ı informaci. Z tˇechto d˚ uvod˚ u atributy nebudou do v´ ystupu zaˇrazeny. Label instance. Je to informace o pˇr´ısluˇsnosti instance k nˇekteré tˇr´ıdˇe, jeˇz byla k instanci pˇriˇrazena uˇzivatelem (pˇred pouˇzit´ım algoritmu). Label reprezentanta. Je to informace o pˇr´ısluˇsnosti reprezentanta k nˇekteré tˇr´ıdˇe, jeˇz byla reprezentantu pˇriˇrazena uˇzivatelem (napˇr´ıklad expertem) bez ohledu na ostatn´ı vstupn´ı data. Class reprezentanta. Je informace o pˇr´ısluˇsnosti reprezentanta ke tˇr´ıdˇe (nebo shluku), jeˇz byla vytvoˇrena algoritmem. M˚ uˇze b´ yt urˇcena pomoc´ı kter´ ychkoli pˇredchoz´ıch informac´ı. Je to v´ ysledek algoritmu.

5.2

Zkouˇska koncepce

Tento prvn´ı experiment slouˇz´ı jako zkouˇska správnosti celého konceptu. Bylo potˇreba zjistit, jestli je správn´ y návrh experimentu a jestli vrát´ı nˇejaké relevantn´ı v´ ysledky. 5.2.1

Nahr´ avky

Zvuková databáze v tomto experimentu je velice jednoduchá. Z hlediska nárok˚ u sepsan´ ych v kapitole 5.1.2 neumoˇzn ˇuje dobˇre opakován´ı experimentu jin´ ymi zájemci, ale to ani nen´ı v této fázi c´ılem. D˚ uleˇzitá je znalost vztah˚ u nahrávek v databázi (viz 5.1.4). M˚ uˇzeme na n´ı vyzkouˇset nˇekolik experiment˚ u: tˇr´ıdˇen´ı podle nástrojového obsazen´ı, podle stylu, podle autora a lze vyzkouˇset i tˇr´ıdˇen´ı podle formy. Obsahuje nahrávky popsané v tabulce 4. • Nástrojová obsazen´ı tvoˇr´ı následuj´ıc´ı skupiny: vokáln´ı hudba – Guillaumes de Machaut, Josquin des Prez, Orlando di Lasso. Zpˇev s doprovodem se vyskytuje v Matouˇsov´ ych paˇsij´ıch, J. D. Zelenkovi, B´ılovsk´ ych hudeck´ ych. Mluvené slovo ˇ eho Rozhlasu. Instrumentáln´ı hudba je Prolog nalezneme v nahrávkách Cesk´ k Orfeovi, skladby Iannise Xenakise, Velehradské tance, Umˇen´ı fugy a Jiˇr´ı Fejfar Kvarteto. Zaj´ımavá je souvislost dvou nástrojov´ ych proveden´ı Contrapunctu I. • Jsou zde zástupci r˚ uzn´ ych stylov´ ych obdob´ı. Zástupcem stˇredovˇeké hudby je Guillaumes de Machaut. Stylovˇe nejpodobnˇejˇs´ı je renesanˇcn´ı hudba Josquina des Prez a Orlanda di Lassa. Baroko zastupuje Claudio Monteverdi, J. D. Zelenka a J. S. Bach. Hudbu 20. stolet´ı reprezentuje Iannis Xenakis a Giaccinto Scelsi. • U nahrávek je znám´ y autor. ˇ • Nahrávky Ceského rozhlasu obsahuj´ı zpˇev pták˚ u, jeˇz tvoˇr´ı skupinu, která se dále podle zp˚ usobu zpˇevu dˇel´ı na podskupiny.

54

5

APLIKACE

Tabulka 4: Pouˇzité nahr´ avky

ˇ ıslo C´ 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 5.2.2

Autor J. S. Bach Claudio Monteverdi ˇ CR Iannis Xenakis Iannis Xenakis ˇ CR Iannis Xenakis ˇ CR ˇ CR ˇ CR Josquin Des Prez J. S. Bach Giaccinto Scelsi Giaccinto Scelsi Hradiˇst’an Guillaumes de Machaut J. S. Bach – Laibach J. S. Bach – Emerson Orlando di Lasso – Hilliard Jiˇr´ı Fejfar Jiˇr´ı Fejfar Jiˇr´ı Fejfar Hradiˇst’an Jan Dismas Zelenka

N´ azev Matouˇsovy paˇsije Orfeo – Prologo S´ ykora Koˇ nadra Tetras pro smyˇccov´ y kvartet Mists pro sólové piano ˇ Zluna zelená Kottos pro sólo violoncelo Vrabec domác´ı Kos ˇcern´ y Holub domác´ı La deploration... Matouˇsovy paˇsije – Kommt, ihr Töchter Smyˇccová kvarteta Smyˇccová kvarteta B´ılovské hudecké Notredamská mˇse – Kyrie Umˇen´ı fugy – Contrapunctus I Umˇen´ı fugy – Contrapunctus I Missa pro Defunctis – Responsorium Kvarteto 1. vˇeta Kvarteto 2. vˇeta Kvarteto 3. vˇeta Velehradské tance Miserere

Charakteristiky

V tomto experimentu jsou pouˇzity pouze jednoduché charakteristiky signálu v ˇcasové oblasti. Konkrétnˇe jde o mohutnost, stˇredn´ı hodnotu, medián a smˇerodatnou odchylku. Pˇrevod do frekvenˇcn´ı domény nalezneme v kapitole 6.2. Kód zajiˇst’uj´ıc´ı v´ ypoˇcet charakteristik v prostˇred´ı MATLAB: for j = 1:pocet_d start_sample=1+(j-1)*pocet_samplu_v_d; stop_sample=pocet_samplu_v_d+(j-1)*pocet_samplu_v_d; charakteristika(i,j,1)=... sum(data(start_sample:stop_sample,kanal)); nazev_charakteristiky(1,:)=’Mohutnost impulzu

’;

5.2

55

Zkouˇska koncepce

charakteristika(i,j,2)=... mean(data(start_sample:stop_sample,kanal)); nazev_charakteristiky(2,:)=’Stredni hodnota

’;

charakteristika(i,j,3)=... std(data(start_sample:stop_sample,kanal)); nazev_charakteristiky(3,:)=’Smerodatna odchylka’; charakteristika(i,j,4)=... median(data(start_sample:stop_sample,kanal)); nazev_charakteristiky(4,:)=’Median

’;

end Kaˇzdá nahrávka je rozdˇelená na dan´ y poˇcet d´ıl˚ u. Pro kaˇzd´ y d´ıl je stanoveno ˇc´ıslo prvn´ıho a posledn´ıho vzoru vzorku d´ılu – start sample a stop sample. Poté je do tˇr´ırozmˇerného pole charakteristika(ˇ cı ´slo nahr´ avky, c ˇ´ ıslo d´ ılu, c ˇ´ ıslo charakteristiky) uloˇzena hodnota vypoˇctená funkcemi sum, mean, std a median. Název charakteristiky je uloˇzen do pole nazev charakteristiky. 5.2.3

Shlukov´ an´ı

Pro shlukován´ı vytvoˇren´ ych charakteristick´ ych vektor˚ u byla pouˇzita samoorganizuj´ıc´ı se mapa popsaná v kapitole 4.4.2. Shlukován´ı pomoc´ı SOM provedeme v MATLABu následuj´ıc´ım zp˚ usobem: klas_char=charakteristika(:,:,3).’; net = newsom(klas_char,[3 3]); pocet_neuronu=3*3; net.trainParam.showWindow=0; net.trainParam.showCommandLine=1; net.trainParam.epochs=200; net.trainParam.show=10; net = train(net,klas_char); plotsomhits(net,klas_char) plotsomnd(net) hits=sim(net,klas_char); Je zde vyuˇzito implicitn´ıch nastaven´ı SOM v prostˇred´ı MATLAB. Pˇr´ıkazem newsom vytváˇr´ı objekt SOM s topologi´ı 3 krát 3 neurony. Dále se jako parametr

56

5

APLIKACE

pˇredává pole se vstupn´ımi vektory klas char (v tomto pˇr´ıpadˇe je to 3. charakteristika – smˇerodatná odchylka). Charakteristika je pˇri vytváˇren´ı potˇreba kv˚ uli implicitn´ımu nastaven´ı vektor˚ u neuron˚ u (codebooks vectors) na poˇca´tku tak, aby rovnomˇernˇe pokr´ yvaly cel´ y prostor. Dalˇs´ı moˇznost´ı je náhodné rozm´ıstˇen´ı. Podrobnˇeji jsou tyto moˇznosti popsány v kapitole 4.4.2. Nastav´ı se zp˚ usob zobrazován´ı informac´ı o pr˚ ubˇehu uˇcen´ı, nastav´ı se poˇcet trénovac´ıch epoch na 200 a spust´ı se na vytvoˇrené s´ıti trénován´ı pˇr´ıkazem train. Levou ˇcást obrázku 26 (vizualizaci poˇctu nahrávek reprezentovan´ ych kaˇzd´ ym neuronem) z´ıskáme pˇr´ıkazem plotsomhits a pravou ˇca´st obrázku (vzdálenost vektor˚ u neuron˚ u) pˇr´ıkazem plotsomnd. Pokud chceme znát konkrétn´ı pˇriˇrazen´ı instanc´ı (nahrávek) a neuron˚ u, mus´ıme spustit simulaci pˇr´ıkazem sim, kter´ y s´ıti postupnˇe pˇredloˇz´ı vˇsechny instance a vrát´ı k nim odpov´ıdaj´ıc´ı neurony, které na nˇe zareagovaly (jejichˇz vektor je nejbl´ıˇz). V´ ysledky shlukován´ı nahrávek charakterizovan´ ych mohutnost´ı signálu jsou na obrázku 26. Shlukované nahrávky jsou podle odpov´ıdaj´ıc´ıch neuron˚ u (1 je vlevo dole, 9 vpravo nahoˇre) seˇrazeny v tabulce 5:

Obrázek 26: Shlukov´ an´ı podle mohutnosti signálu

Tabulka 5: Shlukov´ an´ı podle mohutnosti signálu

ˇ ıslo neuronu C´ 01 02 03 04 05 06 07 08 09

ˇ ıslo nahr´ C´ avky 12 nic 4,5,7 6,11 nic nic 8 2,15,17,23 1,3,9,10,13,14,16,18,19,20,21,22,24

5.2

57

Zkouˇska koncepce

Zaj´ımavá je skupinka reprezentovaná neuronem 3. V prostoru vektor˚ u neuron˚ u je podstatnˇe vzdálena od ostatn´ıch nahrávek a odpov´ıdaj´ı j´ı vˇsechny skladby Iannise Xenakise ve v´ ybˇeru. Pˇritom je kaˇzdá z nich hraná na jin´ y nástroj. Je to ovˇsem zˇrejmˇe vlastnost´ı (´ urovn´ı hlasitosti) této nahrávky. Ostatn´ı skupiny nejsou pˇr´ıliˇs zaj´ımavé. Pˇri klasifikaci podle stˇredn´ı hodnoty signálu je situace podobná. Opˇet zde nalézáme skupinku nahrávek Iannise Xenakise, nen´ı uˇz vˇsak tak dobˇre oddˇelena od ostatn´ıch. Objevila se tu ovˇsem dalˇs´ı skupinka, pˇredstavuj´ıc´ı nahrávky cimbálové muziky Hradiˇst’an. V´ ysledky klasifikace podle smˇerodatné odchylky signálu jsou na obrázku 27. V tomto pˇr´ıpadˇe se ztratily skupinky nalezené pomoc´ı pˇredchoz´ıch charakteristik, ale objevila se tu jiná spojitost. Prvn´ı ˇctyˇri nahrávky (2, 12, 18, 20) jsou klasifikované neuronem 1 zat´ımco posledn´ı nahrávka (17) je klasifikovaná neuronem 7, kter´ y má od ostatn´ıch neuron˚ u velkou vzdálenost vektoru (codebook vector) – tmavá barva spoj˚ u vedouc´ıch od neuronu 7 (vlevo nahoˇre) na obrázku 27.

Obrázek 27: Klasifikace podle smˇerodatné odchylky signálu

Klasifikované nahrávky jsou podle odpov´ıdaj´ıc´ıch neuron˚ u (1 je vlevo dole, 9 vpravo nahoˇre) seˇrazeny v tabulce 6: Tabulka 6: Klasifikace podle smˇerodatné odchylky signálu

ˇ ıslo neuronu C´ 01 02 03 04 05 06 07 08 09

ˇ ıslo nahr´ C´ avky 2,12,18,20 3,9,23,24 1,5,6,10,16 15 22 4,7,21 17 8 11,13,14,19

58

5

APLIKACE

Z obrázku 28 je patrné, ˇze nahrávka ˇc´ıslo 17 se od ostatn´ıch podstatnˇe liˇs´ı pr˚ ubˇehem hlasitosti. Z toho d˚ uvodu je reprezentovaná neuronem vzdálen´ ym od ostatn´ıch.

Obrázek 28: Smˇerodatn´ a odchylka nahrávek klasifikovan´ ych neuronem 1 a 7

Tento prvn´ı experiment je proof of concept“ celého ˇreˇsen´ı a ukázal, ˇze zˇrejmˇe ” bude moˇzné t´ımto zp˚ usobem hudebn´ı nahrávky shlukovat. V´ ysledky experimentu byly publikovány v (Fejfar et al., 2010b).

5.3

Vyˇ c´ıslen´ı chyby pˇri shlukov´ an´ı

V tomto experimentu je c´ılem porovnán´ı vlivu vybran´ ych parametr˚ u samoorganizuj´ıc´ı se mapy na shlukován´ı nahrávek podle pr˚ ubˇehu informaˇcn´ı hustoty popsané v kapitole 2.1.5. Tato veliˇcina m˚ uˇze b´ yt uˇziteˇcná pˇri nalézán´ı hudebn´ı formy, popˇr´ıpadˇe identifikaci cover˚ u skladeb – stejné skladby nahrané jin´ ymi interprety (Serrà, 2011). Stejnˇe jako v pˇredchoz´ım pˇr´ıpadˇe pouˇz´ıváme v tomto experimentu jednoduchou metodu zpracován´ı signálu (viz kap. 5.1.5), kdy dˇel´ıme nahrávku na n d´ıl˚ ua z´ıskáváme tak pro kaˇzdou nahrávku stejnˇe velk´ y n-rozmˇern´ y charakteristick´ y vektor. V tomto pˇr´ıpadˇe pouˇz´ıváme nahrávky z databáze Magnatagatune, kde jsou vˇsechny ukázky stejné velikosti, takˇze ani jiné dˇelen´ı nepˇricház´ı v u ´vahu. Pro kaˇzd´ y z´ıskan´ y d´ıl nahrávky spoˇc´ıtáme smˇerodatnou odchylku signálu, která nejlépe reprezentuje hlasitost nahrávky, jak se ukázalo v kapitole 5.2. Pomoc´ı pr˚ ubˇehu hlasi-

5.3

59

Vyˇc´ıslen´ı chyby pˇri shlukován´ı

tosti zjednoduˇsenˇe modelujeme pr˚ ubˇeh informaˇcn´ı hustoty nahrávky (viz kap. 2.1.5). Nahrávky reprezentované vytvoˇren´ ymi charakteristick´ ymi vektory shlukujeme pomoc´ı samoorganizuj´ıc´ı se mapy (viz 4.4.2). Experiment se zamˇeˇruje na tˇri zaj´ımavé oblasti. 5.3.1

Zkouman´ e parametry

V tomto experimentu zkoumáme vliv následuj´ıc´ıch parametr˚ u na shlukován´ı nahrávek pomoc´ı samoorganizuj´ıc´ı se mapy: • velikost charakteristick´ ych vektor˚ u, • poˇcet neuron˚ u v SOM, • poˇcet iterac´ı. 5.3.2

Datab´ aze nahr´ avek

V experimentu 5.2 jsme porovnali 24 nahrávek, coˇz se ukázalo jako nedostateˇcné mnoˇzstv´ı pro podrobnˇejˇs´ı pr˚ uzkum vlivu parametr˚ u samoorganizuj´ıc´ı se mapy na v´ ysledky shlukován´ı. Proto jsme hledali jinou vhodnou databázi obsahuj´ıc´ı vˇetˇs´ı mnoˇzstv´ı nahrávek. Jako vhodná se ukázala databáze Magnatagatune (viz kapitola 5.1.3). 5.3.3

V´ ypoˇ cet chyby

V experimentu byl stanoven zp˚ usob v´ ypoˇctu chyby (srovnejme s kvantizaˇcn´ı chybou vyjádˇrenou vztahem 21) jednotliv´ ych neuron˚ u na základˇe eukleidovské vzdálenosti instanc´ı od stˇredu shluku, jeˇz neuron reprezentoval. Navrˇzen´ y zp˚ usob urˇcen´ı chyby nen´ı závisl´ y na pouˇzitém shlukovac´ım algoritmu (existenci reprezentanta – codebook vectoru), takˇze ho m˚ uˇzeme pouˇz´ıt pˇri hodnocen´ı velikosti shluk˚ u nalezen´ ych r˚ uzn´ ymi metodami. Podle vztahu 33 je nalezen stˇred shluku m jako vektor s pr˚ umˇernou hodnotou (mohli bychom vyuˇz´ıt i geometrick´ y pr˚ umˇer, tˇeˇziˇstˇe, nebo jiné statistické ukazatele) sloˇzek vˇsech instanc´ı reprezentovan´ ych dan´ ym neuronem. k P

xi,n

n=1

(33) k Kde mi je i-tá sloˇzka pr˚ umˇerného vektoru, xi,n je i-tá sloˇzka n-té instance v pˇr´ısluˇsném shluku k je poˇcet instanc´ı shluku. Dále je vypoˇctena pr˚ umˇerná eukleidovská vzdálenost vˇsech instanc´ı od stˇredu shluku podle vztahu 34. mi =

k P

E=

||xn − m||

n=1

k

(34)

60

5

APLIKACE

V prostˇred´ı MATLAB realizujeme v´ ypoˇcet následuj´ıc´ım kódem. Nejprve ’ zjiˇst ujeme poˇcet nahrávek pro aktuálnˇe analyzovan´ y neuron – shluk: for i=1:neuronu pocet_nahravek_v_neuronu=0; for j=1:nahravek if neurony(i,j)>0 pocet_nahravek_v_neuronu=pocet_nahravek_v_neuronu+1; end end Zde se urˇc´ı pr˚ umˇern´ y vektor podle vzorce 33. for k=1:dilku prumer_vektor(i,k)=sum(charakteristiky... (neurony(i,1:pocet_nahravek_v_neuronu),k,3))... /pocet_nahravek_v_neuronu; end Tento kód ukazuje v´ ypoˇcet vzdálenosti nahrávky od pr˚ umˇerného vektoru podle vzorce 34. for j=1:pocet_nahravek_v_neuronu pod_odmocninou=0; for k=1:dilku pod_odmocninou=pod_odmocninou+... (prumer_vektor(i,k)-charakteristiky... (neurony(i,j),k,3))^2; end vzdalenost_nahravek(j)=pod_odmocninou^(1/2); end radek=ceil(i/velikostX); sloupec=mod(i,velikostX); if sloupec==0 sloupec=velikostX; end if ((pocet_nahravek_v_neuronu==1)||(pocet_nahravek_v_neuronu==0)) chyby_neuronu(radek,sloupec)=NaN; else chyby_neuronu(radek,sloupec)=sum(vzdalenost_nahravek(:))... /pocet_nahravek_v_neuronu; end end

5.3


61

Na obrázku 29 je chyba vypoˇctena pro testovac´ı shluky ve dvourozmˇerném prostoru. Tyto shluky znázorˇ nuj´ı náhodnˇe generované dvourozmˇerné vektory v r˚ uzném ˇ rozsahu. Cerven´ y shluk má vˇetˇs´ı rozptyl, modr´ y menˇs´ı. V pˇr´ıpadˇe hodnocen´ı shluk˚ u reprezentuj´ıc´ıch nahrávky chceme z´ıskat shluky s co nejmenˇs´ım rozptylem. Stˇred shluku je znázornˇen krouˇzkem a jednotlivé instance hvˇezdiˇckou. Vid´ıme, ˇze vypoˇctené hodnoty odpov´ıdaj´ı rozptylu shluk˚ u – ˇcerven´ y shluk je ohodnocen pr˚ umˇernou vzdálenost´ı 1, 108 kdeˇzto modr´ y menˇs´ı hodnotou 0, 50112.

Obrázek 29: V´ ypoˇcet chyby shluk˚ u

5.3.4

V´ ysledky

Jako prvn´ı jsme zvolili poˇcet rozmˇer˚ u charakteristického vektoru a poˇcet rozmˇer˚ u neuron˚ u v SOM. Pro kaˇzd´ y parametr jsme zvolili dvˇe odliˇsné moˇznosti. V pˇr´ıpadˇe charakteristického vektoru jsou to 3 rozmˇery malého oproti 10 rozmˇer˚ um velkého vektoru. V pˇr´ıpadˇe samoorganizuj´ıc´ı se mapy je to 9 neuron˚ u v pˇr´ıpadˇe malé a 100 neuron˚ u v pˇr´ıpadˇe velké mapy. Vznikly 4 konfigurace: 3 rozmˇern´ y vektor – 9 neuron˚ u v SOM, 10 rozmˇern´ y vektor – 9 neuron˚ u v SOM, 3 rozmˇern´ y vektor – 100 neuron˚ u v SOM, 10 rozmˇern´ y vektor – 100 neuron˚ u v SOM. U kaˇzdé konfigurace jsme zkoumali vliv poˇctu iterac´ı na v´ yslednou chybu. Obrázek 30 ukazuje topologii s 9 neurony (3 x 3) a 3 rozmˇern´ ym charakteristick´ ym vektorem. Poˇcet iterac´ı se mˇen´ı od 52 do 1000 a je znázornˇen ˇc´ıslem nad pˇr´ısluˇsn´ ym grafem. Zaj´ımavé je, ˇze se chyba nemˇen´ı plynule, ale sp´ıˇse z˚ ustává dlouho na stejné u ´rovni a zmˇen´ı se náhle bˇehem nˇekolika iterac´ı. V tomto pˇr´ıpadˇe je vidˇet inicializaˇcn´ı fáze“ od 1. po 51. iteraci, v této fázi nˇekolik neuron˚ u reprezentuje ”

62

5

APLIKACE

Obrázek 30: 3 x 3 SOM, 3D charakteristick´ y vektor, bez normalizace

témˇeˇr vˇsechny instance. Chyba se rychle sn´ıˇz´ı okolo 52. iterace a dále mezi 130 a 140 iterac´ı.


Obrázek 31 ukazuje stejn´ y experiment pouze se zvˇetˇsila dimenze charakteristického vektoru na 10 rozmˇer˚ u. Poˇcet iterac´ı z˚ ustal stejn´ y. M˚ uˇzeme si vˇsimnout, ˇze v´ ysledná chyba z˚ ustala o nˇeco vyˇsˇs´ı, neˇz u pˇredchoz´ıho experimentu. Obrázek 32 ukazuje v´ ystup algoritmu s vˇetˇs´ı topologi´ı – 100 neuron˚ u (10 x 10). Poˇcet iterac´ı jsme zmˇenili od 50 do 2000. Chybová u ´roveˇ n se zde sn´ıˇzila, protoˇze samoorganizuj´ıc´ı se mapa má dostatek moˇznost´ı seskupit k sobˇe podobné nahrávky.

5.3


63



Na obrázku 33 si m˚ uˇzeme prohlédnout v´ yslednou mapu se 100 neurony (10 x 10) a s 10 rozmˇern´ ym vektorem. Vid´ıme, ˇze tu vznikaj´ı b´ılá m´ısta – nevyuˇzité neurony a mezi nimi se tvoˇr´ı shluky. T´ımto zp˚ usobem m˚ uˇzeme dát algoritmu volnost“ v urˇcen´ı ” poˇctu shluk˚ u. Obrázek 34 ukazuje stejnou konfiguraci u ´lohy, jako 33, pouze je charakteristick´ y vektoru nahrávek normalizován v rozsahu od 0 do 1. V prostˇred´ı MATLAB m˚ uˇzeme normalizaci charakteristického vektoru provést následuj´ıc´ı funkc´ı: function [ charakteristika_norm ] = normalizuj( charakteristika )

64

5

APLIKACE

Obrázek 34: 10 x 10 SOM, 10D charakteristick´ y vektor, 3000 iterac´ı, normalizace

[pocet_nahravek pocet_d pocet_charakteristik]=size(charakteristika); charakteristika_norm=zeros(pocet_nahravek, pocet_d, pocet_charakteristik); for i = 1:pocet_nahravek for j= 1:pocet_dilu for k= 1:pocet_charakteristik charakteristika_norm(i,j,k)=... charakteristika(i,j,k)/max(abs(charakteristika(i,:,k))); end end end end M˚ uˇzeme pozorovat, ˇze se rozpadán´ı do shluk˚ u zastavilo, jelikoˇz se nahrávky normalizac´ı navzájem pˇribl´ıˇzily. Shluk˚ u je ménˇe i pˇres vyˇsˇs´ı poˇcet iterac´ı (3000) oproti nejvyˇsˇs´ımu poˇctu iterac´ı u pˇredeˇslého experimentu (2000). Na obrázku 35 m˚ uˇzeme sledovat mnoˇzstv´ı instanc´ı – nahrávek reprezentovan´ ych jednotliv´ ymi neurony. Nejvˇetˇs´ı skupina se utvoˇrila kolem neuron˚ u v levé ˇca´sti mapy. Obrázek 36 ukazuje vzdálenosti mezi vlastn´ımi vektory (codebooks vectors) jednotliv´ ych neuron˚ u. Svˇetlá barva reprezentuje malou vzdálenost – podobné nahrávky, tmavá barva velkou vzdálenost – odliˇsné nahrávky. M˚ uˇzeme pozorovat, ˇze mezi neu-

5.3


65

Obrázek 35: 10 x 10 SOM, 10D charakteristick´ y vektor, 3000 iterac´ı, normalizace, poˇcet reprezentovan´ ych nahr´ avek

Obrázek 36: 10 x 10 SOM, 10D charakteristick´ y vektor, 3000 iterac´ı, normalizace, vzdálenost vektor˚ u reprezentatnt˚ u

rony reprezentuj´ıc´ımi nejvˇetˇs´ı mnoˇzstv´ı pozorován´ı (v levé ˇca´sti mapy) je nav´ıc malá vzdálenost. Nahrávky, které reprezentuj´ı, jsou si podobné. V levé ˇcásti mapy leˇz´ı zaj´ımav´ y neuron ˇc´ıslo 61. Je to neuron reprezentuj´ıc´ı nejvˇetˇs´ı poˇcet nahrávek a zároveˇ n neuron s nejmenˇs´ı chybou . Znamená to tedy, ˇze jsou si j´ım reprezentované nahrávky podobné. Ukázku dvou nahrávek reprezentovan´ ych t´ımto neuronem vid´ıme na obrázku ˇc´ıslo 37. V levé ˇca´sti je nahrávka zob-

66

5

APLIKACE

razena jako waveform“, v pravé ˇcásti vid´ıme odpov´ıdaj´ıc´ı charakteristick´ y vektor. ” Vid´ıme, ˇze obˇe nahrávky maj´ı po celou dobu trván´ı maximáln´ı hlasitost.

Obrázek 37: 1. a 2. nahr´ avka reprezentovaná neuronem s nejmenˇs´ı chybou

Obrázek 38: 1. a 2. nahr´ avka reprezentovaná neuronem s fade-out“ ”

Na obrázku 38 vid´ıme jiné dvˇe nahrávky reprezentované neuronem ˇc´ıslo 96. Je to neuron leˇz´ıc´ı na obrázku 34 na samostatném ostrovˇe“ vpravo nahoˇre. Spoleˇcn´ ym ” rysem obou nahrávek je zeslabován´ı do ztracena. 5.3.5

Diskuse

vztah mezi chybou navrˇ zenou v experimentu a kvantizaˇ cn´ı chybou Kvantizaˇcn´ı chybu (pouˇz´ıvanou v algoritmu vektorové kvantizace) popisuje kapitola 4.4.1 a je

5.3


67

dána vztahem 20, respektive 21. V tomto experimentu je chyba neuronu – shluku, kter´ y reprezentuje dána vzorcem 34. Jsou zde dva rozd´ıly: • kvantizaˇcn´ı chyba poˇc´ıtá s ˇctvercem vzdálenosti – rozd´ıl je pouze ve velikosti, • stˇredem shluku u kvantizaˇcn´ı chyby je reprezentant (codebook vector), kdeˇzto stˇredem shluku chyby navrˇzené v tomto experimentu je vektor s pr˚ umˇern´ ymi hodnotami sloˇzek (komponent) – rozd´ıl je v nutnosti existence reprezentanta v shlukovac´ım algoritmu. Oba rozd´ıly netvoˇr´ı zásadn´ı rozd´ıl v principu stanoven´ı pˇresnosti (rozptylu) shluku. Stanoven´ı chyby navrˇzené v tomto experimentu nen´ı závislé na existenci reprezentanta a je tedy pouˇzitelné i pro shluky vytvoˇrené jin´ ymi algoritmy. velikost charakteristick´ ych vektor˚ u S vˇetˇs´ım rozmˇerem charakteristick´ ych vektor˚ u roste poˇcet iterac´ı algoritmu nutn´ ych pro dosaˇzen´ı stejné chyby. Jinak ˇreˇceno: u vˇetˇs´ıho poˇctu rozmˇer˚ u charakteristického vektoru klesá chyba pomaleji. poˇ cet iterac´ı Souvis´ı s velikost´ı charakteristick´ ych vektor˚ u. Se zvˇetˇsuj´ıc´ım se poˇctem iterac´ı roste pˇresnost mapy – zmenˇsuje se jej´ı chyba. U vˇetˇs´ıch map docház´ı k jejich rozpadán´ı“ na samostatné kusy. Chyba neklesá lineárnˇe, ale docház´ı ke ” skok˚ um. Domn´ıváme se, ˇze tyto zlomy reprezentuj´ı pˇrekonán´ı lokáln´ıch extrém˚ u u ´lohy. Po urˇcitém mnoˇzstv´ı iterac´ı se uˇz uspoˇrádán´ı mapy nemˇen´ı. poˇ cet neuron˚ u v SOM Pomoc´ı poˇctu neuron˚ u m˚ uˇzeme rozliˇsit dva zp˚ usoby pouˇzit´ı Kohonenovy mapy: • Jedna moˇznost je pouˇz´ıt mal´ y poˇcet neuron˚ u a kaˇzdému neuronu poté pˇriˇradit jednu tˇr´ıdu. Potom topologie 2 x 3 neurony shlukuje do ˇsesti tˇr´ıd. Takto se SOM vyuˇz´ıvá napˇr´ıklad v prostˇred´ı WEKA (bal´ıˇcek SelfOrganizingMap v 1.0.1). Urˇcujeme zde poˇcet shluk˚ u jako napˇr´ıklad u algoritmu k-means. • Druhá moˇznost je pouˇzit´ı velk´ ych topologi´ı. Tady pˇredpokládáme, ˇze se neurony (codebooks vectors) seskup´ı tak, ˇze budou aproximovat hustotu pravdˇepodobnosti v´ yskytu instanc´ı. Pokud tedy instance budou tvoˇrit shluky (v n-rozmˇerném prostoru), vzniknou tyto shluky i mezi neurony, coˇz poznáme na jejich vzájemné vzdálenost v (nejˇcastˇeji dvourozmˇerném) prostoru mapy. Pˇri tomto pouˇzit´ı SOM nen´ı potˇreba volit poˇcet shluk˚ u. Z tˇechto moˇznost´ı je potˇreba volit na základˇe typu u ´lohy. Pokud potˇrebujeme jasnˇe stanovit pˇr´ısluˇsnost instance k jedné z nˇekolika znám´ ych tˇr´ıd, je dobré vyuˇz´ıt malou topologii. Pokud nás v´ıce zaj´ımá skuteˇcné rozloˇzen´ı instanc´ı ve tˇr´ıdách s r˚ uzn´ ymi stupni podobnosti a také pokud mohu interpretovat vzniklou mapu, je moˇzné vyuˇz´ıt velk´ ych topologi´ı. ˇ ’astn´ V´ ysledky experimentu byly publikovány v (Fejfar – St y, 2011).

68

5

5.4

APLIKACE

Porovn´ an´ı shlukovac´ıch algoritm˚ u

V tomto experimentu porovnáváme v´ ysledky ˇctyˇr vybran´ ych algoritm˚ u pouˇziteln´ ych pro shlukován´ı ˇcasov´ ych ˇrad. Porovnán´ı algoritm˚ u je provedeno ve smyslu nalezen´ı shody ve v´ ysledn´ ych shluc´ıch. V´ ysledky jsou srovnány ve zvláˇstn´ı formˇe matice zámˇen (confusion matrix), naz´ yvané matice párován´ı (matching matrix). Jako instance ˇcasov´ ych ˇrad je zde pouˇzito hudebn´ıch nahrávek, konkrétnˇe v´ yvoje u ´rovnˇe hlasitosti nahrávek. Tato charakteristika je vyuˇzita v nástroji pro hudebn´ı anal´ yzu pomoc´ı poˇc´ıtaˇce popsaného v kapitole 6.2. Sledován´ı v´ yvoje hlasitosti pˇredstavuje jednoduchou metodu pro popis hudebn´ıch událost´ı z hlediska celé skladby. 5.4.1

Popis v´ yvoje hlasitosti

Na obrázku 39 m˚ uˇzeme vidˇet diagram popisuj´ıc´ı v´ yvoj hlasitosti ve skladbˇe Per ” Slava“ od Krzysztofa Pendereckeho. Kˇrivka je vytvoˇrena z dynamick´ ych znamének v partituˇre skladby. Dynamická znaménka vid´ıme na svislé ose. Na vodorovné ose je ˇcas a pod osou je popsána formáln´ı struktura skladby. V tomto diagramu jsou formáln´ı u ´seky stejnˇe daleko od sebe, coˇz neodpov´ıdá jejich skuteˇcné délce, ale pro orientaci ve skladbˇe to postaˇcuje. Per Slava

dynamika (hlasitost)

ff f mf mp p pp

a1 A

Lento 0:00

a2

a3

b1

b2

B

Allegretto 1:58

b3

b4

c1

c2

c3

C

Vivace 2:36

a4 A

a5

2

Lento 3:24

a6

konec čas[s]

Coda

4:13

4:35

Obrázek 39: Per Slava“ – v´ yvoj hlasitosti kompozice (Fil´ıpek, 2011) ”

Obrázek 40 poskytuje rozbor interpretace skladby Per Slava“ od Stevena Ho” ´ nigberga (dostupné z last.fm18 ). Urovnˇ e hlasitosti tu vyjadˇrujeme pomoc´ı mˇen´ıc´ı se smˇerodatné odchylky signálu, stejnˇe jako v kapitole 5.3. Nav´ıc je tu vykreslena hlasitost, vypoˇc´ıtaná jako plocha pod kˇrivkou spektra – suma hodnot. M˚ uˇzeme zde pozorovat nˇekolik odchylek mezi kompozic´ı (modelem) a interpretac´ı. Prvn´ı rozd´ıl je v délce nahrávky, kde se interpretace 5:45 min (345s) liˇs´ı od modelu 4:35 min (275s). Dalˇs´ı rozd´ıly nalezneme ve v´ yvoji hlasitosti. V modelu je pro kaˇzd´ y formov´ y d´ıl pˇredepsaná jedna u ´roveˇ n hlasitosti, ale v interpretaci jsou dynamické zmˇeny pˇrirozenˇe mnohem ˇcastˇejˇs´ı. Navzdory tˇemto rozd´ıl˚ um nalezneme 18

http://www.last.fm/music/Steven+Honigberg/ /Per+Slava

69

Porovnán´ı shlukovac´ıch algoritm˚ u 0.2

směrodatná odchylka suma spektra

0.15

20 15

0.1

10

0.05

5

0

suma spektra

směrodatná odchylka

5.4

0 0

50

100

150

200

250

300

350 čas[s]

A

Lento 0:00

B

Allegretto 2:23

C

Vivace 3:12

A2

Lento 3:57

Coda

5:03

5:50

Obrázek 40: Per Slava“ – smˇerodatná odchylka a suma spektra interpretace ”

v diagramech mnoho spoleˇcn´ ych rys˚ u. Oba diagramy zaˇc´ınaj´ı a konˇc´ı v n´ızké dynamice, nejniˇzˇs´ı bod se naház´ı v ˇca´sti B“ následovan´ y nejvyˇsˇs´ı dynamikou. ” 5.4.2

Zp˚ usoby porovn´ an´ı v´ ysledk˚ u shlukov´ an´ı

V oblasti uˇcen´ı s uˇcitelem se pro srovnán´ı v´ ysledk˚ u klasifikace nebo predikce se skuteˇcnou situac´ı pouˇz´ıvá matice zámˇen (confussion matrix). Pokud bychom mˇeli instance náleˇz´ıc´ı do dvou tˇr´ıd, pozitivn´ı a negativn´ı, existuj´ı pro v´ ysledky ˇctyˇri moˇznosti: • True positives – instance správnˇe klasifikované, jako pozitivn´ı. • True negatives – instance správnˇe klasifikované, jako negativn´ı. • False positives – instance nesprávnˇe klasifikované, jako pozitivn´ı. • False negatives – instance nesprávnˇe klasifikované, jako negativn´ı. Matici zámˇen m˚ uˇzeme vidˇet v tabulce 7. Vid´ıme zde i instanc´ı patˇr´ıc´ıch do skupiny true positive, j instanc´ı true negative, k instanc´ı false positive a l instanc´ı false negative. Tabulka 7: Matice z´ amˇen (confussion matrix)

klasifikovány jako positivn´ı klasifikovány jako negativn´ı

skuteˇcnˇe pozitivn´ı skuteˇcnˇe negativn´ı i k l j

Pˇri shlukován´ı (analogii ke klasifikaci funguj´ıc´ı na principu uˇcen´ı bez uˇcitele) skuteˇcnou situaci neznáme. Máme k dispozici pouze v´ ysledky shlukován´ı vytvoˇrené r˚ uzn´ ymi algoritmy. Pro srovnán´ı tˇechto v´ ysledk˚ u jsme zmˇenili matici zámˇen tak, aby srovnávala v´ ysledky dvou shlukovac´ıch algoritm˚ u. Uvaˇzujme algoritmus AlgA, dˇel´ıc´ı data do tˇr´ı shluk˚ u α, β, γ a algoritmus AlgB dˇel´ıc´ı data do dvou shluk˚ uψ a ω. Z v´ ysledk˚ u m˚ uˇzeme vytvoˇrit matici párován´ı (matching matrix) zobrazenou v tabulce 8.

70

5

APLIKACE

Tabulka 8: Matice p´ arov´ an´ı (matching matrix)

ψ ω

α i l

β j m

γ k n

Z matice párován´ı m˚ uˇzeme zjistit, ˇze shluk α algoritmu AlgA má i instanc´ı ve shluku ψ a l instanc´ı ve shluku ω. Pokud je i >> l, m˚ uˇzeme ˇr´ıci, ˇze shluk α algoritmu AlgA je shodn´ y se shlukem ψ algoritmu AlgB. Z jiného pohledu m˚ uˇzeme ˇr´ıci, ˇze shluk ω algoritmu AlgB má l instanc´ı ve shluku α, m instanc´ı ve shluku β a n instanc´ı ve shluku γ algoritmu AlgA. 5.4.3

Srovn´ avan´ e algoritmy

V tomto experimentu srovnáváme implementace následuj´ıc´ıch algoritm˚ u: • k-means (Weka 3.7.3), • EM (Weka 3.7.3), • SOM 1.0.1 (Weka 3.7.3) (SOM je z bal´ıˇckového systému Weky), • SOM (vlastn´ı implementace v C++19 popsaná v kapitole 6). Srovnán´ı vlastn´ı implementace s implementac´ı algoritm˚ u z prostˇred´ı WEKA je umoˇznˇeno d´ıky stejnému v´ ystupn´ımu formátu (.arff viz 5.1.7). Porovnáváme zde pouze v´ ysledky, nikoli ˇcasovou nebo pamˇet’ovou nároˇcnost. 5.4.4

Data

V tomto experimentu pouˇz´ıváme databázi Magnatagatune popsanou v kapitole 5.1.3. Vyb´ıráme z této databáze nahrávky, které byly oznaˇceny labely heavy“, si” ” lence“. Nahrávek s labelem heavy“ je v této databázi 217 a nahrávek s labelem ” silence“ je 68. Tˇechto 285 soubor˚ u zpracováváme skripty20 provádˇen´ ymi v GNU ” Octave. Tento algoritmus rozdˇel´ı kaˇzdou nahrávku do tˇr´ıch d´ıl˚ u a pro kaˇzd´ y spoˇc´ıtá smˇerodatnou odchylku signálu. Vznikne tedy 285 3-rozmˇern´ ych vektor˚ u popisuj´ıc´ıch nahrávky ve smyslu hlasitosti, respektive obsahu. Tyto vektory ukládáme do csv souboru, kter´ y lze naˇc´ıst do prostˇred´ı WEKA. Takto vypadá hlaviˇcka souboru s prvn´ıma dvˇema vektory pro experiment s hlasitost´ı: X1,X2,X3,label 0.2225377233788531,0.1905727553096405,0.1892405993722129,heavy 0.2155633750137449,0.2178567154632935,0.2172673912120148,heavy Z´ıskané charakteristické vektory jsou dobˇre separovatelné, jak m˚ uˇzeme vidˇet na obrázku 41, coˇz je d˚ uleˇzité pro dobré v´ ysledky shlukován´ı. Na vodorovné ose jsou hodnoty sloˇzek vektoru, na svislé ose ˇcetnosti jejich v´ yskytu. Modrá barva 19 20

http://aistorm.mendelu.cz/som/wiki/som%2B%2B http://aistorm.mendelu.cz/som/browser/trunk/agentOctave

5.4

Porovnán´ı shlukovac´ıch algoritm˚ u

71

odpov´ıdá nahrávkám oznaˇcen´ ym jako silence“, ˇcervená barva patˇr´ı k nahrávkám ” oznaˇcen´ ym jako heavy“. M˚ uˇzeme si vˇsimnout, ˇze rozdˇelen´ı nahrávek heavy“ má ” ” vrchol (nejˇcastˇejˇs´ı hodnotu) uprostˇred diagramu (hodnota 0,25), zat´ımco nahrávky silence“ maj´ı vrchol u levého okraje (hodnota 0). ”

Obrázek 41: Rozloˇzen´ı sloˇzek vektor˚ u

5.4.5

Labely

Nahrávky databáze Magnatagatune maj´ı labely vytvoˇrené lidmi. Tyto labely maj´ı nˇekteré netypické vlastnosti pramen´ıc´ı z principu hry tagatune, popsané v (Law – von Ahn, 2009). Ve hˇre jde o rychlost, takˇze se hráˇci snaˇz´ı vytvoˇrit label hned, jakmile zaˇcne skladba hrát. Z toho d˚ uvodu labely reflektuj´ı sp´ıˇse poˇca´tek nahrávek. V samotném shlukován´ı se labely nevyskytuj´ı, ale m˚ uˇzeme je vyuˇz´ıt pˇri vyˇc´ıslen´ı chyby v´ ysledn´ ych shluk˚ u (classes to clusters evaluation), coˇz nám umoˇzn´ı stanovit, jak dobˇre shluky koresponduj´ı s tˇr´ıdami vytvoˇren´ ymi lidmi. 5.4.6

Stanoven´ı poˇ ctu shluk˚ u

Pro stanoven´ı poˇctu shluk˚ u se standardnˇe pouˇz´ıvá algoritmus naz´ yvan´ y v-fold cross validation (Hsu et al., 2000). V naˇsem experimenu jsme nalezli optimáln´ı poˇcet shluk˚ u pomoc´ı algoritmu E-M, jehoˇz implementace v prostˇred´ı WEKA umoˇzn ˇuje nalezen´ı optimáln´ıho poˇctu shluk˚ u pomoc´ı algoritmu v-fold cross validation. Algoritmus minimalizuje logaritmickou pravdˇepodobnost v algoritmu E-M. Algoritmus E-M stanovil optimáln´ı poˇcet shluk˚ u na 6. Byl spuˇstˇen s následuj´ıc´ımi parametry: weka.clusterers.EM -I 100 -N -1 -M 1.0E-6 -S 100

72

5

APLIKACE

Obrázek 42: Shlukov´ an´ı k-means (k = 2)

5.4.7

Porovn´ an´ı v´ ysledk˚ u

Na obrázku 42 vid´ıme v´ ysledky shlukován´ı algoritmu k-means (k = 2) po 11 iterac´ıch. Shluky jsou vizualizovány ve dvourozmˇerném prostoru, s pouˇzit´ım sloˇzek X1 a X2 charakteristick´ ych vektor˚ u. Sloˇzka X3 se pˇri vizualizaci ignoruje. Pro interpretaci v´ ysledk˚ u konzistentn´ı s kapitolou 5.4.2, oznaˇcme tˇr´ıdu si” lence“ jako pozitivn´ı a heavy“ jako negativn´ı. M˚ uˇzeme potom zaznamenat, ˇze ” vˇetˇsina nahrávek oznaˇcen´ ych jako silence“ patˇr´ı do shluku 0 (modrá barva), respek” tive vˇetˇsina nahrávek oznaˇcen´ ych jako heavy“ patˇr´ı do shluku 1 (ˇcervená barva). ” M˚ uˇzeme pozorovat: • true positives: modré kˇr´ıˇzky (shluk 0 – silence“), ” • true negatives: ˇcervené kˇr´ıˇzky (shluk1 – heavy“), ” • false positives: modré ˇctvereˇcky (shluk 0 – heavy“), ” • false negatives: ˇcervené ˇctvereˇcky (shluk 1 – silence“). ” Toto zobrazen´ı z´ıskáme v prostˇred´ı WEKA pomoc´ı moˇznosti visualize clus” ter asignments“, kde máme také moˇznost uloˇzit v´ ysledky shlukováni do .arff souboru, coˇz je velmi uˇziteˇcné pro dalˇs´ı porovnáván´ı (m˚ uˇzeme také vˇse provést automaticky21 ). Tento soubor má následuj´ıc´ı formát (pˇridává k dat˚ um prvn´ı sloupec s ˇc´ıslem instance a posledn´ı sloupec s informac´ı o pˇr´ısluˇsnosti ke shluku): 0,0.222538,0.190573,0.189241,heavy,cluster1 1,0.215563,0.217857,0.217267,heavy,cluster1 Z tohoto souboru m˚ uˇzeme z´ıskat matici zámˇen pomoc´ı vytvoˇreného skriptu22 pˇr´ıkaz˚ u unixového shellu bash. Tyto skripty by mˇely b´ yt pˇrenositelné na r˚ uzn´ ych linuxov´ ych distribuc´ıch. 21 22

http://aistorm.mendelu.cz/som/browser/trunk/vysledky shlukovani/weka.sh http://aistorm.mendelu.cz/som/browser/trunk/vysledky shlukovani/alg vs label.sh

5.4

73

Porovnán´ı shlukovac´ıch algoritm˚ u

Tabulka 9: Matice z´ amˇen (confussion matrix) k-means k = 2

shluk 0 shluk 1

heavy“ silence“ ” ” 9 67 208 1

Matice zámˇen pro toto shlukován´ı je v tabulce 9. Vyskytuje se zde 10 ˇspatnˇe zaˇrazen´ ych nahrávek z celkového poˇctu 285, ˇc´ımˇz je dána pˇresnost algoritmu kmeans (kde k = 2) 96,5 %. Pokud zmˇen´ıme poˇcet shluk˚ u na optimáln´ı hodnotu – 6 – dostaneme matici zámˇen, zachycenou v tabulce 10. Tady m˚ uˇzeme porovnat v´ ysledky vˇsech srovnávan´ ych algoritm˚ u oproti lidmi vytvoˇren´ ym label˚ um za pˇredpokladu, ˇze shluky koresponduj´ı s tˇemi tˇr´ıdami, do kter´ ych patˇr´ı vˇetˇsina instanc´ı shluk˚ u. Napˇr´ıklad shluk 4 algoritmu k-means má 25 instanc´ı ve tˇr´ıdˇe heavy“ a 8 instanc´ı ve tˇr´ıdˇe ” silence“. Pˇredpokládáme, ˇze by mˇely vˇsechny instance shluku patˇrit do jedné tˇr´ıdy, ” povaˇzujeme tedy zm´ınˇen´ ych 8 instanc´ı za ˇspatnˇe zaˇrazené. Algoritmy byly spuˇstˇeny s následuj´ıc´ımi parametry: weka.clusterers.SimpleKMeans -N 6 -A "weka.core.EuclideanDistance -R ...first-last" -I 500 -S 10 weka.clusterers.EM -I 100 -N 6 -M 1.0E-6 -S 100 weka.clusterers.SelfOrganizingMap -L 1.0 -O 2000 -C 1000 -H 2 -W 3 ...-I -S , naˇse vlastn´ı implementace SOM s topologi´ı 2 x 3 neuron˚ u a pˇeti iteracemi: ./autoSom heavy\_silence\_3d\_std\_weka.csv 2 3 5 > 6-SOM-cpp.arff Tabulka 10: Matice z´ amˇen (confussion matrix) shluky – tˇr´ıdy

cluster0 cluster1 cluster2 cluster3 cluster4 cluster5

k-means heavy silence 81 0 30 0 7 0 0 60 25 8 74 0 8 97,19 %

EM heavy silence 37 13 7 0 27 0 59 0 0 55 87 0 13 95,44 %

SOM (weka) heavy silence 0 55 38 2 83 0 5 11 61 0 30 0 7 97,55 %

SOM (C++) heavy silence 87 0 35 5 0 30 93 0 2 19 0 14 7 97,55%

M˚ uˇzeme si vˇsimnout, ˇze se pˇresnost algoritmu k-means se zv´ yˇsen´ım poˇctu shluk˚ u (ze 2 na 6) zv´ yˇsila (z 96,49 % na 97,55 %). Pˇresnost algoritmu E-M je

74

5

APLIKACE

o nˇeco málo horˇs´ı a nejlepˇs´ıho v´ ysledku dosáhl algoritmus SOM (obˇe implementace maj´ı stejnou pˇresnost 97,55 %). Nyn´ı zjistˇeme, jak jsou si podobné v´ ysledky r˚ uzn´ ych implementac´ı SOM. Pro vyˇc´ıslen´ı tohoto srovnán´ı pouˇzijeme matici párován´ı popsanou v kapitole 5.4.2. Matici z´ıskáme ze soubor˚ u .arff (maj´ı v posledn´ım sloupci název shluku reprezentuj´ıc´ıho instanci) pomoc´ı skriptu23 . Z´ıskanou matici párován´ı vid´ıme v tabulce 11. Tabulka 11: Matice p´ arov´ an´ı (matching matrix) shluky – shluky

shluk shluk SOM shluk (weka) shluk shluk shluk

0 1 2 3 4 5

shluk 0 0 0 57 0 0 30

shluk 1 0 34 0 6 0 0

SOM (C++) shluk 2 shluk 3 30 0 0 6 0 26 0 0 0 61 0 0

shluk 4 11 0 0 10 0 0

shluk 5 14 0 0 0 0 0

Zaj´ımavou informaci nalezneme ohlednˇe pro obˇe implementace problematického shluku 1. Implementace C++ zde má 5 chyb, implementace Weky potom 2 chyby. M˚ uˇzeme se vˇsimnout, ˇze obˇe implementace souhlas´ı s 34 instancemi, ale rozcházej´ı se v dalˇs´ıch 6 instanc´ıch, které umist’uj´ı do shluku 3 (kde se nacház´ı 5 chyb implementace Weky). Pˇredpokládáme, ˇze hlubˇs´ı anal´ yza tˇechto rozd´ıl˚ u m˚ uˇze zlepˇsit v´ ykon algoritm˚ u za pouˇzit´ı semi-supervised algoritmu (napˇr´ıklad co-training). Matice párován´ı obsahuje velké mnoˇzstv´ı nulov´ ych poloˇzek, coˇz ukazuje na jednotnost v´ ysledk˚ u implementace SOM ve Wece a naˇs´ı implementace. T´ımto jsme také provedli ovˇeˇren´ı funkˇcnosti vlastn´ı implementace popsané v kapitole 6. 5.4.8

Z´ avˇ er

V´ ysledky vybran´ ych algoritm˚ u jsou velmi slibné. Pˇresnost porovnávan´ ych algoritm˚ u v tabulce 10 pˇresahuje 95 %. Toto je ˇca´steˇcnˇe zp˚ usobeno jednoduchost´ı v rozliˇsován´ı mezi nahrávkami oznaˇcen´ ymi jako heavy“ a silence“. Na obrázku 41 si m˚ uˇzeme ” ” vˇsimnout, ˇze jsou zpracovávané charakteristické vektory dobˇre separovatelné. Navzdory jednoduchosti této u ´lohy ale mus´ıme uvaˇzovat subjektivnost hranice mezi hlasit´ ym a tich´ ym. Navrˇzená forma matice zámˇen poskytuje informace o rozd´ılech ve v´ ysledc´ıch shlukován´ı r˚ uzn´ ymi algoritmy. Anal´ yza tˇechto rozd´ıl˚ u m˚ uˇze b´ yt uˇziteˇcná pˇri návrhu a studiu algoritm˚ u s ˇca´steˇcn´ ym dohledem (semi-supervised learning). V´ ysledky tohoto experimentu jsou pˇrijaty na konferenci a budou publikovány v (Fejfar et al., 2011). 23

http://aistorm.mendelu.cz/som/browser/trunk/vysledky shlukovani/alg vs alg.sh

5.5

75

Porovnán´ı klasifikaˇcn´ıch algoritm˚ u

5.5

Porovn´ an´ı klasifikaˇ cn´ıch algoritm˚ u

V tomto experimentu porovnáváme tˇri známé algoritmy uˇcen´ı s uˇcitelem jmenované v kapitole 4.5.1. Data i metody porovnán´ı jsou stejné jako u experimentu porovnávaj´ıc´ıho shlukovac´ı algoritmy (kap. 5.4), coˇz umoˇzn ˇuje srovnán´ı v´ ysledk˚ u. Je potˇreba si ale uvˇedomit, ˇze oba experimenty vyuˇz´ıvaj´ı jin´ y zp˚ usob uˇcen´ı – bez uˇcitele (kap. 4.5.2) a s uˇcitelem (viz kap. 4.5.1). Konkrétnˇe jsou porovnány tyto implementace algoritm˚ u: • kNN (Weka 3.7.3), algoritmus nazvan´ y IBk • MLP (GNU Octave 3.4.2), package nnet verze 0.1.13 • LVQ (vlastn´ı implementace v C++24 popsaná v kapitole 6). 5.5.1

k nejbliˇ zˇs´ıch soused˚ u

Tento algoritmus je popsán kapitole 4.5.1 a jeho moˇzné v´ ysledky zachycuje obrázek 24. Vyuˇzili jsme implementaci algoritmu v prostˇred´ı WEKA. Nacház´ı se mezi klasifikátory ve skupinˇe Lazy“, coˇz odkazuje k zaˇrazen´ı mezi klasifikátory pˇriˇrazuj´ıc´ı ” ohodnocen´ı k instanci aˇz po vytvoˇren´ı dotazu. Algoritmus jsme spustili s následuj´ıc´ı konfigurac´ı: weka.classifiers.lazy.IBk -K 3 -W 0 -A ..."weka.core.neighboursearch.LinearNNSearch -A ...\"weka.core.EuclideanDistance -R first-last\"" Testovali jsme tˇri hodnoty k = 1, 3, 5 pomoc´ı parametru −K, pˇriˇcemˇz nejlepˇs´ı u ´spˇeˇsnost vyˇsla s poˇctem 3 nejbliˇzˇs´ıch soused˚ u. Pˇri stanovován´ı v´ ysledku byla pouˇzita 10ti sloˇzková cross-validace. Matice zámˇen pro tuto klasifikaci je v tabulce 12. Tabulka 12: Matice z´ amˇen (confussion matrix) k-nearest neighbours k = 3

klasifikace

heavy“ ” silence“ ”

skuteˇcn´ y stav heavy“ silence“ ” ” 215 2 2 66

Vyskytuj´ı se zde 4 ˇspatnˇe zaˇrazené nahrávky z celkového poˇctu 285, coˇz dává pˇresnost algoritmu k-NN, kde k = 3 na 98,6 %. To je velice dobr´ y v´ ysledek od˚ uvodniteln´ y dobrou separovatelnost´ı dat popsanou v kapitole 5.4.4. Zaj´ımavé v´ ysledky z´ıskáme, pokud budeme data vizualizovat. Charakteristické vektory jsou tˇr´ırozmˇerné, pˇri zobrazen´ı do dvourozmˇerného prostoru (kv˚ uli jasné projekci) budeme ignorovat tˇret´ı rozmˇer. 24

http://aistorm.mendelu.cz/som/wiki/som%2B%2B

76

5

APLIKACE

směrodatná odchylka (složka X2)

Graficky znázornˇen´ y v´ ysledek vid´ıme na obrázku 43, kde jsou chybnˇe klasifikované instance oznaˇceny ˇctvereˇcky. Z jejich polohy je zˇrejmé, ˇze jde o instance leˇz´ıc´ı v hraniˇcn´ım pásmu. Domn´ıváme se, ˇze se u jejich label˚ u pˇridˇelen´ ych ˇclovˇekem uplatˇ nuje subjektivita vn´ımán´ı u ´lohy.

256 98 152

283

směrodatná odchylka (složka X1)

Obrázek 43: k nejbliˇzˇs´ıch soused˚ u k-NN

V tabulce 13 jsou popsány chybnˇe klasifikované instance. Vid´ıme zde 2 typy chyb (true negatives a false positives): instance s labelem heavy“ (skuteˇcná hodnota ” zadaná ˇclovˇekem) a klasifikované jako silence“ – nahrávky ˇc´ıslo 98 a 152 a instance ” s labelem silence“ (skuteˇcná hodnota zadaná ˇclovˇekem) a klasifikované jako heavy“ ” ” – nahrávky ˇc´ıslo 256 a 283. Dále m˚ uˇzeme v tabulce naj´ıt cestu ke konkrétn´ımu souboru v databázi Magnatagatune. Cesta zaˇc´ıná koˇrenov´ ym adresáˇrem magnataga” tune/mp3/“ a pokraˇcuje podadresáˇrem (0 - f) a konkrétn´ım souborem. Tabulka 13: Chybnˇe klasifikované instance

ˇ ıslo nahr´ C´ avky 98

Label heavy

Klasifikace silence

152

heavy

silence

256

silence

heavy

283

silence

heavy

N´ azev nahr´ avky 3/mandrake rootthe seventh mirror-04put your money where your mouth is59-88.mp3 b/rebel rebel-explode into space-07artificial kid-233-262.mp3 9/wicked boy-chemistry-06-ten years0-29.mp3 4/myles cochran-marginal street-15such a sunny day-407-436.mp3

Na obrázku 44 vid´ıme instance chybnˇe klasifikované jako silence“. U nahrávky ” 98 to m˚ uˇze b´ yt zp˚ usobeno zv´ yˇsen´ ym hodnocen´ım zaˇcátku skladby popsaném v kapitole 5.4.5. U nahrávky 152 to m˚ uˇze b´ yt zp˚ usobeno pˇrevládaj´ıc´ımi tich´ ymi ˇca´stmi (2. a 3. sloˇzka charakteristického vektoru).

5.5

77

Porovnán´ı klasifikaˇcn´ıch algoritm˚ u Směrodatná odchylka

[std]

amplituda

nahrávka 98 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4

0

5

10

15

20

25

30

0.13 0.125 0.12 0.115 0.11 0.105 0.1 0.095 0.09

0

10

15

20

25 t [s]

Směrodatná odchylka 0.104 0.102 0.1 0.098 0.096 0.094 0.092 0.09 0.088 0.086

[std]

amplituda

nahrávka 152 0.4 0.3 0.2 0.1 0 -0.1 -0.2 -0.3 -0.4

5

0

5

10

15

20

25

30

0

5

10

15

20

25 t [s]

Obrázek 44: Instance chybnˇe klasifikované jako silence“ ” nahrávka 256

Směrodatná odchylka 0.2 0.19

0.5

0.18 [std]

amplituda

1

0

0.16

-0.5 -1

0.17

0.15 0

5

10

15

20

25

0.14

30

0

10

15

20

25 t [s]

Směrodatná odchylka 0.18 0.16 0.14 [std]

amplituda

nahrávka 283 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8

5

0.12 0.1 0.08 0.06

0

5

10

15

20

25

30

0.04

0

5

10

15

20

25 t [s]

Obrázek 45: Instance chybnˇe klasifikované jako heavy“ ”

Na obrázku 45 vid´ıme instance chybnˇe klasifikované jako heavy“. I zde vid´ıme, ” ˇze m˚ uˇze b´ yt label pˇridˇelen´ y ˇclovˇekem ovlivnˇen jednou z tich´ ych ˇca´st´ı (zaˇca´tek, nebo konec) bez ohledu na pˇrevaˇzuj´ıc´ı hlasitost.

78

5

5.5.2

APLIKACE

V´ıcevrstv´ a neuronov´ a s´ıt’ (MLP)

Princip této neuronové s´ıtˇe je popsán v kapitole 4.3 na obrázku 22. Vybrali jsme implementaci v prostˇred´ı GNU Octave z d˚ uvod˚ u kompatibility s prostˇred´ım MATLAB, dobré dokumentace k bal´ıˇcku nnet (pˇridává do GNU Octave funkcionalitu v´ıcevrstvé neuronové s´ıtˇe) a dále z d˚ uvodu open-source zdrojového kódu, coˇz umoˇzn ˇuje pouˇzit´ı a prohl´ıˇzen´ı zdrojového kódu bez problém˚ u s licenc´ı. Bal´ıˇcek nnet, kter´ y do GNU Octave pˇridává funkcionalitu v´ıcevrstvé neuronové s´ıtˇe (z vˇetˇs´ı ˇcásti kompatibiln´ı s MLP pouˇzitelné v MATLABU pomoc´ı Neural Netvork Toolboxu25 ) je dostupn´ y v rámci rozˇs´ıˇren´ı Octave-Forge26 . Souˇca´st´ı bal´ıˇcku je i podrobn´ y manuál ve formátu pdf. Naˇ cten´ı a rozdˇ elen´ı dat Na rozd´ıl od experimentu popsaném v kapitole 5.4 zde nebudeme pracovat s labely v textové podobˇe, ale budeme je oznaˇcovat ˇc´ısly. Formát vstupn´ıho souboru vypadá takto: 0.222537717091171,0.1905727531251785,0.1892405989421166,1 0.2155633794930321,0.2178567180582369,0.2172673918631148,1 0.2546834879343323,0.2814293423145541,0.3159320592857192,1 Label (v posledn´ım sloupci) ˇc´ıslo 1 je heavy“ ˇc´ıslo 0 je silence“. V GNU ” ” Octave m˚ uˇzeme vstupn´ı soubor naˇc´ıst do promˇenné mData pomoc´ı pˇr´ıkazu: mData = load("export/heavy_silence_3d_std_octave.csv"); Dále data rozdˇel´ıme do tˇr´ı skupin: • Trénovac´ı – je pouˇzita na nastavován´ı vah MLP. • Validaˇcn´ı – je pouˇzita na minimalizaci pˇreuˇcen´ı MLP. Testuje se, zda se zároveˇ n se zlepˇsován´ım pˇresnosti na trénovac´ıch datech také zlepˇsuje pˇresnost na validaˇcn´ıch datech (které s´ıt’ jeˇstˇe nepouˇzila k trénován´ı). Pokud se pˇresnost nad trénovac´ımi daty zlepˇsuje, ale pˇresnost nad validaˇcn´ımi daty je stejná, nebo se zhorˇs´ı, zaˇc´ıná b´ yt s´ıt’ pˇreuˇcená a je potˇreba zastavit trénován´ı. • Testovac´ı – pouˇz´ıvá se pro testován´ı nauˇcené s´ıtˇe (aby se potvrdila schopnost s´ıtˇe klasifikovat / predikovat). [mTrain, mTest, mVali] = subset(mData’, 1,... output_neuron_count, 1/3, 1/6); Prvn´ım argumentem funkce subset jsou data v transponované matici vzhledem k naˇctené: 25 26

http://www.mathworks.com/products/neuralnet/ http://octave.sourceforge.net/nnet/index.html

5.5

79


0.22253 0.19057 0.18923 1.00000

0.21556 0.21785 0.21726 1.00000

0.25468 0.28142 0.31592 1.00000

Druh´ ym argumentem je poˇcet výstupn´ıch ˇrádk˚ u. Ten mus´ı b´ yt shodn´ y s poˇctem v´ ystupn´ıch neuron˚ u. Tato u ´loha m˚ uˇze b´ yt provedena ve dvou konfigurac´ıch: • m˚ uˇzeme m´ıt jeden v´ ystupn´ı neuron, kter´ y bude m´ıt v´ ystupn´ı hodnotu bud’ 18 nebo 19 (pˇr´ıpadnˇe opravenou pomoc´ı standardizace viz kapitola 5.1.6) podle toho, do které tˇr´ıdy bude patˇrit, • m˚ uˇze m´ıt dva v´ ystupn´ı neurony, pˇriˇcemˇz jeden bude m´ıt v´ ystupn´ı hodnotu 18 a druh´ y 19 (resp 1, 0). Aktivn´ı bude pouze jeden. Pasivn´ı neuron bude m´ıt hodnotu v´ ystupu 0. Toto je zp˚ usob podobn´ y na kompetiˇcn´ı princip popsan´ y v kapitole 4.4. . Tˇret´ım argumentem je u ´roveˇ n optimalizace dat. Stupeˇ n 1 znamená, ˇze funkce bude naˇc´ıtat sloupce (instance) v náhodném poˇrad´ı, ale zajist´ı, aby instance s minimáln´ımi, respektive maximaln´ımi hodnotami byla zastoupena v trénovac´ı mnoˇzinˇe (aby s´ıt’ pˇri uˇcen´ı pouˇzila extrémn´ı pˇr´ıpady). ˇ Ctvrt´ ym argumentem je zlomek udávaj´ıc´ı pomˇer dat pouˇzitých pro testován´ı, pát´ ym argumentem je pomˇer dat pro validaci. Dále je potˇreba rozdˇelit data na vstupn´ı a v´ ystupn´ı. Vstupn´ı (input) se pˇredkládaj´ı s´ıti, v´ ystupn´ı (target) poˇzadujeme na v´ ystupu. Pro vytvoˇren´ı nové s´ıtˇe také mus´ıme znát minimáln´ı a maximáln´ı sloˇzky nacházej´ıc´ı se ve vstupn´ıch vektorech. Train.P=mTrain(1:end-output_neuron_count, :); Train.T=mTrain(end, :); %train target

%train input

Test.P=mTest(1:end-output_neuron_count, :); %test input Test.T=mTest(end, :); %test target VV.P = mVali(1:end-output_neuron_count, :); %validation input VV.T = mVali(end, :); %validation target mMinMaxElements = min_max(Train.P);

Vytvoˇren´ı MLP Pokraˇcujeme definic´ı poˇctu neuron˚ u ve skryt´ ych vrstvách a ve v´ ystupn´ı vrstvˇe. Poˇcet neuron˚ u ve vstupn´ı vrstvˇe je dán rozmˇerem vstupn´ıch charakteristick´ ych vektor˚ u. Pomoc´ı funkce N ewf f (New fead-forward) vytvoˇr´ıme struk-

80

5

APLIKACE

turu obsahuj´ıc´ı dopˇrednou (impulzy se v s´ıti ˇs´ıˇr´ı od vstupn´ı vrstvy k v´ ystupn´ı) ’ neuronovou s´ıt . topology = [2 1]; MLPNet = newff(mMinMaxElements, topology, {"tansig", "purelin"},... "trainlm", "not used", "mse"); Prvn´ım argumentem jsou minimáln´ı a maximáln´ı sloˇzky vstupn´ıch vektor˚ u. Druh´ ym argumentem je topologie popsaná v´ yˇse. Tˇret´ım argumentem je pˇrenosová funkce neuronu. Pˇredstavuje závislost v´ ystupn´ı hodnoty neuronu na vstupn´ı. M˚ uˇze to b´ yt sigmoida (Hyperbolic tangent sigmoid), která pˇredstavuje spojit´ y kompromis mezi funkc´ı signum a lineárn´ı závislost´ı. ˇ Ctvrt´ ym argumentem je typ uˇc´ıc´ıho algoritmu. V bal´ıˇcku net-0.1.13 je jedinou moˇznost´ı Levenberg-Marquardtova optimalizace algoritmu backpropagation (trainlm). Pát´ y argument je pouze pro kompatibilitu s MATLABem. Posledn´ım argumentem je typ funkce mˇeˇr´ıc´ı výkon s´ıtˇe. Defaultnˇe je pouˇzita funkce mse (Mean squared error performance function). Tr´ enov´ an´ı a zobrazen´ı v´ ysledk˚ u Trénován´ı s´ıtˇe provedeme pomoc´ı funkce train. Z´ıskáme strukturu nauˇcené s´ıtˇe, kterou m˚ uˇzeme uloˇzit pomoc´ı pˇr´ıkazu saveM LP Struct do textového souboru a dále prohl´ıˇzet nebo editovat. Prvn´ım argumentem je struktura s´ıtˇe k uˇcen´ı. Druh´ ym argumentem jsou vstupn´ı data, tˇret´ım argumentem výstupn´ı data. ˇ Ctvrt´ y a pát´ y argument je pro kompatibilitu s MATLABem a nen´ı pouˇzit. Pát´ ym argumentem je validaˇcn´ı stuktura, která se pouˇz´ıvá pˇri kontrole proti pˇreuˇcen´ı s´ıtˇe. Následnˇe nauˇcenou s´ıt’ vyzkouˇs´ıme na testovac´ıch datech pomoc´ı funkce sim(struktura nauˇcené s´ıtˇe, testovac´ı data). V´ ysledky uloˇz´ıme do .csv souboru, kde je m˚ uˇzeme dále zpracovávat a hodnotit. %=================TRENOVANI MLP net = train(MLPNet, Train.P, Train.T, [], [], VV); %saveMLPStruct(net, "MLPNet.txt"); %=================TESTOVANI MLP simOut = sim(net, Test.P); %=================POROVNANI LABELU A VYSLEDKU SITE csvwrite(’MLPvysledek.csv’, [mTest’ simOut’]);

5.5

81


V´ ysledky Ve v´ ysledném .csv souboru máme v´ ystup s´ıtˇe zobrazen v posledn´ım sloupci (sloupce 1 - 3 jsou sloˇzky charakteristického vektoru, 4. sloupec je poˇzadovan´ y v´ ystup s´ıtˇe – label, 5. sloupec je skuteˇcn´ y v´ ystup s´ıtˇe). Zaˇca´tek souboru pro tˇri nahrávky vid´ıme v následuj´ıc´ı ukázce. 0.00582,0.01939,0.02006,0,0.00648 0.28126,0.29591,0.29649,1,0.99658 0.39540,0.39838,0.41201,1,0.99678 Matici zámˇen vid´ıme v tabulce 14. Nahrávek je pouze 95, coˇz odpov´ıdá pouˇzit´ı 1/3 dat na testován´ı (celkem je 285 nahrávek). Tabulka 14: Matice z´ amˇen Multi layer perceptron (3-2-1)

heavy (1)“ ” silence (0)“ ”

klasifikace


Jedna chybnˇe klasifikovaná nahrávka ˇc´ıslo 44 – b/rebel rebel-explode into space02-we are the future-146-175.mp3 zobrazená na obrázku 46. Nahrávka 44

Směrodatná odchylka

0.8

0.115 0.11

0.6

0.105 0.1 std

Amplituda

0.4

0.2

0.095 0 0.09 -0.2

-0.4

0.085

0

5

10

15

20

25

30 t [s]

0.08

0

5

10

15

20

25 t [s]

Obrázek 46: Chybnˇe klasifikovan´ a nahrávka – MLP

Také u této nahrávky m˚ uˇzeme pozorovat velké rozd´ıly hodnot sloˇzek charakteristického vektoru, které mohou vést k subjektivn´ımu pˇridˇelen´ı jiného ohodnocen´ı ˇclovˇekem a jiného klasifikaˇcn´ım algoritmem. Jedna chybnˇe klasifikovaná nahrávka z 95 dává u ´spˇeˇsnost MLP na tˇechto datech 98.95%, coˇz je velice dobré. Jelikoˇz jsou data náhodnˇe vybraná, lze pˇredpokládat, ˇze by podobná u ´spˇeˇsnost vyˇsla i na jiné ˇca´sti celé mnoˇziny v pˇr´ıpadˇe jej´ıho v´ ybˇeru do testovac´ı podmnoˇziny. Pˇri opakován´ı experimentu se tato domnˇenka potvrdila – s´ıt’ klasifikovala s podobnou chybou.

82

5

5.5.3

APLIKACE

Learning Vector Quantization (LVQ1)

Algoritmus uˇc´ıc´ı se vektorové kvantizace byl vysvˇetlen v kapitole 4.4.3. Pˇri testován´ı bylo vyuˇzito vlastn´ı implementace z d˚ uvod˚ u podobnosti algoritmu na jiˇz implementovan´ y algoritmus SOM a také z d˚ uvodu absence tohoto klasifikaˇcn´ıho algoritmu v GNU Octave nebo v prostˇred´ı WEKA, ze kter´ ych jsme jinak v´ ysledky ˇcerpali. Bylo testováno nˇekolik topologi´ı, z nichˇz byla vybrána topologie se ˇctyˇrmi neurony. V´ ysledky vid´ıme v tabulce 15. Tabulka 15: Matice z´ amˇen (confussion matrix) LVQ1

klasifikace


heavy“ ” silence“ ”

V´ yslednou mapu m˚ uˇzeme vidˇet na obrázku 47.

h h

s s

Obrázek 47: V´ ysledek algoritmu LVQ1 obarven´ y pomoc´ı ohodnocen´ı a poˇctu instanc´ı (viz kapitola 5.6.2)

Chybnˇe klasifikované instance jsou stejné jako v pˇr´ıpadˇe tabulky 13, nav´ıc jsou zde tˇri ˇspatnˇe klasifikované nahrávky, viz tabulka 16. Tabulka 16: Chybnˇe klasifikované instance LVQ1


Label heavy

Klasifikace silence

44

heavy

silence

109

heavy

silence

N´ azev nahr´ avky 3/mandrake root-the seventh mirror01-kings of the desert-0-29.mp3 b/rebel rebel-explode into space-02we are the future-146-175.mp3 7/rocket city riot-pop killer-05im gonna make you bleed-0-29.mp3

Zaj´ımavé je, ˇze je tento algoritmus v porovnán´ı s kNN (kapitola 5.5.1) citlivˇejˇs´ı na chybnou klasifikaci smˇerem ke skupinˇe silence“ (nahrávek heavy klasifikované ” jako silence). K nahrávkám ˇc´ıslo 98 a 152 chybnˇe klasifikovan´ ych algoritmem kNN pˇridal dalˇs´ı nahrávky 13 a 44 od stejn´ ych autor˚ u.

5.6

Uˇcen´ı s ˇcásteˇcným dohledem pro Kohonenovu mapu

5.6

83

Uˇ cen´ı s ˇ c´ asteˇ cn´ ym dohledem pro Kohonenovu mapu

V kapitolách 4.4.2 a 4.4.3 byly ukázány dva uˇc´ıc´ı algoritmy pouˇzitelné pro Kohonenovu mapu. Hlavn´ım rozd´ılem bylo vyuˇzit´ı ohodnocen´ ych dat: • SOM – nevyuˇz´ıvá ohodnocená data (podle vztahu 24), hodnoty Codebook vectoru se mˇen´ı v Nc okol´ı v´ıtˇeze (Best Matching Unit). V´ ysledky SOM jsou v kapitole 5.4. • LVQ – vyuˇz´ıvá ohodnocená data (podle vztahu 28, kdy se zjiˇst’uje zda x a mc náleˇz´ı do stejné tˇr´ıdy), hodnoty Codebook vectoru se upravuj´ı pouze u BMU 29. V´ ysledky algoritmu LVQ jsou v kapitole 5.5 Z tˇechto vlastnost´ı zm´ınˇen´ ych algoritm˚ u plynou moˇznosti návrhu semisupervised uˇc´ıc´ıho algoritmu (viz 5.6.1), pouˇzitelného pro topologii Kohonenovy mapy. Jak jiˇz bylo zm´ınˇeno, vycház´ı algoritmy ze skupiny uˇcen´ı s ˇcásteˇcn´ ym dohledem z kombinace ohodnocen´ ych a neohodnocen´ ych dat. Tato kombinace m˚ uˇze b´ yt realizována v zásadˇe nˇekolika zp˚ usoby: • pˇridáván´ı informac´ı o instanc´ıch do v´ ysledk˚ u shlukován´ı popsan´ ych v kapitole 5.6.2, • kombinace algoritm˚ u SOM a LVQ prob´ıran´ ych v kapitole 4.5.3, v´ ysledky vlastn´ı implementace jsou v kapitole 5.7, • klasifikace / shlukován´ı s ˇca´steˇcn´ ym dohledem – obalen´ı algoritmu LVQ nˇekter´ ym z wrapper“ algoritm˚ u. Jako m´ıru pravdˇepodobnosti správné ” pˇredpovˇedi je moˇzné pouˇz´ıt vzdálenost instance od reprezentanta, resp. kvantizaˇcn´ı chybu podle vztahu 21. 5.6.1

N´ avrh semi-supervised uˇ c´ıc´ıho algoritmu pro Kohonenovu mapu

Navrˇzen´ y algoritmus je postaven na myˇslence kombinace algoritm˚ u SOM a LVQ ˇ (S´ıma – Neruda, 1996). Tato myˇslenka je rozˇs´ıˇrena o pouˇzit´ı modern´ıch algoritm˚ u jako je self-training a co-training (Zhu – Goldberg, 2009) ve fázi vyuˇz´ıvaj´ıc´ıch pouze ohodnocen´ ych dat pro jejich rozˇs´ıˇren´ı. Algoritmus prob´ıhá ve tˇrech fáz´ıch: 1. Uˇcen´ı bez uˇcitele. V této fázi vyuˇz´ıváme celou mnoˇzinu vstupn´ıch dat. Algoritmem SOM 4.4.1 vytvoˇr´ıme Kohonenovu mapu která zobrazuje v´ ysledky shlukován´ı. Nen´ı zat´ım známo ke kter´ ym kategori´ım vzniklé shluky patˇr´ı. Pˇredpokládá se vyuˇzit´ı vˇetˇs´ıch topologi´ı. 2. Oznaˇcen´ı v´ ystupn´ıch neuron˚ u kategoriemi. Je zde potˇreba pˇriˇradit kaˇzdému neuronu kategorii, kterou reprezentuje. Vyuˇzijeme zde znalosti o poˇctu shluk˚ u ˇ a dále konkrétn´ıch instanc´ı, které maj´ı ohodnocen´ı. V (S´ıma – Neruda, 1996) autoˇri pouˇz´ıvaj´ı tabulku ˇcetnost´ı (instanc´ı) jednotliv´ ych kategori´ı, které tento neuron reprezentuje. Z´ıskáme tak kategorie pro neurony, které reprezentuj´ı nˇekteré instance z mnoˇziny ohodnocen´ ych dat. Mohou vˇsak z˚ ustat neurony reprezentuj´ıc´ı instance pouze z mnoˇziny neohodnocen´ ych dat. V této fázi vyuˇz´ıváme pouze ohodnocená data, coˇz je urˇcitá slabina. M˚ uˇzeme ji ˇreˇsit dvˇema zp˚ usoby:

84

5

APLIKACE

a) Label propagation. Rozˇsiˇrován´ı informac´ı o kategori´ıch v s´ıti na základˇe vzdálenosti od jiˇz znám´ ych neuron˚ u. b) Semi-supervised algoritmus, rozˇsiˇruj´ıc´ı mnoˇzinu ohodnocen´ ych dat. Je potˇreba pouˇz´ıt dalˇs´ı klasifikátor. Je také moˇzné v této fázi obohatit kaˇzd´ y neuron o pravdˇepodobnost, s jakou je j´ım reprezentovaná kategorie správná. Pomoc´ı této informace m˚ uˇze b´ yt korigována m´ıra douˇcen´ı v následuj´ıc´ım kroku. ˇıma – Neruda, 1996) algorit3. Douˇcen´ı s´ıtˇe. V této fázi pouˇz´ıvaj´ı autoˇri v (S´ mus LVQ. Nev´ yhoda spoˇc´ıvá v moˇznosti vyuˇz´ıt pouze ohodnocená data. Pokud jich bude malé mnoˇzstv´ı, bude toto douˇcen´ı nedostateˇcné. Proto navrhujeme uzavˇr´ıt toto douˇcen´ı do semi-supervised algoritmu, kter´ y bude postupnˇe rozˇsiˇrovat mnoˇzinu ohodnocen´ ych dat o instance z neohodnocen´ ych dat, které byly s velkou pravdˇepodobnost´ı správnˇe klasifikovány. Jeden moˇzn´ y zp˚ usob, jak oznaˇcit v´ ystupn´ı neurony kategoriemi je popsán v kaˇıma – Neruda, pitole 5.6.2. Jde v podstatˇe o analogii k tabulce ˇcetnost´ı navrˇzené v (S´ 1996). 5.6.2

Barven´ı v´ ysledn´ ych map

Barven´ı na z´ akladˇ e ohodnocen´ı a poˇ ctu reprezentovan´ ych instanc´ı Tento jednoduch´ y zp˚ usob pˇridává do Kohonenovy mapy vytvoˇrené klasick´ ym shlukován´ım (SOM) informace o poˇctu instanc´ı v kaˇzdém v´ ystupn´ım neuronu a dále informace o sloˇzen´ı jejich ohodnocen´ı. Vyuˇz´ıváme data popsaná v kapitole 5.4.4, tedy nahrávky oznaˇcené jako heavy“ a silence“. ” ” Barva kaˇzdého neuronu je urˇcena jako souˇcet ˇcervené a modré barvy podle zastoupen´ı ohodnocen´ı instanc´ı patˇr´ıc´ıch do kaˇzdého neuronu. Napˇr´ıklad pokud bude neuron reprezentovat 2 nahrávky silence“ a 1 nahrávku heavy“ bude barva tvoˇrena ” ” ze 2/3 modrou a z 1/3 ˇcervenou. Pr˚ uhlednost neuronu je dána mnoˇzstv´ım instanc´ı, které reprezentuje tak, aby nejpoˇcetnˇejˇs´ı neuron nebyl v˚ ubec pr˚ uhledn´ y, kdeˇzto neurony nereprezentuj´ıc´ı ˇzádné nahrávky jsou zcela pr˚ uhledné (prosv´ıtá b´ılé pozad´ı). V´ yslednou mapu m˚ uˇzeme vidˇet na obrázku 48.

c6

c7

c3 c0

c8

c4

c1

c5

c2

Obrázek 48: Kohonenova mapa obarvená pomoc´ı ohodnocen´ı a poˇctu instanc´ı

5.7

5.7

85

Rozliˇsen´ı hudebn´ıch a nehudebn´ıch ukázek

Rozliˇsen´ı hudebn´ıch a nehudebn´ıch uk´ azek

Pro rozliˇsen´ı hudebn´ıch a nehudebn´ıch nahrávek m˚ uˇzeme pouˇz´ıt základn´ı frekvence tónu 3.2.2. Jelikoˇz m˚ uˇzeme pˇredpokládat, ˇze se v nehudebn´ıch ukázkách nebudou vyskytovat tóny (´ useky s konstantn´ı frekvenc´ı), takˇze veliˇciny popisuj´ıc´ı základn´ı frekvenci zvuku budou vycházet jinak, neˇz v pˇr´ıpadˇe hudebn´ıch ukázek. V tomto experimentu uvaˇzujeme pro popis základn´ı frekvence tónu dvˇe veliˇciny: • nejsilnˇejˇs´ı frekvenci. Z´ıskáme ji jako nejsilnˇejˇs´ı hodnotu spektra (na obrázku 15 je to vrchol tˇesnˇe nad 50Hz). V prostˇred´ı GNU Octave ji z´ıskáme následuj´ıc´ım v´ ypoˇctem: l=stop_sample-start_sample; NFFT = 2^nextpow2(l); % Next power of 2 from length of y Y = fft(data(start_sample:stop_sample,kanal),NFFT)/l; frekvence = sr/2*linspace(0,1,NFFT/2+1); amplituda = 2*abs(Y(1:NFFT/2+1)); [x,ix]=max(amplituda);%ziska zakladni frekvenci ... charakteristika(i,j,3)=frekvence(ix);

-> melodie

• zero crossing rate. Tuto veliˇcinu popisujeme v kapitole 3.3. V prostˇred´ı GNU Octave ji m˚ uˇzeme z´ıskat následuj´ıc´ım zp˚ usobem: %pocet prekroceni nuly v dilu zcr=sum(diff(sign(data(start_sample:stop_sample,kanal)))~=0); %pocet_dilu_za_sekundu pocet_dilu_za_sekundu=dpp/delka(i); %zcr odpovidajici zakladni frekvenci charakteristika(i,j,4)=zcr*pocet_dilu_za_sekundu/2; V tomto experimentu pouˇz´ıváme z databáze Magnatagatune nahrávky s labelem clarinet“ (je jich 49) a nahrávky s labelem talking“ (kter´ ych je 100). Na ” ” obrázku 49 m˚ uˇzeme porovnat nejsilnˇejˇs´ı frekvenci a zero crossing rate na nahrávce hry na klarinet a na nahrávce ˇreˇci. Tabulka 17: Nahr´ avky klarinetu a ˇreˇci


Label clarinet

149

talking

N´ azev nahr´ avky 6/gerardi satamian-dry fig trees-01chansons sans paroles 1989 op 2 pastorale0-29.mp3 c/william brooksblue ribbon the best of william brooks-13the fox guarding the henhouse-88-117.mp3

86

5 Nahrávka 1

Max frekvence

0.2

0.05 0 -0.05 -0.1

frekvence

frekvence

amplituda

2000

2000

0.1

1500 1000

0

5

10

15

20

25

0

30 [s]

0

5

Nahrávka 149

10

15

20

25

0

30 [s]

0 -0.2 -0.4

frekvence

0.2

1000 500

20

25

30 [s]

0

15

20

25

30 [s]

25

30 [s]

3000 2000 1000

-0.6 15

10

4000

1500 frekvence

amplituda

0.4

10

5

5000

0.6

5

0

zero crossing rate

2000

0

1000

Max frekvence

0.8

-0.8

1500

500

500

-0.15 -0.2

zero crossing rate

2500

0.15

APLIKACE

0

5

10

15

20

25

30 [s]

0

0

5

10

15

20

Obrázek 49: Maxim´ aln´ı frekvence a zero crossing rate

Vid´ıme, ˇze v pˇr´ıpadˇe klarinetu obˇe veliˇciny kol´ısaj´ı kolem frekvence pod 500 Hz, kdeˇzto v pˇr´ıpadˇe ˇreˇci (ve skuteˇcnosti se jedná o zpˇev s doprovodem, melodie vˇsak nen´ı pˇr´ıliˇs patrná) je základn´ı frekvence n´ıˇze a zero crossing rate silnˇe osciluje. Tabulka 18 ukazuje u ´spˇeˇsnost vybran´ ych shlukovac´ıch algoritm˚ u s r˚ uzn´ ymi daty. ´ eˇsnost algoritm˚ Tabulka 18: Uspˇ u nad r˚ uzn´ ymi charakteristick´ ymi vektory

EM k-means SOM (weka) SOM (C++) kNN (weka) MLP (weka, GNU Octave) LVQ (C++) SOM + LVQ (C++)

300d freq 82,55 % 85,24 % 85,91 % 85,24 % 82,55 % 78,43 % 86,57 % 91,95 %

300d zcr 53,69 % 53,69 % 57,72 % 69,13 % ∗1 53,69 % 54,90 % 67,11 % ∗3 91,23 % ∗4

3d freq 75,84 % 79,86 % 79,86 % 79,86 % 84,56 % ∗2 79,59 % 83,22 % 86,58 %

3d zcr 53,02 % 53,02 % 54.36 % 68,46 % 63,09 % 65.31 % 69,78 % 71,18 %

Pozn´ amky k v´ ysledk˚ um ∗1 V pˇr´ıpadˇe algoritmu SOM (C++) na 300 rozmˇern´ ych vektorech charakterizuj´ıc´ıch Zero Crossing Rate (300d zcr) byla pouˇzita topologie 2 x 2 neurony.T´ım vzniklo shlukován´ı do ˇctyˇr kategori´ı nam´ısto dvou (clarinet x talking). Jak je patrné z obrázku 50 neurony c0 a c3 respektive c1 a c2 reprezentuj´ı (podle obarven´ı) ve skuteˇcnosti stejné kategorie – talking, respektive clarinet. Shluky c0 a

5.7

87

Rozliˇsen´ı hudebn´ıch a nehudebn´ıch ukázek

c3 resp c1 a c2 jsme tedy sjednotili a takto vyhodnotili v´ ysledek uveden´ y v tabulce 18.

c2 c0

c3

c1

Obrázek 50: SOM 2x2 pro u ´lohu 300d zcr

∗2 V pˇr´ıpadˇe algoritmu kNN shlukuj´ıc´ıho 3 rozmˇern´ y vektor nejsilnˇejˇs´ı frekvence (3d freq) bylo nalezeno optimáln´ı k = 7 oproti pouˇzitému k = 3 v ostatn´ıch pˇr´ıpadech. ∗3 U algoritmu LVQ (C++) na 300 rozmˇern´ ych vektorech charakterizuj´ıc´ıch Zero Crossing Rate (300d zcr) algoritmus klasifikoval vˇsechny nahrávky jako tal” king“. ∗4 V tomto pˇr´ıpadˇe byl nalezen optimáln´ı v´ ysledek aˇz po 400 iterac´ıch douˇcován´ı oproti 40 iterac´ım v ostatn´ıch pˇr´ıpadech. Na posledn´ım ˇra´dku jsou v´ ysledky algoritmu kombinuj´ıc´ıho uˇc´ıc´ı algoritmus SOM (uˇcen´ı bez uˇcitele) s douˇcen´ım s´ıtˇe algoritmem LVQ (uˇcen´ı s uˇcitelem). V porovnán´ı s ostatn´ımi algoritmy dosahuj´ı lepˇs´ıch v´ ysledk˚ u. Efekt douˇcen´ı algoritmem LVQ m˚ uˇzeme pozorovat pro 300 rozmˇern´ y vektor s nejsilnˇejˇs´ı frekvenc´ı na obrázku 51. Mapa vlevo je v´ ysledkem samotného algoritmu SOM (topologie 3x3, 100 iterac´ı, poˇcáteˇcn´ı rádius 10, poˇca´teˇcn´ı alfa 0,3). Uprostˇred je stejné shlukován´ı douˇceno 10 iteracemi algoritmu LVQ (poˇca´teˇcn´ı alfa 0,1). Napravo je opˇet stejné shlukován´ı po douˇcen´ı 40 iteracemi algoritmu LVQ se stejn´ ym poˇca´teˇcn´ım koeficientem alfa.

tal. cl.

cl.

tal. cl.

cl.

tal. tal. cl.

tal. cl.

cl.

tal. cl.

cl.

tal. tal. cl.

tal. cl.

cl.

tal. cl.

cl.

tal. tal. cl.

Obrázek 51: 100 iterac´ı SOM a O, 10 a 40 iterac´ı LVQ pro u ´lohu 300d freq

Na obrázku 52 vid´ıme stejn´ y experiment pro 300 rozmˇern´ y vektor s charakteristikou zero crossing rate. Rozd´ıl oproti pˇredchoz´ım konfigurac´ım je pouze v poˇctu iterac´ı douˇcen´ı na obrázku vpravo, které je ted’ 400.

88

5

cl.

cl.

cl.

cl.

tal. tal.

tal. tal. cl.

cl.

cl.

cl.

cl.

tal. tal.

tal. tal. cl.

cl.

cl.

cl.

APLIKACE

cl.

tal. tal.

tal. tal. cl.

Obrázek 52: 100 iterac´ı SOM a O, 4O a 400 iterac´ı LVQ pro u ´lohu 300d zcr

5.8

Metoda klasifikace audio dat

V oblasti z´ıskáván´ı zvukov´ ych / hudebn´ıch informac´ı existuje nepˇreberné mnoˇzstv´ı metod klasifikace dat vytvoˇren´ ych pro konkrétn´ı u ´lohy (kapitola 2). Navrhovaná metoda je v´ ysledkem snahy o formulaci obecného postupu aplikovatelného na r˚ uzná hlediska klasifikace zvukov´ ych dat. 1. Zpracován´ı signálu a) dekomprese audia (kap. 3.2.1) b) volba hlediska shlukován´ı → volba deskriptoru (kap. 3.6) c) pokud je deskriptor z frekvenˇcn´ı oblasti, proveden´ı transformace (kap. 3.4) d) tvorba deskriptor˚ u vyˇsˇs´ı u ´rovnˇe (strukturáln´ı metody rozpoznáván´ı) (kap. 4.2.2) e) z´ıskán´ı meta informac´ı (ohodnocen´ı), pokud je k dispozici (6.2.2) f) uloˇzen´ı charakteristick´ ych vektor˚ u ve vhodném formátu (5.1.7) 2. Shlukován´ı + Klasifikace a) volba poˇctu shluk˚ u (podle ohodnocen´ı nebo viz kap. 5.4.6) b) tˇr´ıdˇen´ı nahrávek (5.6) i. shluková anal´ yza ii. opatˇren´ı shluk˚ u kategoriemi iii. douˇcen´ı, pokud jsou k dispozici ohodnocená data c) uloˇzen´ı v´ ysledk˚ u ve vhodném formátu (5.1.7) Celá metoda je testována v kapitole 5.7, verze pouˇz´ıvaj´ıc´ı pouze shlukovou anal´ yzu (uˇcen´ı bez uˇcitele) v kapitole 5.4, verze porovnávaj´ıc´ı v´ ysledky uˇcen´ı s uˇcitelem v kapitole 5.5.

6

IMPLEMENTACE

6

89

Implementace

6.1

Mappa – SOM a LVQ implementace v C++

Vlastn´ı aplikace dostala název mappa (podle punského27 základu dneˇsn´ıho slova mapa), jelikoˇz je vizualizace – mapován´ı v´ıcerozmˇerného prostoru charakteristick´ ych vektor˚ u do dvourozmˇerného vektoru vzniklé mapy – podstatn´ ym rysem celého ˇreˇsen´ı. Term´ın Kohonenova mapa b´ yvá uˇz konkrétnˇe spojen se samoorganizuj´ıc´ı se mapou, potaˇzmo algoritmem uˇcen´ı bez uˇcitele, kter´ y se s touto topologi´ı nejˇcastˇeji vyuˇz´ıvá. Jelikoˇz ve vlastn´ı implementaci pouˇz´ıváme i algoritmus LVQ a plánujeme celé ˇreˇsen´ı rozˇsiˇrovat o dalˇs´ı uˇc´ıc´ı algoritmy (semi-supervised learning), byl zvolen název nezávisl´ y na Kohonenovi, nebo názvu samoorganizuj´ıc´ı se mapy (SOM). 6.1.1

Programovac´ı jazyk a knihovny

Mezi nejd˚ uleˇzitˇejˇs´ı poˇzadavky na pouˇzit´ y programovac´ı jazyk patˇrilo: • rychlost – pˇri klasifikaci zvukov´ ych nahrávek m˚ uˇze docházet ke zpracován´ı velkého mnoˇzstv´ı dat (tis´ıce nahrávek popsan´ ych charakteristick´ ymi vektory o stovkách rozmˇer˚ u zpracovávané do map s des´ıtkami neuron˚ u), které mus´ı algoritmus zpracovat. Je dobré, kdyˇz je doba natrénován´ı algoritmu co nejkratˇs´ı, jelikoˇz poˇzadavek na tvorbu nové mapy – vznik nového náhledu na nahrávky m˚ uˇze b´ yt pˇri v´ yzkumu ˇcast´ y • n´ızké nároky na pamˇet’ • objektovˇe orientovan´ y pˇr´ıstup programován´ı • vˇseobecná znalost a pouˇz´ıvanost jazyka – jelikoˇz plánujeme rozˇsiˇrován´ı aplikace a v´ yzkum nov´ ych algoritm˚ u na základˇe vytvoˇrené aplikace v rámci bakaláˇrsk´ ych a magistersk´ ych prac´ı, je vhodné aby byl pouˇzit vˇseobecnˇe rozˇs´ıˇren´ y jazyk s mnoˇzstv´ım dokumentace, tutoriál˚ u a pˇr´ıklad˚ u. • moˇznost kompilace / interpretace nekomerˇcn´ım kompilátorem na libovolném OS, • zkuˇsenosti autora s programovac´ım jazukem. Na základˇe tˇechto poˇzadavk˚ u byl zvolen jazyk C++. Jádro aplikace je napsáno ve standardn´ım C++ (C++ standard 1998) s pouˇzit´ım standardn´ı knihovny a je kompilováno kompilátorem GCC. Pro tvorbu grafick´ ych v´ ystup˚ u byla pouˇzita knihovna QT a jej´ı tˇr´ıdy QString, QPainter a QSvgGenerator. Pro tvorbu Makefile je pouˇzit nástroj qmake. 6.1.2

Pouˇ zit´ y SW

BoUML / DoUML Pro tvorbu UML diagram˚ u tˇr´ıd a generován´ı zdrojového kódu jsme pouˇzili open-source nástroj BoUML. V pr˚ ubˇehu ˇreˇsen´ı disertaˇcn´ı práce byl projekt ukonˇcen a vznikl jeho následn´ık – projekt DoUML, kter´ y je v souˇcasné dobˇe ve stádiu Alpha testován´ı. Nástroj mimo jiné umoˇzn ˇuje vytváˇren´ı UML diagramu 27

http://www.etymonline.com/index.php?search=mappa

90

6

IMPLEMENTACE

tˇr´ıd, jeho export do .svg, generován´ı zdrojového kódu z UML modelu, generován´ı html dokumentace z komentáˇr˚ u a propojen´ı s extern´ım textov´ ym editorem (vim). Pˇri implementaci se tento nástroj velmi osvˇedˇcil a umoˇznil ve vˇsech zdrojov´ ych souborech udrˇzet systém a pˇrehlednost. Také d´ıky nˇemu vznikla html dokumentace dostupná v repozitáˇri projektu. Oceˇ novanou vlastnost´ı tohoto nástroje je v neposledn´ı ˇradˇe taky rychlost. Cel´ y projekt je naˇcten bˇehem necelé vteˇriny. SVN Správa verz´ı zdrojového kódu byla ˇreˇsena pomoc´ı nástroje svn, kter´ y dokáˇze ’ zjiˇst ovat zmˇeny zdrojov´ ych soubor˚ u oproti soubor˚ um v repozitáˇri a tyto zmˇeny oznaˇcuje verzemi. Umoˇzn ˇuje také práci na SW z nˇekolika r˚ uzn´ ych poˇc´ıtaˇc˚ u, nebo spoluprác´ı v´ıce programátor˚ u. Trac Repozitáˇr SVN je um´ıstˇen na univerzitn´ım serveru aistorm28 , kde je také nainstalován nástroj Trac umoˇzn ˇuj´ıc´ı správu u ´kol˚ u, sledován´ı projektu a komentován´ı zmˇen. Poskytuje také prohl´ıˇzen´ı zdrojov´ ych soubor˚ u repozitáˇre a tvorbu wiki stránek. 6.1.3

Objektov´ y n´ avrh

Objektov´ y model, viz obrázek 53, je navrˇzen s ohledem na dalˇs´ı rozˇsiˇrován´ı a tvorbu nov´ ych algoritm˚ u pracuj´ıc´ıch na principu soutˇeˇzn´ı strategie uˇcen´ı (competitive learning), zejména vektorové kvantizace. Celá s´ıt’ je reprezentována tˇr´ıdou Network, která se skládá z tˇr´ıd impementuj´ıc´ıch uˇcen´ı, topologii s´ıtˇe a data. Uˇ cen´ı V souˇcasné dobˇe jsou implementovány dvˇe tˇr´ıdy uˇcen´ı: • SomLearning pro uˇcen´ı bez uˇcitele • LvqLearning pro uˇcen´ı s uˇcitelem Je moˇzno pˇridávat dalˇs´ı tˇr´ıdy implementuj´ıc´ı uˇc´ıc´ı algoritmy ovládané pˇres rozhran´ı implementové abstraktn´ı tˇr´ıdou Learning. Topologie Rozhran´ı k topologi´ım je vytvoˇreno v podobˇe abstraktn´ı tˇr´ıdy Topology. Jej´ım potomkem je v souˇcasnosti pouze tˇr´ıda • HexTop – hexagonáln´ı topologie, ˇreˇs´ı také vykreslován´ı do formátu SVG Topologie jsou reprezentovány formou grafu, kde jsou uzly reprezentované tˇr´ıdou Node. Jej´ım potomkem je v souˇcasnosti jedin´ y typ: • SomNode – typ uzlu grafu (topologie) pouˇziteln´ y pro uˇcen´ı algoritmy SOM a LVQ. Data Datová ˇca´st aplikace je postavená na tˇr´ıdˇe MyVector, z které jsou odvozeny tˇr´ıdy: • FeatureVector – tˇr´ıda reprezentuj´ıc´ı vstupn´ı vektory 28

http://aistorm.mendelu.cz/som

6.1

91

Mappa – SOM a LVQ implementace v C++

Learning

LvqLearning

Network +

LvqLearning()

+

Learning()

+

trainNetwork()

+

trainNetwork()

-

adaptNode()

#

adaptNode()

-

setNodeClass()

+

evaluateData()

#

getEucleidianDistance()

#

SomLearning +

SomLearning()

+

trainNetwork()

-

adaptNode()

-

setNodeClass()

+

Network()

+

loadData()

+

createTopology()

+

createLearning()

findBMU()

+

printNetwork()

#

setNodeClass()

+

~Network()

#

printEvaluation()

learning

Topology HexTop -

rowCount

-

columnCount

+

HexTop()

-

setNeighbours()

-

generateNodes()

-

getNodeNumber()

-

getNodeCoords()

+

getNodesDistance()

+

getNode()

+

getNode()

+

initNodes()

-

drawCell()

+

drawTopology()

+

~HexTop()

#

nodesCount

+

Topology()

#

generateNodes()

+

getNode()

+

getNode()

+

initNodes()

+

getNodesCount()

+

getNodesDistance()

+

drawTopology()

+

~Topology() 1 1..*

1

1

1

1

1

1

topology

InputVectors -

featureVectorCount

+

InputVectors()

-

readFile()

-

readDatabase()

+

getFeatureVector()

+

~InputVectors()

+

getMaxMinComponent()

+

getFeatureVectorCount() 1

nodes

1..*

Node

neighbours *

-

reason

+

MyException()

+

getReason()

<>

featureVectors

FeatureVector

#

index

-

+

getIndex()

-

validationVector

+

setNeighbour()

+

FeatureVector()

+

getNeighbour()

+

setValidationVector()

+

getNeighboursCount()

+

get_index()

+

setFeatureVector()

+

getFeatureVector()

+

getFeatureVectorsCount()

+

getCodebookVector()

#

vectorComponents

+

randInitNode()

#

size

#

isLabeled

#

label

#

isClustered

featureVectors *

SomNode

MyException

inputVectors

index

<>

MyVector

+

SomNode()

#

cluster

+

~SomNode()

+

MyVector()

+

getCodebookVector()

+

getComponent()

+

randInitNode()

+

setVectorComponents()

+

getSize()

+

get_label()

+

set_label()

+

get_isLabeled()

1

codebookVector

CodebookVector +

CodebookVector()

+

get_cluster()

+

setComponent()

+

set_cluster()

+

get_isClustered()

Obrázek 53: UML diagram tˇr´ıd aplikace mappa

92

6

IMPLEMENTACE

• CodebookVector – tˇr´ıda vektor˚ u reprezentant˚ u Mnoˇzina vstupn´ıch vektor˚ u je zastoupena InputVectors, která umoˇzn ˇuje jejich naˇc´ıtán´ı ze csv. souboru a je v n´ı také pˇripravena metoda pro práci s databáz´ı. Vlastn´ı Implementace v C++ má pˇrednosti v rychlosti, otevˇrenosti zdrojov´ ych kód˚ u, moˇznosti rozˇsiˇrován´ı d´ıky objektovému návrhu a dobré dokumentaci. 6.1.4

Pozn´ amky k implementaci

Bˇehem implementace jsme ˇreˇsili nˇekolik zaj´ımav´ ych podrobnost´ı: Uloˇzen´ı v´ ysledku klasifikace. Po natrénován´ı s´ıtˇe se projdou testovac´ı data a zjist´ı se, které neurony je reprezentuj´ı. Tento vztah je jasnˇe urˇcen klasifikátorem – s´ıt´ı. Tato data se vˇsak vzápˇet´ı pouˇzij´ı pˇri barven´ı mapy a dalˇs´ıch u ´kolech. Muselo by se tedy hledat znovu kter´ y neuron odpov´ıdá kterému charakteristickému vektoru. Jelikoˇz je pˇri této operaci nutné porovnáván´ı eukleidovsk´ ych vzdálenost´ı vˇsech neuron˚ u v˚ uˇci charakteristickému vektoru, rozhodli jsme se tento vztah doˇcasnˇe uloˇzit do pamˇeti pomoc´ı vektoru ukazatel˚ u na FeatureVector ve tˇr´ıdˇe Node. Zp˚ usob uloˇzen´ı sousednosti (matice sousednosti vs. reprezentace grafem). Aˇckoli je matice sousednosti zˇrejmˇe jednoduˇsˇs´ı reprezentace grafu, zvolili jsme ˇcistˇejˇs´ı“ ob” jektov´ y pˇr´ıstup a graf reprezentovat pomoc´ı objekt˚ u tˇr´ıdy Node, které maj´ı ukazatele na sousedy. Implementace monotónnˇe klesaj´ıc´ıch parametr˚ u: • parametr θ viz vzorec 23 a 24 • parametr α(t) ze vztahu 26 v literatuˇre dostupné pˇri implementaci jsme nenalezli konkrétn´ı vyjádˇren´ı tˇechto funkc´ı. Zvolili jsme proto funkce zachycené na obrázku 54.

pi = p 0 - p 0 / k . i pi = pi-1 - pi-1 / k . i pi = p0 / (i + 1) pi = pi-1 / (i + 1)

Obrázek 54: Monot´ onnˇe v ˇcase klesej´ıc´ı parametry

6.2

93

Virtuáln´ı zvuková laboratoˇr

6.2

Virtu´ aln´ı zvukov´ a laboratoˇr

Systém virtuáln´ı zvukové laboratoˇre se skládá z nˇekolika ˇcást´ı. Serverové ˇca´sti29 , kde se informace ukládaj´ı a zpracovávaj´ı. Klientské ˇca´sti30 , kde se z´ıskávaj´ı informace z hudebn´ıho archivu uˇzivatele systému. Webového rozhran´ı, které umoˇzn ˇuje uˇzivatelsky pˇr´ıvˇetivou práci se systémem. 6.2.1

SoundLab – server

Serverová ˇca´st bude umoˇzn ˇovat anal´ yzu informac´ı o nahrávkách uˇzivatel˚ u, provádˇen´ı zvukov´ ych experiment˚ u v rámci v´ yuky poˇc´ıtaˇcové hudby a bude do budoucna tvoˇrit základ pro dalˇs´ı projekty a hudebn´ı experimenty. Základem bude databáze uˇzivatel˚ u, informac´ı o jejich nahrávkách, vzorov´ ych experiment˚ u nad nahrávkami a dalˇs´ıch dat. Princip práce virtuáln´ı zvukové laboratoˇre popisuje obrázek 55. CSound

NAHRÁVKA

LilyPond

MIDI

Noty

GNU Octave

ANALÝZA

Obrázek 55: Princip pr´ ace virtu´ aln´ı zvukové laboratoˇre

´ Ulohy ˇreˇsené na virtuáln´ı zvukové laboratoˇri: Akustika V této oblasti jde o experimenty z oblasti akustiky a modelován´ı zvukového dˇen´ı pomoc´ı matematick´ ych model˚ u. Porozumˇen´ı akustick´ ym zákon˚ um a schopnost zvukové dˇen´ı modelovat je nezbytné pro návrh experiment˚ u v oblasti hudebn´ı anal´ yzy. Je zde vyuˇzito zejména skript˚ u jazyka GNU Octave z d˚ uvodu jeho kompatibility s velmi rozˇs´ıˇren´ ym jazykem Matlab. V rámci akustiky jsou ˇreˇseny následuj´ıc´ı u ´lohy: 29 30

http://aistorm.mendelu.cz/soundlab http://aistorm.mendelu.cz/agent++

94 • • • •

6

IMPLEMENTACE

model základn´ıho tónu interference tón˚ u model alikvotn´ı ˇrady r˚ uzná ladˇen´ı (pythagorejské komma)

Sazba not / tvorba MIDI datab´ aze Pomoc´ı virtuáln´ı zvukové laboratoˇre bude moˇzné provádˇet sazbu not a tvorbu odpov´ıdaj´ıc´ıch MIDI soubor˚ u pomoc´ı nástroje Lilypond, kter´ y byl vybrán s ohledem na jeho moˇznosti v´ ystupu, jenˇz se nejv´ıce bl´ıˇz´ı profesionáln´ımu komerˇcn´ımu SW. Zde jsou ukázky v´ ystupu: • zdrojov´ y soubor Lilypond31 • umoˇzn ˇuj´ıc´ı sazbu not ve formátu pdf] • a odpov´ıdaj´ıc´ıch MIDI soubor˚ u Hudebn´ı anal´ yza Pro studium hudebn´ıch obor˚ u je jednou z nejd˚ uleˇzitˇejˇs´ıch sloˇzek schopnost rychlé a d˚ ukladné anal´ yzy zpracovávaného hudebn´ıho materiálu. Dosaˇ jsou zaloˇzeny na textovém popisu dané provadn´ı analytické metody uˇz´ıvané v CR blematiky, coˇz pro orientaci v konkrétn´ı skladbˇe nen´ı ideáln´ı (texty anal´ yz b´ yvaj´ı nepˇrehledné), a ˇcasto se jedné o velmi subjektivn´ı pˇr´ıstup. Anal´ yza pomoc´ı poˇc´ıtaˇce pˇrináˇs´ı mnohé v´ yhody vˇcetnˇe rychlosti a standardizace analytického postupu. Pomoc´ı virtuáln´ı zvukové laboratoˇre lze provádˇet: • anal´ yzu vytvoˇren´ ych MIDI soubor˚ u • vyhledáván´ı melodi´ı, akord˚ u a rytm˚ u, tvorba v´ yˇskového histogramu v MIDI databázi • anal´ yzu zvukov´ ych soubor˚ u • sbˇer charakteristik nahrávek uˇzivatel˚ u (pomoc´ı aplikace Agent++) • anal´ yzu nahrávek uˇzivatel˚ u • tvorbu hudebn´ıch map“ ” • tˇr´ıdˇen´ı podle pr˚ ubˇehu dynamiky, nástrojového obsazen´ı, pr˚ ubˇehu melodie Kompozice Dalˇs´ı oblast´ı propojuj´ıc´ı moˇznosti poˇc´ıtaˇc˚ u a práce s hudbou je kompozice. Zvuková laboratoˇr poskytuje ˇsiroké moˇznosti zahrnuj´ıc´ı: • transformace notového materiálu ve formˇe Lilypond / MIDI: • tvorba inverz´ı • raˇc´ıho postupu • 12ti tónov´ ych ˇrad • transpozice • augmentace • diminuce • algoritmická kompozice 31

https://akela.mendelu.cz/ xfejfar/PH/machaut/Le lay de la fonteine.ly

6.2

Virtuáln´ı zvuková laboratoˇr

95

Vˇsechny nahrávky uˇzivatel˚ u (importované nebo vytvoˇrené na virtuáln´ı zvukové laboratoˇri) se mohou uloˇzit a lze je klasifikovat metodami UI. Pˇredpokládá se vytvoˇren´ı manuálu pro instalaci takovéhoto internetového portálu, takˇze si jej zájemci mohou nainstalovat samostatnˇe, nebo se mohou pˇripojit do nˇekterého jiˇz vytvoˇreného portálu. Uˇzivatelé jednotliv´ ych portál˚ u budou tvoˇrit skupiny, které si mohou dále vymˇen ˇovat z´ıskané zkuˇsenosti (napˇr´ıklad o v´ ybˇeru vhodn´ ych charakteristik signálu pro klasifikaci konkrétn´ıch zvukov´ ych jev˚ u) na spoleˇcn´ ych internetov´ ych diskus´ıch. V´ ypoˇcetn´ı v´ ykon server˚ u host´ıc´ıch virtuáln´ı zvukovou laboratoˇr lze v pˇr´ıpadˇe potˇreby (velké mnoˇzstv´ı uˇzivatel˚ u, nároˇcné metody syntézy/anal´ yzy zvuku) nav´ yˇsit pouˇzit´ım technologie cluster˚ u. Zjiˇst’ov´ an´ı informac´ı o pt´ ac´ıch zachycen´ ych na nahr´ avk´ ach Tato aplikace teprve bude vytvoˇrena. Dalˇs´ı zaj´ımavou oblast´ı, kde m˚ uˇzeme aplikovat popsan´ y systém je ˇ by zde o natrénován´ı umˇelé neuurˇcován´ı informac´ı o ptác´ıch podle jejich zpˇevu. Slo ronové s´ıtˇe pro potˇreby automatického vyhodnocen´ı informac´ı o pˇevc´ıch z nahrávek, které by se poˇrizovaly nepˇretrˇzitˇe (na r˚ uzn´ ych m´ıstech svˇeta). Ptaˇc´ı zpˇev (i jiné zvuky vydávané zv´ıˇraty) obsahuje velké mnoˇzstv´ı informac´ı. Jedinci zp´ıvaj´ı odliˇsn´ ym zp˚ usobem mimo jiné podle druhu, m´ısta p˚ uvodu, zdravotn´ıho stavu, vˇeku. Existuj´ı databáze nahrávek ptaˇc´ıho zpˇevu32 , organizace zab´ yvaj´ıc´ı se v´ yzkumem 33 komunikace mezi zv´ıˇraty , dokonce aplikace pˇrepisuj´ıc´ı zpˇev pták˚ u do formátu 34 MIDI . 6.2.2

Klientsk´ a aplikace pro anal´ yzu nahr´ avek – Agent++

Tento projekt navazuje na projekt serveru pro virtuáln´ı zvukovou laboratoˇr popsan´ y v kapitole 6.2.1 a spolu s n´ım umoˇzn ˇuje uˇzivateli naj´ıt nahrávky, které jsou z nejr˚ uznˇejˇs´ıch ohled˚ u podobné na nahrávky, jeˇz má ve svém hudebn´ım archivu. To m˚ uˇze b´ yt pˇr´ınosné pro osloven´ı potencionáln´ıch zákazn´ık˚ u obchod˚ u s hudbou nebo posluchaˇc˚ u (internetov´ ych) rádi´ı. Klientská aplikace bude zpracovávat nahrávky uˇzivatele na jeho poˇc´ıtaˇci a z´ıskané informace (charakteristické vektory) spolu s identifikátorem uˇzivatele (username) a identifikátorem nahrávky (hash/ PUID) odes´ılat na server virtuáln´ı zvukové laboratoˇre, kde se s nimi bude dále pracovat. D˚ uleˇzit´ ymi vlastnostmi bude modulárnost (pozdˇejˇs´ı pˇridáván´ı dalˇs´ıch algoritm˚ u), multiplatformnost (provoz na Win, MacOS, Linux), minimáln´ı nároky na HW (CPU/RAM/DISK), jednoduchá instalace / odinstalace (staˇzen´ı, spuˇstˇen´ı, smazán´ı), bude postaˇcovat právo ˇcten´ı ze soubor˚ u, jasnost charakteru odes´ılan´ ych informac´ı (Open-source). Nejnutnˇejˇs´ı ovládán´ı aplikace (nastaven´ı odes´ılaného username, nastaven´ı nahrávek ke zpracován´ı, sledován´ı pokroku) bude realizováno pˇres webové rozhran´ı serveru. 32

http://www.xeno-canto.org/ http://www.birds.cornell.edu/brp/?lk=lpro/ 34 http://www.robertinventor.com/software/tunesmithy/pitch tracer.htm 33

96

6

IMPLEMENTACE

Z´ısk´ an´ı meta informac´ı o nahr´ avk´ ach m˚ uˇze b´ yt provedeno následuj´ıc´ım zp˚ usobem: • z´ıskán´ı jednoznaˇcného identifikátoru nahrávky (acustic fingerprint). Existuje v´ıce implementac´ı, 35 • zaslán´ı dotazu na server obsahuj´ıc´ı meta informace o nahrávkách36

DB metainformací

W W W Sound Lab

Mapy Mapy hud. Mapy hud. objektů zvukových objektů objektů

User Sound experiments

Acu. Finger. + Feature Vector

W W W

Agent++

User

Obrázek 56: Funkce virtu´ aln´ı zvukové laboratoˇre – SoundLabu

35 36

napˇr. http://echoprint.me/ napˇr. http://musicbrainz.org, http://the.echonest.com/

User

7

´ ˚ ZHODNOCENÍ VYSLEDK U

7

97

Zhodnocen´ı v´ ysledk˚ u

Kapitola 5 seznamuje s v´ ysledky vlastn´ıch experiment˚ u s vybran´ ymi klasifikaˇcn´ımi a shlukovac´ımi algoritmy. Jednotlivé experimenty se v mnoha ohledech liˇs´ı. Rozd´ıly v uspoˇra´dán´ı experiment˚ u jsou popsány v této kapitole. Experimenty jsou ˇc´ıslovány podle kapitol, ve kter´ ych je popisujeme.

7.1

Data

Pˇri experimentech byly pouˇzity dvˇe r˚ uzné zvukové databáze, z kter´ ych byly z´ıskány v podstatˇe ˇctyˇri r˚ uzné typy charakteristick´ ych vektor˚ u. Mnoˇzina vlastn´ıch vybran´ ych nahrávek u experimentu 5.2 umoˇznila provést základn´ı proof of concept“ postupu navrˇzeného na základˇe studia souˇcasného ” stavu (viz kapitola 2). Podaˇrilo se potvrdit schopnost navrˇzeného postupu rozliˇsovat nahrávky na základˇe vybran´ ych kritéri´ı. Ukázalo se ale, ˇze má tento datov´ y soubor nˇekolik zásadn´ıch nev´ yhod. • Experiment je tˇeˇzko zopakovateln´ y pro dalˇs´ı v´ yzkumn´ıky, jelikoˇz vybrané nahrávky nejsou volnˇe dostupné z hlediska licence a také z d˚ uvod˚ u jejich jedineˇcnosti. • Mnoˇzstv´ı vybran´ ych nahrávek je pro kvalitn´ı vyhodnocen´ı v´ ysledk˚ u algoritm˚ u pˇr´ıliˇs malé. Z pˇredeˇslého d˚ uvodu jsme se rozhodli databázi nerozˇsiˇrovat. • Na této databázi nen´ı moˇzné testovat algoritmy uˇcen´ı s uˇcitelem, jelikoˇz data nejsou nijak ohodnocena. Mohli bychom je ohodnotit sami, ale vznikala by otázka platnosti a subjektivity vlastn´ıho ohodnocen´ı. Z tˇechto d˚ uvod˚ u jsme dále hledali lepˇs´ı zvukovou databázi. V experimentu 5.3 byla jiˇz pouˇzita databáze Magnatagatune popsaná v kapitole 5.1.3. Z této databáze jsme z´ıskali potˇrebné mnoˇzstv´ı nahrávek (dostupn´ ych i pro ostatn´ı v´ yzkumn´ıky) a mohli jsme zhodnotit v´ ykon Kohonenovy mapy z hlediska podobnosti nahrávek reprezentovan´ ych jednotliv´ ymi neurony. Pˇrechod na tuto databázi vyˇzadoval pouˇzit´ı komprimovaného formátu zvuku (mp3) kv˚ uli velikosti databáze (2.6GB zkomprimovaného zvuku pˇri vzorkovac´ı frekvenci 16kHz, 32bit hloubce vzork˚ u a mono nahrávkách), coˇz ale nepˇrineslo pˇri zpracován´ı v GNU Octave velké problémy. Bylo ale nutné pouˇz´ıt funkci mp3readwrite, která nemá GNU GPL licenci. V tomto experimentu jeˇstˇe nebylo vyuˇzito ohodnocen´ı dat. V experimentech 5.4 a 5.5 byla pouˇzita opˇet databáze Magnatagatune. Zde uˇz ale vyuˇz´ıváme i ohodnocen´ı dat, coˇz pˇrináˇs´ı moˇznost pˇresného porovnán´ı v´ ysledk˚ u algoritm˚ u s ohodnocen´ım vytvoˇren´ ym lidmi. Toto lidské ohodnocen´ı m˚ uˇze b´ yt bráno do jisté m´ıry jako referenˇcn´ı, jelikoˇz je vytvoˇreno bˇehem on-line hry, jej´ıˇz princip zaruˇcuje urˇcitou vypov´ıdaj´ıc´ı hodnotu vytváˇren´ ych ohodnocen´ı, nav´ıc jsou dále ohodnocen´ı revidována metodami hledaj´ıc´ımi shodu mezi r˚ uzn´ ymi hodnotiteli.

98

7.2

7


Zpracov´ an´ı sign´ alu

Vˇsechny experimenty vycházej´ı ze zpracován´ı zvukového signálu v prostˇred´ı MATLAB / GNU Octave (v experimentu 5.2 a 5.3 pouˇz´ıváme MATLAB, od experimentu 5.4 pouˇz´ıváme stejné skripty upravené pro pouˇzit´ı v GNU Octave. Obˇe prostˇred´ı maj´ı velmi podobnou syntaxi i podporu sloˇzitˇejˇs´ıch algoritm˚ u pro zpracován´ı signálu (MATLAB signalprocessing toolbox, GNU Octave signal a audio packages). Zpracován´ı nahrávek v prostˇred´ı matlab bylo o nˇeco rychlejˇs´ı, vyuˇzit´ı GNU Octave je v´ yhodné v open-source licenci a menˇs´ıch HW nároc´ıch. Otázka v´ ybˇeru správné zvukové charakteristiky (deskriptoru) je velice sloˇzitá. Kaˇzdá zvuková nebo hudebn´ı kvalita, kterou chceme ze zvukového signálu z´ıskat, vyˇzaduje pouˇzit´ı individuáln´ıho deskriptoru. Tato oblast je urˇcitou alchymi´ı“, která ” je ale pro cel´ y proces klasifikace naprosto zásadn´ı. Dobré v´ ysledky experiment˚ u 5.4 a 5.5 jsou zp˚ usobeny dobrou separovatelnost´ı charakteristick´ ych vektor˚ u, jeˇz je podm´ınˇena pouˇzit´ım správného deskriptoru. Jelikoˇz je tato práce zamˇeˇrena sp´ıˇse na v´ yzkum klasifikaˇcn´ıch algoritm˚ u neˇz na v´ yzkum nejlepˇs´ıch deskriptor˚ u pro konkrétn´ı zvukové kvality, rozhodli jsme se provádˇet klasifikaci pokud moˇzno na základˇe jednoduch´ ych zvukov´ ych kvalit. Takovou kvalitou m˚ uˇze b´ yt hlasitost zvuku, pˇr´ıpadnˇe podstatnˇe nároˇcnˇejˇs´ı rozliˇsen´ı hudebn´ıho nástroje od hlasu. Pro hlasitost zvuku bylo vybráno nˇekolik moˇzn´ ych charakteristik porovnávan´ ych v experimentu 5.2. Jako nejlepˇs´ı se ukázalo pouˇz´ıt smˇerodatnou odchylku signálu v urˇcitém ˇcasovém u ´seku. I podle porovnán´ı statistické povahy této veliˇciny a fyzikáln´ı kvality hlasitosti“ – amplituda (rozkmit) zvukové vlny ukazuje ” na správnost této volby. Nav´ıc se ukázalo, ˇze tato veliˇcina také velmi dobˇre koresponduje s dalˇs´ım moˇzn´ ym ukazatelem na kvalitu hlasitosti – se sumou spektra viz obrázek 40. Dalˇs´ı u ´lohou bylo rozliˇsen´ı nahrávek obsahuj´ıc´ıch hudebn´ıho nástroje (klarinetu) a nahrávek obsahuj´ıc´ıch hlas (talking) v experimentu 5.7. Tato u ´loha (primitivn´ı pro lidského posluchaˇce) nen´ı v pˇr´ıpadˇe automatického tˇr´ıdˇen´ı tak jednoduchá. Z hlediska podobnosti frekvenˇcn´ıho spektra m˚ uˇze b´ yt rozliˇsen´ı vcelku sloˇzité (lidskému hlasu je napˇr´ıklad spektrálnˇe velmi podobn´ y saxofon patˇr´ıc´ı do stejné rodiny dechov´ ych nástroj˚ u, jako klarinet). Rozhodli jsme se vsadit na jinou zvukovou kvalitu – prezenci a v´ yˇsku hudebn´ıch tón˚ u. Pˇredpokládáme, ˇze v ˇreˇci (talking) bude tón˚ u mnohem ménˇe a budou na jin´ ych základn´ıch frekvenc´ıch. Pro zjiˇstˇen´ı základn´ı frekvence signálu v urˇcitém ˇcasovém u ´seku jsme testovali dvˇe charakteristiky: nejsilnˇejˇs´ı frekvenci a zero crossing rate. Navzdory oˇcekáván´ı se lépe osvˇedˇcila nejsilnˇejˇs´ı frekvence, viz tabulka 18 a obrázek 57. V této tabulce také porovnáváme v´ ysledky algoritm˚ u pracuj´ıc´ıch s 3 rozmˇern´ ymi a 300 rozmˇern´ ymi vektory. V´ıcerozmˇerné vektory se ukázaly jako reprezentativnˇejˇs´ı. Domn´ıváme se, ˇze je to zp˚ usobeno pˇr´ıliˇs dlouh´ ym u ´sekem pro zjiˇst’ován´ı základn´ı frekvence v pˇr´ıpadˇe 3 rozmˇern´ ych vektor˚ u. Obvykle b´ yvá ˇcasové okénko v takov´ ychto u ´lohách mnohonásobnˇe menˇs´ı.

7.3

99

Metody umˇelé inteligence

Úspěšnost FV [%]

100 80 60 40 20 0

300d freq

300d zcr

3d freq

3d zcr

Obrázek 57: Porovn´ an´ı pr˚ umˇerné u ´spˇeˇsnosti algoritm˚ u nad r˚ uzn´ ymi charakteristick´ ymi vektory v u ´loze 5.7

7.3

Metody umˇ el´ e inteligence

Tato práce se zab´ yvá zejména umˇel´ ymi neuronov´ ymi s´ıtˇemi – jejich topologiemi a uˇc´ıc´ımi algoritmy. Pro potˇreby tˇr´ıdˇen´ı zvukov´ ych dat jsme kv˚ uli absenci ohodnocen´ ych dat v reáln´ ych u ´lohách zamˇeˇrili pozornost zejména k shlukovac´ım algoritm˚ um. Zˇrejmˇe nejv´ yraznˇejˇs´ım pˇredstavitelem uˇcen´ı bez uˇcitele je v neuronov´ ych s´ıt´ıch Kohonenova mapa. Této topologii trénované algoritmem SOM nebo LVQ jsme se vˇenovali nejv´ıce. V závˇeru práce jsme pro tuto topologii navrhli algoritmus schopn´ y vyuˇz´ıt ohodnocená i neohodnocená data. Pro porovnán´ı byly pouˇzity také dalˇs´ı známé klasifikaˇcn´ı a shlukovac´ı algoritmy spadaj´ıc´ı sp´ıˇse do skupiny statistick´ ych metod. V experimentech bylo vyuˇzito nˇekolik zdroj˚ u hotov´ ych algoritm˚ u. Bylo to prostˇred´ı MATLAB (SOM), GNU Octave (MLP) a WEKA (k-means, EM, SOM, kNN). Dále byly algoritmy SOM a LVQ naimplementovány do vlastn´ıho prostˇred´ı v jazyce C++. Vyuˇzit´ı naimplementovan´ ych algoritm˚ u má zejména v poˇca´teˇcn´ı fázi mnoho v´ yhod. Je moˇzné porovnávat v´ ysledky a pracovat s algoritmy, jeˇz ve vˇetˇsinˇe pˇr´ıpad˚ u funguj´ı správnˇe a je k nim dostupná dokumentace. Pro porovnán´ı v´ ysledk˚ u r˚ uzn´ ych experiment˚ u je v´ yborné prostˇred´ı WEKA. Obsahuje moˇznosti normalizace a standardizace dat, k algoritm˚ um je poskytnuto jednotné rozhran´ı, algoritm˚ u je velké mnoˇzstv´ı, nav´ıc WEKA obsahuje moˇznosti ovˇeˇren´ı v´ ysledk˚ u pomoc´ı cross-validace. Nev´ yhodou tohoto prostˇred´ı je niˇzˇs´ı rychlost a vˇetˇs´ı pamˇet’ová nároˇcnost. V nˇekter´ ych pˇr´ıpadech jsme také narazili na chybové chován´ı algoritm˚ u z bal´ıˇckového systému (v bal´ıˇcku SelfOrganizingMap v 1.0.1 nen´ı moˇzné nastavit menˇs´ı poˇcty iterac´ı, uˇcen´ı trvá neadekvátnˇe dlouho). Pouˇzit´ı prostˇred´ı MATLAB se nab´ızelo jiˇz kv˚ uli signal-processingové ˇca´sti ˇreˇsené t´ımto zp˚ usobem. Algoritmy i dokumentace jsou na profesionáln´ı u ´rovni. Nev´ yhodou je licence a HW nároky. V experimentu 5.2 jsme se snaˇzili vyzkouˇset schopnost Kohonenovy mapy uˇcené algoritmem SOM shlukovat charakteristické vektory z´ıskané z vlastn´ıch zvukov´ ych nahrávek. Tato schopnost se potvrdila. Dále bylo potˇreba prozkoumat nastaven´ı parametr˚ u vzhledem k chybˇe

100

7


v´ ysledného shlukován´ı. Tomu byl vˇenován experiment 5.3. Byl navrˇzen vlastn´ı zp˚ usob v´ ypoˇctu chyby, viz vztahy 33 a 34. V tomto experimentu byly prozkoumány r˚ uzné topologie mapy a nastaven´ı parametr˚ u. Následovala vlastn´ı implementace Kohonenovy mapy a algoritmu SOM v C++. Správnost funkce vlastn´ı implementace byla ovˇeˇrována v experimentu 5.4. Ukázalo se, ˇze jsou v´ ysledky velmi podobné jako v pˇr´ıpadˇe implementace SOM v prostˇred´ı WEKA viz. tabulka 11. V tomto experimentu uˇz také bylo vyuˇzito ohodnocen´ ych dat pro potˇreby stanoven´ı pˇresnosti v´ ysledk˚ u algoritm˚ u. Pokraˇcovali jsme dále ve vyuˇzit´ı ohodnocen´ ych dat v procesu uˇcen´ı – v uˇcen´ı s uˇcitelem, klasifikaci. K implementaci algoritmu SOM byl pˇridán algoritmus LVQ schopn´ y vyuˇz´ıvat ohodnocená data a upravovat reprezentanty (codebook vector) v topologii Kohonenovy mapy. V´ ysledky byly porovnány s tradiˇcn´ım statistick´ ym klasifikaˇcn´ım algoritmem kNN a s v´ıcevrstvou neuronovou s´ıt´ı. V´ ykon vˇsech algoritm˚ u pˇrevyˇsuje 97 % (kNN 4 ˇspatné z 285 = 98,596 %, MLP 1 ˇspatná z 95 = ´ eˇsnost algoritmu LVQ1 nen´ı pˇri 98,947 %, LVQ 7 ˇspatn´ ych z 285 = 97,544 %). Uspˇ klasifikaci tak vysoká jako kNN nebo MLP. Mus´ıme si ale uvˇedomit, ˇze LVQ1 je pouze základn´ı verze algoritmu a existuj´ı jeˇstˇe vylepˇsen´ı v podobˇe LVQ2.1 a LVQ3. Následovala implementace algoritmu kombinuj´ıc´ıho uˇcen´ı bez uˇcitele (SOM) a uˇcen´ı ´ eˇsnost algoritmu pˇrevyˇsuje s uˇcitelem (LVQ) popsané v kapitole 4.5.3 a 5.6. Uspˇ u ´spˇeˇsnost samotného algoritmu LVQ (uˇcen´ı s uˇcitelem), coˇz dobˇre koresponduje s c´ılem klasifikace s ˇcásteˇcn´ ym dohledem stanoven´ ym v kapitole 4.5.3. Graficky je u ´spˇeˇsnost algoritm˚ u v u ´loze rozliˇsen´ı nahrávek klarinetu a ˇreˇci znázornˇena na obrázky 58. V´ ysledky by mohly b´ yt lepˇs´ı po zv´ yˇsen´ı poˇctu instanc´ı, jelikoˇz bude dosaˇzeno lepˇs´ıho pomˇeru mezi rozmˇerem vektoru (300) a poˇctˇem instanc´ı (150).

Úspěšnost algoritmů [%]

100

80

60

40

20

0

EM

k-m ean

s

SO M

SO LVQ ML kN SO N( P( M+ M( (C+ (we we we C+ LVQ ka. +) ka) ka) +) GN (C+ UO +) cta ve)

Obrázek 58: Porovn´ an´ı pr˚ umˇerné u ´spˇeˇsnosti algoritm˚ u nad u ´loze 5.7

8

8

´ ER ˇ ZAV

101

Z´ avˇ er

V práci jsou pˇredstaveny modern´ı metody zaloˇzené na principech umˇelé inteligence, které v kombinaci s metodami zpracován´ı signálu slouˇz´ı k z´ıskáván´ı informac´ı o zvukov´ ych datech. Práce zahrnuje pˇrehled metod umˇelé inteligence, které se v oblasti z´ıskáván´ı zvukov´ ych informac´ı pouˇz´ıvaj´ı. Rovnˇeˇz jsou vysvˇetleny základn´ı pojmy z oblasti zvuku a hudby, princip z´ıskáván´ı zvukov´ ych charakteristik a zp˚ usoby klasifikace zvukov´ ych dat. Pˇr´ınosem práce je navrˇzená metoda pro klasifikaci zvukov´ ych dat z hlediska jejich obsahu. C´ılem této práce byla anal´ yza nov´ ych metod a implementace navrˇzen´ ych algoritm˚ u pro potˇreby klasifikace zvukov´ ych dat na základˇe jejich obsahu, coˇz je jedna zu ´loh z´ıskáván´ı zvukov´ ych informac´ı. Bylo tˇreba vyuˇz´ıt v´ ysledk˚ u experiment˚ u proveden´ ych v této oblasti a po jejich zhodnocen´ı navrhnout ˇreˇsen´ı schopné klasifikovat jednotlivé nahrávky v databázi. Pro u ´ˇcely této práce v u ´loze klasifikace se ukázalo jako nejvhodnˇejˇs´ı pouˇzit´ı Kohonenov´ ych map, které jsou rozˇs´ıˇreny o moˇznosti vyuˇzit´ı ohodnocen´ ych dat. Dosaˇzené v´ ysledky mohou b´ yt zobecnˇeny na klasifikaci ohodnocen´ ych a neohodnocen´ ych dat v ˇsirˇs´ım smyslu. Do budoucna je potˇreba zamˇeˇrit pozornost na oblast z´ıskáván´ı zvukov´ ych charakteristik (charakteristick´ ych vektor˚ u), které popisuj´ı zvukové objekty a umoˇzn ˇuj´ı prohledáván´ı zvukov´ ych archiv˚ u z mnoha r˚ uzn´ ych hledisek. Zde jeˇstˇe nebyl nalezen obecn´ y zp˚ usob popisu zvukového materiálu. Tato oblast vyˇzaduje pro kaˇzdou charakteristiku individuáln´ı ˇreˇsen´ı. V prvn´ı ˇradˇe je d˚ uleˇzité vytvoˇrit platformu na které bude moˇzná v´ıceuˇzivatelská spolupráce pˇri testován´ı a v´ yvoji tˇechto deskriptor˚ u. Takovou platformou by se mohla stát vyv´ıjena virtuáln´ı zvuková laboratoˇr.

102

8

´ ER ˇ ZAV

LITERATURA

103

Literatura ABDALLAH, S. A. – PLUMBLEY, M. D. Information Dynamics. Technical Report C4DM-TR07-01, Centre for Digital Music, Queen Mary University of London, 2007. Dostupné z: http://www.elec.qmul.ac.uk/people/markp/2007/ AbdallahPlumbley07-tr07-01.pdf. ABNEY, S. Semisupervised Learning for Computational Linguistics. USA : Chapman & Hall/CRC, 2007. ISBN 1584885599, 9781584885597. AUCOUTURIER, J.-J. – PACHET, F. Music Similarity Measures: What’s the Use? In IRCAM (Ed.) Proceedings of the 3rd International Symposium on Music Information Retrieval, s. 157–163, Paris, France, October 2002. AUCOUTURIER, J. – SANDLER, M. Segmentation of musical signals using hidden Markov models. Preprints-Audio Engineering Society. 2001. BISHOP, C. M. Pattern recognition and machine learning. NY, USA : Springer, 2006. ISBN 0-387-31073-8. BOGDANOV, D. et al. Hybrid Similarity Measures For Music Recommendation, 2009. Dostupné z: http://www.mtg.upf.edu/files/publications/ MIREX2009-sim-BSWH1-BSWH2.pdf. MIREX09 results for music similarity and retrieval. BOGDANOV, D. et al. Content-based music recommendation based on user preference examples. In The 4th ACM Conference on Recommender Systems. Workshop on Music Recommendation and Discovery (Womrad 2010), Barcelona, Spain, 26/09/2010 2010. Dostupné z: http://www.mtg.upf.edu/files/ publications/Bogdanov-et-al-Womrad2010.pdf. BOGDANOV, D. et al. Unifying Low-level and High-level Music Similarity Measures. IEEE Transactions on Multimedia. 08/2011 2011, 13, s. 687–701. ISSN 1520-9210. ` Music Recommendation and Discovery in the Long Tail. PhD thesis, CELMA, O. Universitat Pompeu Fabra, Barcelona, 2008. Dostupné z: http://www.mtg.upf. edu/static/media/PhD_ocelma.pdf. ˇ ´ J. ISS Signály a systémy: 10. pˇrednáˇska. [online], 2009. Dostupné z: CERNOCK Y, http://www.prednasky.com/lecture.php?lang=cz&id=34. ¨ CHAPELLE, O. – SCHOLKOPF, B. – ZIEN, A. (Ed.). Semi-Supervised Learning. Cambridge, MA : MIT Press, 2006. Dostupné z: http://www.kyb.tuebingen. mpg.de/ssl-book. Diskrétn´ı Fourierova transformace. [online], 2003. Dostupné z: http://apfyz.upol. cz/ucebnice/down/mini/fourtrans.pdf. Univerzita Palackého Olomouc.

104

LITERATURA

DITTENBACH, M. – MERKL, D. – RAUBER, A. Serendipity in Text and Audio Information Spaces: Organizing and Exploring High-Dimensional Data with the Growing Hierarchical Self-Organizing Map. In HALGAMUGE, S. K. – WANG, L. (Ed.) Classification and Clustering for Knowledge Discovery, 4 / Studies in Computational Intelligence. Springer Berlin / Heidelberg: Springer, 2005. s. 43–60. ISBN 978-3-540-26073-8. FASTL, H. – ZWICKER, E. Psychoacoustics: Facts and Models. Springer Berlin / Heidelberg : Springer Series in Information Sciences, 2007. ISBN 978-3-54023159-2. FEJFAR, J. – LUDÍK, P. Automatická segmentace audia. In Mendelnet 2009, 2009. ˇTASTN ˇ ´ J. Time series clustering in large data sets. In Acta uniFEJFAR, J. – S Y, versitatis agriculturae et silviculturae Mendelianae Brunensis, s. 75–80, 2011. Dostupné z: https://akela.mendelu.cz/~xfejfar/publications/fejfar_2011_ acta.pdf. ˇTASTN ˇ ´ J. – LYSEK, ´ FEJFAR, J. – S Y, J. V´ ybˇer vhodn´ ych charakteristik pro klasifikaci nahrávek na základˇe hudebn´ıch objekt˚ u. In Firma a konkurenˇcn´ı prostˇred´ı (FBE 2010), 2010a. ´ J. – S ˇTASTN ˇ ´ J. MUSICAL FORM RETRIEFEJFAR, J. – WEINLICHOVA, Y, VAL. In MATOUSEK, R. (Ed.) 16TH INTERNATIONAL CONFERENCE ON SOFT COMPUTING MENDEL 2010, Mendel, s. 246–251. BRNO UNIV TECHNOLOGY VUT PRESS, 2010b. Dostupné z: https://akela.mendelu. cz/~xfejfar/publications/fejfar_2010_mendel.pdf. ISBN 978-80-214-41200, Brno, CZECH REPUBLIC, JUN 23-25, 2010. ˇ ˇ Algorithms for time series clustering FEJFAR, J. – MOTYCKA, A. – FILÍPEK, S. comparison. In NAUN/IEEE.AM International Conferences, WSEAS, 2011. ˇ Tvorba Krzysztofa Pendereckého pro sólové violoncello – problematika FILÍPEK, S. formy a interpretace. PhD thesis, Janáˇckova akademie m´ uzick´ ych umˇen´ı v Brnˇe, 2011. ˇ – INDRAK, ´ FILÍPEK, S. M. Formáln´ı a interpretaˇcn´ı problematika smyˇccových kvartet˚ u Miloslava Iˇstvana. BRNO, Komenského námˇest´ı : Janáˇckova akademie m´ uzick´ ych umˇen´ı v Brnˇe, 2010. ISBN 978-80-86928-2. ´ GOMEZ, E. Tonal Description of Music Audio Signals. PhD thesis, Universitat Pompeu Fabra, 2006. Dostupné z: http://www.mtg.upf.edu/files/ publications/emilia-PhD-2006.pdf. GRECU, A. Musical Instrument Separation. Master’s thesis, Vienna University of Technology, 2007. Dostupné z: http://www.ifs.tuwien.ac.at/mir/ publications.html.

LITERATURA

105

GUAUS, E. Audio content processing for automatic music genre classification: descriptors, databases, and classifiers. PhD thesis, Universitat Pompeu Fabra, 2009. Dostupné z: http://www.dtic.upf.edu/~eguaus/phd/eguaus_phd_2009_ genre_classification_A4.pdf. HSU, C.-W. – CHANG, C.-C. – LIN, C.-J. A Practical Guide to Support Vector Classification, 2000. Dostupné z: http://citeseerx.ist.psu.edu/viewdoc/ summary?doi=10.1.1.6.3096. ˇ ISTVAN, M. Poznámky k soudobé formˇe a rytmu. Brno : Janáˇckova akademie m´ uzick´ ych umˇen´ı, 2000. ISBN 80-85429-47-0. ˇ ıslicová filtrace, analýza a restaurace signál˚ JAN, J. C´ u. BRNO, Anton´ınská 1 : Vysoké uˇcen´ı technické v Brnˇe, VUTIUM, 2002. ISBN 80-214-1558-4. JANER, J. et al. Sound Object Classification for Symbolic Audio Mosaicing: A Proof-of-Concept. In GOUYON, F. – BARBOSA, A. – SERRA, X. (Ed.) Sound and Music Computing Conference, s. 297–302, Porto, Portugal., 23/07/2009 2009. Dostupné z: http://www.mtg.upf.edu/files/publications/ Janer-Haro-Roma-Fujishima-Kojima-SMC09.pdf. ISBN 978-989-95577-6-5. KLAPURI, A. Signal Processing Methods for the Automatic Transcription of Music. PhD thesis, Tampere University of Technology, 2004. KOHONEN, T. – SCHROEDER, M. R. – HUANG, T. S. (Ed.). Self-Organizing Maps. Secaucus, NJ, USA : Springer-Verlag New York, Inc., 2001. ISBN 3540679219. KOHONEN, T. et al. SOM PAK: The Self-Organizing Map Program Package. Technical Report A31, Helsinki University of Technology, Laboratory of Computer and Information Science, 1996a. Dostupné z: http://www.cis.hut.fi/research/ papers/som_tr96.ps.Z. KOHONEN, T. et al. LVQ PAK: The Learning Vector Quantization Program Package. Technical Report A30, Helsinki University of Technology, Laboratory of Computer and Information Science, 1996b. Dostupné z: http://www.cis.hut. fi/research/papers/lvq_tr96.ps.Z. ˇ Y, ´ V. – TRENZ, O. Rozhodován´ı s podporou umˇelé inteligence. Folia. KONECN ˇ : MZLU v Brnˇe, 2009. ISBN 978-80-7375-344-3. BRNO, CR LAW, E. – AHN, L. Input-agreement: a new mechanism for collecting data using human computation games. In Proceedings of the 27th international conference on Human factors in computing systems, CHI ’09, s. 1197–1206, New York, NY, USA, 2009. ACM. doi: http://doi.acm.org/10.1145/1518701.1518881. Dostupné z: http://doi.acm.org/10.1145/1518701.1518881. ISBN 978-1-60558-246-7.

106

LITERATURA

LIDY, T. – RAUBER, A. Evaluation of Feature Extractors and Psycho-acoustic Transformations for Music Genre Classification. In Proceedings of the Sixth International Conference on Music Information Retrieval (ISMIR 2005), s. 34–41, London, UK, September 11-15 2005. Dostupné z: http://www.ifs.tuwien.ac. at/mir/publications.html. ISBN 0-9551179-0-9. LIDY, T. – RAUBER, A. Classification and Clustering of Music for Novel Music Access Applications. In CORD, M. – CUNNINGHAM, P. (Ed.) Machine Learning Techniques for Multimedia. Berlin Heidelberg: Springer, 2008. s. 249–285. doi: 10.1007/978-3-540-75171-7{\ }11. ISBN 978-3-540-75170-0. ¨ LIDY, T. – POLZLBAUER, G. – RAUBER, A. Sound Re-synthesis From Rhythm Pattern Features - Audible Insight Into A Music Feature Extraction Process. In Proceedings of the International Computer Music Conference (ICMC), s. 93–96, Barcelona, Spain, September 5–9 2005. Dostupné z: http://www.ifs.tuwien. ac.at/mir/publications.html. ˇ ÍK, V. – ST ˇ EP ˇ ANKOV ´ ´ O. – KOL., J. L. Umˇelá inteligence Sv 1. Praha : MAR A, Academia, 1993. ISBN 80-200-0496-3. ˇ ÍK, V. – ST ˇ EP ˇ ANKOV ´ ´ O. – KOL., J. L. Umˇelá inteligence Sv 2. Praha : MAR A, Academia, 1997. ISBN 80-200-0504-8. ˇ ÍK, V. – ST ˇ EP ˇ ANKOV ´ ´ O. – KOL., J. L. Umˇelá inteligence. Sv 4. Praha : MAR A, Academia, 2003. ISBN 80-200-1044-0. MATHWORKS.COM. ISO 226 Equal-Loudness-Level Contour Signal. [online], 2010. Dostupné z: http://www.mathworks.com/matlabcentral/fx_files/ 7028/1/iso226.jpg. MAYER, R. – NEUMAYER, R. – RAUBER, A. Combination of Audio and Lyrics Features for Genre Classification in Digital Audio Collections. In Proceedings of the ACM Multimedia 2008, s. 159–168. ACM New York, NY, USA, October 27-31 2008a. Dostupné z: http://www.ifs.tuwien.ac.at/mir/publications.html. MAYER, R. – NEUMAYER, R. – RAUBER, A. Rhyme and Style Features for Musical Genre Classification by Song Lyrics. In Proceedings of the 9th International Conference on Music Information Retrieval (ISMIR’08), September 14-18 2008b. Dostupné z: http://www.ifs.tuwien.ac.at/mir/publications.html. ´ MEDEK, I. Uvod do procesuality jako komplexn´ı kompoziˇcn´ı metody. Janáˇckova akademie m´ uzick´ ych umˇen´ı, 1998. ISBN 80-85429-37-3.

Brno :

Music Information Retrieval Evaluation eXchange, London, UK, September 1115, 2005, Proceedings, 2005. MIREX. Dostupné z: http://www.music-ir.org/ mirex/2005/index.php/Main_Page.

LITERATURA

107

NYQUIST, H. Certain Topics in Telegraph Transmission Theory. In CALDER, J. – TREW, R. J. (Ed.) Proceedings of the IEEE, 90, s. 280–305. IEEE, 2002. Dostupné z: http://www.astro.ufrgs.br/med/imagens/nyquist.pdf. ISBN 00189219. ONG, B. Structural Analysis and Segmentation of Music Signals. PhD thesis, Universitat Pompeu Fabra, 2007. Dostupné z: http://www.mtg.upf.edu/files/ publications/Thesis_BeeSuanOng.pdf. PAMPALK, E. – RAUBER, A. – MERKL, D. Using Smoothed Data Histograms for Cluster Visualization in Self-Organizing Maps. In Proceedings of the Intl Conf on Artificial Neural Networks (ICANN 2002), s. 871–876, Madrid, Spain, August 27-30 2002a. Dostupné z: http://www.ifs.tuwien.ac.at/ifs/research/ publications.html. ISBN 3-540-44074-7. PAMPALK, E. – RAUBER, A. – MERKL, D. Content-based Organization and Visualization of Music Archives. In Proceedings of ACM Multimedia 2002, s. 570–579, Juan-les-Pins, France, December 1-6 2002b. ACM. Dostupné z: http: //www.ifs.tuwien.ac.at/ifs/research/publications.html. ISBN 1-58113620X. PAMPALK, E. – WIDMER, G. – CHAN, A. A New Approach to Hierarchical Clustering and Structuring of Data with Self-Organizing Maps. Intelligent Data Analysis Journal. 2004, 8, 2, s. 131–149. Dostupné z: http://www.ofai.at/ ~elias.pampalk/publications.html. PAMPALK, E. Aligned Self-Organizing Maps. In Proceedings of the Workshop on Self-Organizing Maps, s. 185–190, Kitakyushu, Japan, September 11-14 2003. Kyushu Institute of Technology. Dostupné z: http://www.ofai.at/~elias. pampalk/publications.html. PAMPALK, E. – DIXON, S. – WIDMER, G. Exploring Music Collections by Browsing Different Views. In Proceedings of the International Conference on Music Information Retrieval (ISMIR’03), s. 201–208, Baltimore, MD, October 26-30 2003. John Hopkins University. Dostupné z: http://www.ofai.at/~elias.pampalk/ publications.html. PAPE, L. – GRUIJL, J. – WIERING, M. Democratic Liquid State Machines for Music Recognition. In Prasad – Prasanna (2008), s. 191–215. ISBN 978-3-54075397-1. PEISZER, E. Automatic Audio Segmentation: Segment Boundary and Structure Detection in Popular Music. Master’s thesis, Vienna University of Technology, 2007. Dostupné z: http://www.ifs.tuwien.ac.at/mir/publications.html.

108

LITERATURA

PEISZER, E. – LIDY, T. – RAUBER, A. Automatic Audio Segmentation: Segment Boundary and Structure Detection in Popular Music. In Proceedings of the 2nd International Workshop on Learning the Semantics of Audio Signals (LSAS), 2008. Dostupné z: http://publik.tuwien.ac.at/files/PubDat_170403.pdf. ISBN 978-3-9804874-7-4, Vortrag: International Workshop on Learning the Semantics of Audio Signals (LSAS), Paris, France; 2008-06-21. PFLUGFELDER, B. Discriminant Analysis of Three Rhythmic Descriptors in Musical Genre Classification. Master’s thesis, Vienna University of Technology, 2008. Dostupné z: http://www.ifs.tuwien.ac.at/mir/publications.html. PRASAD, B. – PRASANNA, S. R. M. (Ed.). Speech, Audio, Image and Biomedical Signal Processing using Neural Networks. 83 / Studies in Computational Intelligence. Springer Berlin / Heidelberg : Springer, 2008. ISBN 978-3-540-75397-1. Psychoakustika. [online], 2009. Dostupné z: http://fu.ff.cuni.cz/vyuka/ akustika/3_psychoakustika.pdf. Univerzita Karlova - uˇcebn´ı text. RAO, P. Audio Signal Processing. In Prasad – Prasanna (2008), s. 169–189. ISBN 978-3-540-75397-1. ¨ RAUBER, A. – FRUHWIRTH, M. Automatically Analyzing and Organizing Music Archives. In Proceedings of the 5. European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001), Springer Lecture Notes in Computer Science, Darmstadt, Germany, Sept. 4-8 2001. Springer. Dostupné z: http://www.ifs.tuwien.ac.at/ifs/research/publications.html. RAUBER, A. – PAMPALK, E. – MERKL, D. Using Psycho-Acoustic Models and Self-Organizing Maps to Create a Hierarchical Structuring of Music by Musical Styles. In Proceedings of the 3rd International Symposium on Music Information Retrieval, s. 71–80, Paris, France, October 13-17 2002a. Dostupné z: http://www. ifs.tuwien.ac.at/ifs/research/publications.html. ISBN 2-84426-166-3. RAUBER, A. – PAMPALK, E. – MERKL, D. Content-based Music Indexing and Organization. In Proceedings of the 25. Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 02), s. 409–410, Tampere, Finland, August 11-15 2002b. ACM. Dostupné z: http://www.ifs.tuwien.ac.at/ifs/research/publications.html. ISBN 1581-13561-0. RAUBER, A. – PAMPALK, E. – MERKL, D. The SOM-enhanced JukeBox: Organization and Visualization of Music Collections based on Perceptual Models. Journal of New Music Research. June 2003, 32, 2, s. 193–210. ISSN 09298215. Dostupné z: http://www.extenza-eps.com/extenza/loadHTML?objectIDValue= 16745&type=abstract.

LITERATURA

109

SENFTER, A. Tool Support for Acoustic Evaluation of Music Similarity. Master’s thesis, Vienna University of Technology, 2008. Dostupné z: http://www.ifs. tuwien.ac.at/mir/publications.html. ` SERRA, J. Identification of versions of the same musical composition by processing audio descriptions. PhD thesis, Universitat Pompeu Fabra, Barcelona, 2011. Dostupné z: http://www.mtg.upf. edu/static/media/Serra-Joan-PhD-Thesis-2011.pdf. TDX link: http://hdl.handle.net/10803/22674. SERRA, X. A System for Sound Analysis/Transformation/Synthesis based on a Deterministic plus Stochastic Decomposition. PhD thesis, Stanford University, 1989. Dostupné z: http://www.mtg.upf.edu/files/publications/ PhD-Thesis-1989-xserra.pdf. SERRA, X. A Multicultural Approach in Music Information Research. In Int. Soc. for Music Information Retrieval Conf. (ISMIR), Miami, 24/10/11 In Press. ˇÍMA, J. – NERUDA, R. Teoretické otázky neuronových s´ıt´ı. Praha : Mayhfyzpress, S 1996. ISBN 80-85863-18-9. TZANETAKIS, G. – ERMOLINSKIY, A. – COOK, P. R. Pitch Histograms in Audio and Symbolic Music Information Retrieval. In ISMIR, 2002. VESANTO, J. – ALHONIEMI, E. Clustering of the self-organizing map. Neural Networks, IEEE Transactions on. 2000, 11, 3, s. 586–600. WIDMER, G. Guest editorial: Machine learning in and for music. Machine Learning. 2006, 65, 2-3, s. 343–346. Dostupné z: http://springerlink.metapress.com/ content/e22421x642234514/fulltext.pdf. ˇ ZAPLATÍLEK, K. – DONAR, B. MATLAB - zaˇc´ınáme se signály. BEN Praha : Praha: BEN - technická literatura, 2006. ISBN 80-7300-200-0. ZENZ, V. – RAUBER, A. Automatic Chord Detection Incorporating Beat and Key Detection. In Proceedings of the 2007 IEEE International Conference on Signal Processing and Communications (ICSPC 2007). IEEE, 2007. Dostupné z: http://publik.tuwien.ac.at/files/pub-inf_5274.pdf. Vortrag: The 2007 IEEE International Conference on Signal Processing and Communications (ICSPC 2007), Dubai, UAE; 2007-11-24 – 2007-11-27. ZHU, X. – GOLDBERG, A. B. Introduction to Semi-Supervised Learning. Synthesis Lectures on Artificial Intelligence and Machine Learning. San Francisco, CA ,USA : Morgan & Claypool Publishers, 2009.

Mendelova univerzita v Brně Provozně ekonomická fakulta. Aplikace moderních metod klasifikace zvukových dat

Recommend Documents