Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Obsah prezentace • • • • • • •

Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií Indexace televizních zpráv Řečová syntéza Vyhledávání v audio záznamech AMI projekt

Dolování dat z multimediálních databází

2

Úvod – multimediální DB • Slouží pro ukládání: Audio, video, obraz, text • Pracují s nimi: WWW, systémy zpracování řeči (rozpoznání, syntéza), systémy video-on-demand, systémy pro práci s obrazy (fotografie, lékařské snímky), systémy hlasových schránek, indexace televizních zpráv… • Nároky: velké objemy dat, specializované indexační a vyhledávací algoritmy, poskytování dat v reálném čase bez výpadků


3

Úvod – dolování v MM DB • Práce s pravděpodobností. Standardní relační (text) DB buď ano nebo ne. Video a zvuk (nekonečně mnoho realizací (binárních) konkrétní informace) → míra věrohodnosti, podobnosti (pravděpodobnost). • Nutnost použití abstrakce – Techniky pro omezování velikosti prostoru (dekorelace, komprimace) – Techniky pro výběr reprezentantů (shlukování) – Modelování objektů (wavelety, HMM)

• Trénování modelů • Předzpracování (časově náročné) Dolování dat z multimediálních databází

4

Úvod – struktura systému Znalosti

Agregace Specializované znalosti Data mining

Extrakce

Samostatná média •Text •Zvuk •Video Multimediální data Dolování dat z multimediálních databází

5

Úvod – struktura systému • Multimediální data: např. video (televizní zprávy). • Extrakce: Prostorové rozložení objektů, detekce a identifikace osob, pohyb kamery a detekce záběrů, segmentace hudba-řeč-ticho, identifikace mluvčího, rozpoznání řeči (přepis do textové podoby), detekce titulků. • Data mining: Získání specializovaných znalostí z jednotlivých extrahovaných „médií“. • Agregace: Obecná znalost získaná spojením informací ze specializovaných znalostí. Dolování dat z multimediálních databází

6

Podobnostní vyhledávání • Vyhledávání podobností v multimediální databázi • Založené na popisu (description-based): – Data se indexují pomocí klíčových slov, titulku (popisu), velikosti, času vytvoření, … – Náročné pro manuální zpracování, nízká kvalita u automatického zpracování.

• Založené na obsahu (content-based): – Data se indexují pomocí histogramu barev, tvaru, textury, objektů, FFT nebo wavelet transformace, … – Aktuálně nejčastěji používané řešení, lze dosáhnout slušných výsledků. Dolování dat z multimediálních databází

7

Vyhledávání založené na obsahu • Sample-based queries: Podobnost na úrovni bodů (vzorků) – nízká abstrakce. Obrázek je podvzorkován na např. 64x64, a bod po bodu porovnáván s ostatními. • Feature specification queries: Podobnost na úrovni vlastností (parametrů) – vyšší abstrakce. – Histogram barev – Detekce textur, tvaru, umístění – Wavelet (FFT) transformace: možnost granularity, detekce složitých struktur – Kombinace různých parametrů: wavelet + histogram + textury + … Dolování dat z multimediálních databází

8

Dolování asociačních pravidel • Pokud je alespoň 50% horní části obrazu modrá, pravděpodobně zobrazuje oblohu. Asociace obsahu obrazu a klíčového slova. • Pokud obraz obsahuje 2 modré čtverečky, pravděpodobně obsahuje červené kolečko. Asociace mezi objekty v obraze. (mohou být i prostorové) • Pokud video obsahuje záběr obličeje člověka na neměnném pozadí, člověk pravděpodobně mluví. Asociace mezi videem a audiem.


9

Rozdíly s transakčními DB • Obrazy s podobnými vlastnostmi při určitém rozlišení, mohou mít při vyšším rozlišení vlastnosti rozdílné. Možnost použití postupného zjemňování rozlišení. • Rozdílné vnímání počtu objektů. • Existence prostorových vztahů mezi objekty. • Rozhodování o splnění kritérií (obraz je podobný jinému obrazu) funguje na principu prahování funkce maximum likelihood (viz. příklad detekce klíčových slov).


10

Příklad 1. Fotografie • WALRUS systém: WAvLet-based Retrieval of Userspecified Scenes (článek z roku 1999) • Standardní jednoduché systémy tvoří vektor příznaků z celého obrázku (histogramy, textury, wavelety). Selhání u obrázků obsahující podobné objekty ale různě umístěné, zmenšené, atd.. • Řešení pomocí plujícího okna. – – – –

Vektor příznaků pro každé plující okénko Shlukování plujících okének → regiony Porovnání regionů pro celou DB (R*-tree) Porovnání obrázků podle počtu a podobnosti regionů Dolování dat z multimediálních databází

11

Příklad 1. WBIIS (starší systém)


12

Příklad 1. WALRUS (novější systém)


13

Příklad 2. Televizní noviny • Určení struktury televizních novin (články z roku 2000 a 2002) • Rozklad televizních novin na jednotlivá témata a dále na záběry • Možnost získání klíčových snímků • Popis jednotlivých segmentů • Identifikace osob podle obličeje, detekce pohybu kamery, rozpoznávání gest, identifikace komentátora podle řeči, rozpoznání textu v obraze (titulky) Dolování dat z multimediálních databází

14

Příklad 2. Televizní noviny • Video (prostorový obsah): – Ekvivalentní k Příkladu 1 (histogramy, wavelets, objekty, …)

• Video (časový obsah): – Pohyb kamery, přibližování, střih, … – Pohyb objektů v obraze – Rozdělení obrazu na segmenty, v každém segmentu se sleduje směr vektorů pohybu

• Audio: – Detekce řečové aktivity (ticho, řeč, hudba, šum), identifikace mluvčího, rozpoznání řeči

• Text: – Rozpoznání textových titulků Dolování dat z multimediálních databází

15

Příklad 2. Televizní noviny


16

Příklad 3. Řečová syntéza • TTS systémy pracující nad daty. • Velká databáze řeči, indexování, vyhledávání. • Různé stupně složitosti (spojování jednotek, kontextová závislosti, prozodická omezení). • Metody prozodické analýzy pracující nad daty (vyhledávání JAK říci dané slovo).


17

Příklad 4. Detekce slov • Dolování z audio záznamu – Segmentace (ticho, řeč, hudba), segmentace na mluvčí (crosstalk) – Identifikace jazyka, identifikace mluvčího, věk, pohlaví, stress, … – Rozpoznání řeči (LVCSR, fonémový rozpoznávač, detekce klíčových slov) – Rozpoznávače mají problémy se slovy, které nejsou ve slovníku (OOV) (málo pravděpodobné slovo může nést hodně informace – jména, názvy, …) – Proto se používají systémy pro detekci klíčových slov (OOV)


18

Audio information retieval system Audio DB Vyhledávací jádro

Vlastní aplikace KWS

segmentace řeč/ticho/ostatní segmentace řečníků

LVCSR DB indexů

Odhad pohlaví Ident. řečníka

DB modelů

Odhad věku Ident. jazyka


19

KWS system • Parametrizace vstupních dat (signálové předzpracování; segmentace; MFCC, PLP, …). • Trénování modelů – Akustické modely (slovní, fonémové (kontext)). – Jazykové modely (n-gramy).

• Rozpoznávání – Řetězce slov (fonémů), Lattice slov (fonémů) – Maximum likelihood funkce, prahování, detekce


20

Příklad KWS systému


21

Příklad 5. AMI AMI – Augmented Multi-party Interaction • Inteligentní správce meetingů • Multimodální vstupní rozhraní (vícejazyčné audio a video), smart meeting room • Audio vizuální sledování účastníků meetingu • Modelování dialogů, interakce člověk-člověk • Abstrakce obsahu, strukturování informací, indexování, vyhledávání a sumarizace • Záznam a správa záznamů meetingů, přístup k informacím přes síť Dolování dat z multimediálních databází

22

AMI & MM data mining • • • • •

Rozpoznávání gest a akcí z videa Odvozování emocí a úmyslů z audia a videa Robustní rozpoznávání neformální konverzační řeči Využívání vedlejších textových informací (slides) Tvorba a distribuce anotované vícekanálové multimodální databáze • Multimodální analýza, integrace a přístup k informacím


23

AMI – sémantický obsah • Následující tabulka ukazuje vztah mezi sémantickým obsahem meetingu a výstupu jednotlivých rozpoznávačů • Po abstrakci by měl být schopen vytvořit: – Souhrn meetingu – Index meetingu – Odpovědět na otázky: • Jaký byl závěr meetingu? • Jaká byla nálada na meetingu? • Co se stalo? • Jaký byl průběh diskuze? • Kdo se zůčastnil meetingu? • Byl splněn program jednání? Dolování dat z multimediálních databází

24

AMI – sémantický obsah


25

Literatura • • • • •

J. Han and M. Kamber, Data Mining: Concepts and Techniques A. Natsev, R. Rastogi and K. Shim, WALRUS: A similarity Retrieval Algorithm for Image Databases (1999) M. Detyniecki and C. Marsala, Fuzzy Multimedia Mining Applied to Video News (2002) K. Shearer, C. Dorai and S. Venkatesh, Incorporating Domain Knowlage with Video and Voice Data Analysis in News Broadcasts (2000) AMI – Annex 1 „Description of Work“ (2003)


26

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Recommend Documents