Dolování dat z multimediálních databází Ing. Igor Szöke Speech group ÚPGM, FIT, VUT
Obsah prezentace • • • • • • •
Co jsou multimediální databáze Možnosti dolování dat v multimediálních databázích Vyhledávání fotografií Indexace televizních zpráv Řečová syntéza Vyhledávání v audio záznamech AMI projekt
Dolování dat z multimediálních databází
2
Úvod – multimediální DB • Slouží pro ukládání: Audio, video, obraz, text • Pracují s nimi: WWW, systémy zpracování řeči (rozpoznání, syntéza), systémy video-on-demand, systémy pro práci s obrazy (fotografie, lékařské snímky), systémy hlasových schránek, indexace televizních zpráv… • Nároky: velké objemy dat, specializované indexační a vyhledávací algoritmy, poskytování dat v reálném čase bez výpadků
Dolování dat z multimediálních databází
3
Úvod – dolování v MM DB • Práce s pravděpodobností. Standardní relační (text) DB buď ano nebo ne. Video a zvuk (nekonečně mnoho realizací (binárních) konkrétní informace) → míra věrohodnosti, podobnosti (pravděpodobnost). • Nutnost použití abstrakce – Techniky pro omezování velikosti prostoru (dekorelace, komprimace) – Techniky pro výběr reprezentantů (shlukování) – Modelování objektů (wavelety, HMM)
• Trénování modelů • Předzpracování (časově náročné) Dolování dat z multimediálních databází
4
Úvod – struktura systému Znalosti
Agregace Specializované znalosti Data mining
Extrakce
Samostatná média •Text •Zvuk •Video Multimediální data Dolování dat z multimediálních databází
5
Úvod – struktura systému • Multimediální data: např. video (televizní zprávy). • Extrakce: Prostorové rozložení objektů, detekce a identifikace osob, pohyb kamery a detekce záběrů, segmentace hudba-řeč-ticho, identifikace mluvčího, rozpoznání řeči (přepis do textové podoby), detekce titulků. • Data mining: Získání specializovaných znalostí z jednotlivých extrahovaných „médií“. • Agregace: Obecná znalost získaná spojením informací ze specializovaných znalostí. Dolování dat z multimediálních databází
6
Podobnostní vyhledávání • Vyhledávání podobností v multimediální databázi • Založené na popisu (description-based): – Data se indexují pomocí klíčových slov, titulku (popisu), velikosti, času vytvoření, … – Náročné pro manuální zpracování, nízká kvalita u automatického zpracování.
• Založené na obsahu (content-based): – Data se indexují pomocí histogramu barev, tvaru, textury, objektů, FFT nebo wavelet transformace, … – Aktuálně nejčastěji používané řešení, lze dosáhnout slušných výsledků. Dolování dat z multimediálních databází
7
Vyhledávání založené na obsahu • Sample-based queries: Podobnost na úrovni bodů (vzorků) – nízká abstrakce. Obrázek je podvzorkován na např. 64x64, a bod po bodu porovnáván s ostatními. • Feature specification queries: Podobnost na úrovni vlastností (parametrů) – vyšší abstrakce. – Histogram barev – Detekce textur, tvaru, umístění – Wavelet (FFT) transformace: možnost granularity, detekce složitých struktur – Kombinace různých parametrů: wavelet + histogram + textury + … Dolování dat z multimediálních databází
8
Dolování asociačních pravidel • Pokud je alespoň 50% horní části obrazu modrá, pravděpodobně zobrazuje oblohu. Asociace obsahu obrazu a klíčového slova. • Pokud obraz obsahuje 2 modré čtverečky, pravděpodobně obsahuje červené kolečko. Asociace mezi objekty v obraze. (mohou být i prostorové) • Pokud video obsahuje záběr obličeje člověka na neměnném pozadí, člověk pravděpodobně mluví. Asociace mezi videem a audiem.
Dolování dat z multimediálních databází
9
Rozdíly s transakčními DB • Obrazy s podobnými vlastnostmi při určitém rozlišení, mohou mít při vyšším rozlišení vlastnosti rozdílné. Možnost použití postupného zjemňování rozlišení. • Rozdílné vnímání počtu objektů. • Existence prostorových vztahů mezi objekty. • Rozhodování o splnění kritérií (obraz je podobný jinému obrazu) funguje na principu prahování funkce maximum likelihood (viz. příklad detekce klíčových slov).
Dolování dat z multimediálních databází
10
Příklad 1. Fotografie • WALRUS systém: WAvLet-based Retrieval of Userspecified Scenes (článek z roku 1999) • Standardní jednoduché systémy tvoří vektor příznaků z celého obrázku (histogramy, textury, wavelety). Selhání u obrázků obsahující podobné objekty ale různě umístěné, zmenšené, atd.. • Řešení pomocí plujícího okna. – – – –
Vektor příznaků pro každé plující okénko Shlukování plujících okének → regiony Porovnání regionů pro celou DB (R*-tree) Porovnání obrázků podle počtu a podobnosti regionů Dolování dat z multimediálních databází
11
Příklad 1. WBIIS (starší systém)
Dolování dat z multimediálních databází
12
Příklad 1. WALRUS (novější systém)
Dolování dat z multimediálních databází
13
Příklad 2. Televizní noviny • Určení struktury televizních novin (články z roku 2000 a 2002) • Rozklad televizních novin na jednotlivá témata a dále na záběry • Možnost získání klíčových snímků • Popis jednotlivých segmentů • Identifikace osob podle obličeje, detekce pohybu kamery, rozpoznávání gest, identifikace komentátora podle řeči, rozpoznání textu v obraze (titulky) Dolování dat z multimediálních databází
14
Příklad 2. Televizní noviny • Video (prostorový obsah): – Ekvivalentní k Příkladu 1 (histogramy, wavelets, objekty, …)
• Video (časový obsah): – Pohyb kamery, přibližování, střih, … – Pohyb objektů v obraze – Rozdělení obrazu na segmenty, v každém segmentu se sleduje směr vektorů pohybu
• Audio: – Detekce řečové aktivity (ticho, řeč, hudba, šum), identifikace mluvčího, rozpoznání řeči
• Text: – Rozpoznání textových titulků Dolování dat z multimediálních databází
15
Příklad 2. Televizní noviny
Dolování dat z multimediálních databází
16
Příklad 3. Řečová syntéza • TTS systémy pracující nad daty. • Velká databáze řeči, indexování, vyhledávání. • Různé stupně složitosti (spojování jednotek, kontextová závislosti, prozodická omezení). • Metody prozodické analýzy pracující nad daty (vyhledávání JAK říci dané slovo).
Dolování dat z multimediálních databází
17
Příklad 4. Detekce slov • Dolování z audio záznamu – Segmentace (ticho, řeč, hudba), segmentace na mluvčí (crosstalk) – Identifikace jazyka, identifikace mluvčího, věk, pohlaví, stress, … – Rozpoznání řeči (LVCSR, fonémový rozpoznávač, detekce klíčových slov) – Rozpoznávače mají problémy se slovy, které nejsou ve slovníku (OOV) (málo pravděpodobné slovo může nést hodně informace – jména, názvy, …) – Proto se používají systémy pro detekci klíčových slov (OOV)
Dolování dat z multimediálních databází
18
Audio information retieval system Audio DB Vyhledávací jádro
Vlastní aplikace KWS
segmentace řeč/ticho/ostatní segmentace řečníků
LVCSR DB indexů
Odhad pohlaví Ident. řečníka
DB modelů
Odhad věku Ident. jazyka
Dolování dat z multimediálních databází
19
KWS system • Parametrizace vstupních dat (signálové předzpracování; segmentace; MFCC, PLP, …). • Trénování modelů – Akustické modely (slovní, fonémové (kontext)). – Jazykové modely (n-gramy).
• Rozpoznávání – Řetězce slov (fonémů), Lattice slov (fonémů) – Maximum likelihood funkce, prahování, detekce
Dolování dat z multimediálních databází
20
Příklad KWS systému
Dolování dat z multimediálních databází
21
Příklad 5. AMI AMI – Augmented Multi-party Interaction • Inteligentní správce meetingů • Multimodální vstupní rozhraní (vícejazyčné audio a video), smart meeting room • Audio vizuální sledování účastníků meetingu • Modelování dialogů, interakce člověk-člověk • Abstrakce obsahu, strukturování informací, indexování, vyhledávání a sumarizace • Záznam a správa záznamů meetingů, přístup k informacím přes síť Dolování dat z multimediálních databází
22
AMI & MM data mining • • • • •
Rozpoznávání gest a akcí z videa Odvozování emocí a úmyslů z audia a videa Robustní rozpoznávání neformální konverzační řeči Využívání vedlejších textových informací (slides) Tvorba a distribuce anotované vícekanálové multimodální databáze • Multimodální analýza, integrace a přístup k informacím
Dolování dat z multimediálních databází
23
AMI – sémantický obsah • Následující tabulka ukazuje vztah mezi sémantickým obsahem meetingu a výstupu jednotlivých rozpoznávačů • Po abstrakci by měl být schopen vytvořit: – Souhrn meetingu – Index meetingu – Odpovědět na otázky: • Jaký byl závěr meetingu? • Jaká byla nálada na meetingu? • Co se stalo? • Jaký byl průběh diskuze? • Kdo se zůčastnil meetingu? • Byl splněn program jednání? Dolování dat z multimediálních databází
24
AMI – sémantický obsah
Dolování dat z multimediálních databází
25
Literatura • • • • •
J. Han and M. Kamber, Data Mining: Concepts and Techniques A. Natsev, R. Rastogi and K. Shim, WALRUS: A similarity Retrieval Algorithm for Image Databases (1999) M. Detyniecki and C. Marsala, Fuzzy Multimedia Mining Applied to Video News (2002) K. Shearer, C. Dorai and S. Venkatesh, Incorporating Domain Knowlage with Video and Voice Data Analysis in News Broadcasts (2000) AMI – Annex 1 „Description of Work“ (2003)
Dolování dat z multimediálních databází
26