Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky
Informační systémy a technologie
Výzkumný záměr MSM235200005
Průběžná zpráva za rok 2003 o řešení výzkumného záměru DCSE/TR-2004-11
Plzeň, leden 2004
Zodpovědný řešitel: Doc. Ing. Karel Ježek, CSc.
Řešitelský kolektiv: Doc. Ing. Karel Ježek, CSc. Ing. David Andrš Doc. Ing. Josef Bokr, CSc. Ing. Přemysl Brada, MSc., PhD. Ing. Pavel Čírtek Dr. Ing. Karel Dudáček Ing. Kamil Ekštein Ing. Petr Grillinger Ing. Petr Grolmus Doc. Ing. Pavel Herout, Ph.D. Ing. Jiří Hynek Ing. Roman Jokl Ing. Jaroslav Kačer Doc. Dr. Ing. Jana Klečková Ing. Michala Kotlíková Ing. Jana Krutišová Ing. Jiří Ledvina, CSc. Ing. Tomáš Maršálek Ing. Hana Mašková Ing. Michal Merta Ing. Martin Moučka Prof. Ing. Václav Matoušek, CSc. Ing. Pavel Mautner, PhD. Ing. Roman Mouček Ing. Arnoštka Netrvalová Ing. Pavel Nový, PhD. Ing. Maxmilián Otta, PhD. Ing. Ladislav Pešička Ing. Lukáš Petrlík, PhD. Doc. Ing. Stanislav Racek, CSc. Ing. Ondřej Rohlík Prof. Ing. Jiří Šafařík, CSc. Ing. Martin Šimek, PhD. Ing. Marek Šoule Ing. Karel Taušer, Doc. Ing. František Vávra, CSc. Ing. Martin Zíma, PhD
Webové služby a distribuované zpracování dat v prostředí sítě Internet s využitím mobilních agentů Řešitelé: Ladislav Pešička, Martin Šimek Kromě výzkumu systémů mobilních agentů byly zkoumány nové technologie určené pro tvorbu webových služeb a distribuovaných aplikací umožňujících vzájemnou komunikaci a výměnu dat v heterogenním prostředí. Pro ověření navrženého systému byla vytvořena metodika, která se později použije při testování implementace systému. Byla zkoumána interakce mezi entitami systému pomocí metodiky vzdáleného volání procedur a interakce migrací agenta. Jako výkonnostní parametry systému byly zvoleno „zatížení sítě“ a „doba výpočtu“. Zatížení sítě je parametr, který zohledňuje počet bytů přenesených během interakce entit systému. Doba výpočtu je celkový čas, potřebný k dokončení interakce mezi entitami. Nejdříve byla rozpracována „jednoduchá“ interakce entit tj. interakce pouze mezi dvěma entitami. Odvozené vztahy byly posléze použity pro odvození vztahů pro sled interakcí, tedy „reálného“ použití systému. Ze závěrů vyplívá, že nejvýhodnější je použití jak interakce migrací agenta tak interakce metodikou vzdáleného volání procedur tj. jejich kombinací. Používání „čisté“ migrace agenta není nejvhodnější metodikou. Proto bude vhodné do návrhu systému začlenit i komunikační část. Dále byla zkoumána oblast výpočetních gridů s využitím Globus Toolkit 3. Zvláštní pozornost byla věnována možnosti přístupu mobilních uživatelů k výpočetnímu gridu. Mobilní uživatel by měl mít možnost připojení k výpočetnímu gridu z libovolného uzlu sítě a možnost monitorovat stav probíhajících výpočtů, spouštění nových úloh a prezentaci výsledků. Nejprve byl nastudován mechanismus interakce gridových služeb založených na OGSI specifikaci a jejich odlišnost oproti architektuře webových služeb. Dále byly zkoumány programové prostředky pro tvorbu gridových služeb, způsob návrhu s výchozí definicí GWSDL dokumentu nebo deklarací rozhraní v jazyce Java. V další části byla zkoumána možnost využítí mobilních agentů pro alokaci nejvhodnějšího výpočetního zdroje (gridové služby). Získané poznatky budou využity pro návrh architektury výpočetního gridu s možností přístupu mobilních uživatelů a pro provedení referenční implementace tohoto systému. Související publikace: [1] Pešička, L.; Šimek, M.: Modeling of communication of asynchronous distributed components. In: MOSIS '03. Ostrava, MARQ , 2003. s. 51-56. ISBN 8085988860. [2] Šimek, M.: Extension of security policy in Java-based mobile agent systems. In: The 7th World Multiconference on Systemics, Cybernetics and Informatics. Orlando : IIIS, 2003. s. 383-387. ISBN 980-6560-01-9. [3] Šimek, M.; Pešička, L.: A performance model of interactions in mobile agent systems. In: MOSIS '03. Ostrava, MARQ, 2003. s. 93-100. ISBN 8085988860. [4] Pešička, L. The protection of mobile agent system against a malicious behaviour. In: Advanced Simulation of Systems. Ostrava, MARQ, 2003. s.309-314. ISBN 80-85988-88-7.
Vývoj metod pro ověřování specifikovaných vlastností distribuovaných systémů a programů pro RT aplikace Řešitelé: Stanislav Racek, Pavel Herout, Přemysl Brada, Petr Grillinger, Jaroslav Kačer + PhD. studenti V rámci výzkumného záměru je vyvíjena a implementována simulační metodika určená k ověření (testování) správné funkce reaktivních programových systémů určených zejména pro vestavěné aplikace počítačového řízení. Důležitou vlastností metodiky je, že ověřovaný program (reprezentovaný přímo svým zdrojovým kódem - uvažované jazyky C, C++, Java) je samostatnou součástí modelu a lze jej po ověření relativně snadno přenést z modelu přímo do implementačního prostředí příslušné aplikace. Dále je možné respektovat dynamické vlastnosti chování programu, tj. doby trvání jednotlivých fází jeho dynamických složek (procesů, vláken). Ověřovaný program je v interakci s přiměřeně věrným (sub)modelem svého operačního okolí . V roce 2003 byly principy vyvíjené simulační metodiky ověřovány v rámci realizace modelu distribuovaného systému určeného pro bezpečnostně kritické řídicí aplikace (hard realtime safety-critical applications ) a založeného na využití protokolu TTP/C. Model byl vytvořen v rámci řešení projektu EU/IST – FIT (Fault Injection for Time Triggered Architecture) a v rámci výzkumného záměru je dále rozvíjen a modifikován. V roce 2003 byla navržena generická flexibilní struktura simulačního modelu složeného z nezávislých programových komponent. Převedení dosavadních verzí modelu do unifikované struktury je plánováno na rok 2004. Dále je pro rok 2004 plánován výzkum možností vývoje RT aplikací Javy (Java-based embedded applications) v modelovém prostředí. V dané oblasti výzkumu byla v roce 2003 obhájena jedna habilitační práce: Herout, P.: Ověření funkce systémů odolných proti poruchám metodou simulací. Habilitační práce, ZČU Plzeň: 2003. 129 s. Související publikace: [1] Čírtek, P.; Racek, S.: The fault injector tool as the C-Sim component. In: MOSMIC 2003 – Modelling and Simulation in Management, Informatics and Control. Žilina : EDIS, 2003. s. 31-36. ISBN 80-8070-139-3. [2] Grillinger, P.: Simulation verification of fault-tolerant brake-by-wire system. In: Industrial Simulation Conference 2003. Delft, EUROSIS , 2003. s. 206-210. ISBN 9077381031 . [3]
Grillinger, P.; Herout, P.: Simulation tool for functional verification of TTP/C-based systems. In: Simulation in Industry. Valencia, Spain: SCS , 2003. s. 122-130. ISBN 3936150-28-1.
[4] Grillinger, P.; Racek, S.: Simulation of temporal faults in time triggered systems. In: ECMS 2003 - 6th International Workshop on Electronics, Control, Measurement and Signal. Liberec, Czech rep. : Technical University , 2003. s. 284-288. ISBN 807083708X .
[5] Herout, P.; Racek, S.; Hlavička, J.: A method of functional verification of reliable embeded computer system. In: Proceedings University of West Bohemia in Pilsen. Plzeň, Czech rep.: Západočeská univerzita , 2003. s. 33-44. ISBN 8070829494 . [6] Racek, S.; Grillinger, P.: Testing properties of safety-critical systems using C-Sim tool. In: The 7th World Multiconference on Systemics, Cybernetics and Informatics. Orlando, Florida : IIIS, 2003. s. 276-281. ISBN 980-6560-01-9. [7] Racek, S.; Herout, P.: Safety critical control applications based on TTP/C protocol services. In: ICCC 2003 - Proceedings of International Carpathian Control Conference, High Tatras, Slovakia, 2003. s. 570-573. ISBN 8070995092 . [8] Racek,S.; Herout, P.: Počítačový řídicí systém automobilu a problematika jeho spolehlivosti. In: Výpočtová mechanika 2003, Plzeň : Západočeská univerzita, 2003. s. 383-388. ISBN 807082-999-0.
Vývoj výpočetních modelů a programových prostředků pro paralelní a distribuované výpočty. Řešitelé: Jiří Šafařík, Přemysl Brada, Lukáš Petrlík, Stanislav Racek, Jaroslav Kačer, Pavel Herout, + PhD. studenti V této oblasti probíhal vývoj původní metody ladění vícevláknových aplikací v jazyce Java. Metoda a k ní vyvíjený nástroj využívají serializaci chodu vláken, a nevyžadují žádné změny ve zdrojovém kódu aplikace. Práce je ve stadiu návrhu a implementace ověřování prototypové implementace ladicího nástroje a získávání experimentálních podkladů pro návrh metodiky ladění [4], [5]. Pokračoval vývoj simulačního nástroje C-Sim, který je implementačním prostředkem pro simulační postupy verifikace paralelních a distribuovaných systémů (viz předchozí část). Byla publikována nově vytvořena verze 5.0 tohoto nástroje [3]. Dále je do tohoto okruhu řešení zařazena problematika formální specifikace simulačních modelů, interaktivní simulace, heterogenní distribuované simulace ([6], [7]) a obecná problematika tvorby simulačních nástrojů a jejich aplikací [1], [2], [8], [9], [10]. Byla zpracována nová témata Ph.D prací pro doktorské studium v popisované oblasti a byli přijati tři interní doktorandi. Dále byly v roce 2003 v dané oblasti výzkumu obhájeny dvě disertační práce: • J.Rovner: Fault-tolerant SOFA framework • J.Valdman: Log file analysis
Související publikace: [1] Grillinger, P.; Kačer, J.: Java model of basic algebraic structures.In: Advanced Simulation of Systems. Ostrava : MARQ, 2003. s. 253-257. ISBN 80-85988-88-7. [2] Hartman, D.; Kačer, J.: JUTS – J-Sim urban traffic simulator. In: Proceedings of the Second International Conference on the Principles and Practice of Programming in Java. Dublin : Computer Science Press, Trinity College , 2003. s. 113-113. ISBN 0954414519 . [3] Jokl, R.; Racek, S.: C-Sim version 5.0. In: Third International Conference on Application of Concurrency to System Design, Guimares, Portugal: IEEE Computer Society , 2003. s. 229230. ISBN 0769518877. [4] Kačer, J.: Discrete-time process-oriented simulation with J-Sim. In Recent Advances in Java Technology. Dublin : Computer Science Press, Trinity College , 2003. s. 21-30. ISBN 0954414500. [5] Kačer, J.; Koutný, T.; Codl, D.: Comparison-evaluation of Java-based discrete-time simulation tools. In: Modelling and Simulation of Systems. Ostrava : MARQ , 2003. s. 125130. ISBN 80-85988-86-0. [6] Koutný, T.; Šafařík, J.: Load-balancing using autonomous co-operating nodes. In: SympoTIC´03. Bratislava: Slovak Technical University, 2003. s. 153-155. ISBN 0-78037993-4.
[7] Šafařík, J.; Solčány, V.: Towards a user-friendly parallel simulator of discrete-event systems. In: Proceedings of International Carpathian Control Conference. Košice : Technical University , 2003. s. 381-384. ISBN 8070995092 . [8] Valdman, J.: The GLAM model of log file analysis. In The 7th World Multiconference on Systemics, Cybernetics and Informatics. Orlando : IIIS, 2003. s. 433-438. ISBN 980-656001-9. [9] Valdman, J.: A systematic approach to log file analysis: the glam model. In: Proceedings University of West Bohemia in Pilsen. Plzeň : Západočeská univerzita , 2003. s. 95-108. ISBN 8070829494. [10] Valdman, J.: Testing and simulation using log file analysis. In: Advanced Simulation of Systems. Ostrava : MARQ , 2003. s. 109-112. ISBN 80-85988-88-7.
Databázové a znalostní systémy Řešitelé: Karel Ježek, Jiří Hynek, Petr Grolmus Cílem výzkumu v dané oblasti byl vývoj prostředků pro efektivní přístup k digitálním informacím, usnadňující orientaci uživatelů a vyhledávání dokumentů v distribuovaném prostředí Webu. Původní klasifikační metoda Itemsets byla modifikována na alternativní metodu induktivního strojového učení, která je kombinací naivní Bayesovy metody a metody Itemsets. Stručně ji lze popsat buďto jako metodu Itemsets používající ke klasifikaci naivní Bayesův klasifikátor, nebo jako naivní Bayesův klasifikátor využívající aproximace vlastních dokumentů častými množinami položek. Implementace této nové robustní metody je poměrně nenáročná. Metoda byla testována na kolekci Reuters-21578 a ČTK. V článku [1] jsou prezentovány výsledky dokladují kvality navrhované metody. Byl navržen Systém ProGen [2] a implementovány jeho základní části. Jeho účelem je generování uživatelských profilů na základě stránek navštívených na Internetu. Získání seznamu těchto dokumentů je podmíněno instalací vytvořeného paketového filtru na klientské stanici. Navštívené dokumenty jsou staženy off-line a z nich je vytvořen zájmový profil (soubor charakteristických frází) daného uživatele. K nalezení častých frází z dokumentů je použit algoritmus Suffix Tree Clustering. Vytvořený uživatelský profil je použit k naplnění primárního cíle systému, kterým je vyhledávání a doporučování uživatelem dosud nenavštívených dokumentů odpovídajících jeho profilu. Dalším cílem systému je vyhledávání doménových expertů. Systém byl z důvodu nedostatečného množství referenčních dat experimentálně testován na kolekcích Reuters Corpus Volume One (RCV1), 20Newsgroups (obsah elektronických konferencí) a české kolekci ČTK. Výsledky jsou prezentovány ve formě přesnosti a úplnosti. Přesnost zařazení relevantních dokumentů se v závislosti na nastavení vstupních parametrů pohybuje v rozmezí 85 až 98 %. Důraz byl kladen na dosažení co nejvyšších hodnot přesnosti na úkor úplnosti, neboť cílem je doporučovat uživateli raději menší počet dokumentů (nižší hodnota úplnosti) při zachování co nejvyšší podobnosti s jeho profilem. Pro nalezení relevantních dokumentů se předpokládá použití některého internetového vyhledávacího robota (např. Google). Tomuto stroji bude předán uživatelský dotaz sestavený na základě vygenerovaného profilu. Dokumenty nabízené jako odpověď na tento dotaz jsou následně staženy a zpětně porovnány s původním profilem. Uživateli budou nabídnuty jen relevantní dokumenty seřazené sestupně podle podobnosti s jeho profilem. Uživatelské profily identifikované systémem ProGen se budou dále kombinovat s automatickým sumarizátorem pro vytváření indikativních abstraktů (na základě frází charakterizujících uživatele) z nalezených dokumentů. Automatické generování abstraktů je proto další oblastí výzkumu na Katedře informatiky a výpočetní techniky ZČU. V roce 2003 byla implementována a testována sumarizační metoda založená na metodě Itemsets [3]. Související publikace: [1] Kučera, M.; Ježek, K.; Hynek J.:: Text Categorization Using NBCI Method (in Czech), ZNALOSTI 2003, Proc. pp.33-42, VŠB Technická univerzita Ostrava, ISBN80-248-0229-5 [2] Grolmus, P.; Hynek, J.; Ježek, K.: User Profile Identification Based on Text Mining. Proc. of 6th Int. Conf. ISIM’03, pp. 109-118. MARQ Ostrava, ISBN 80-85988-84-4 [3] Hynek, J.; Ježek, K.: Practical Approach to Automatic Text Summarization, ELPUB 2003 Proc. the 7. ICCC/IFIP Conf., Universidade do Minho Portugal, pp. 378-388, ISBN 97298921-2-1
Diplomové a bakalářské práce: [4] Řebíček, L.: Automatické stanovení profilu uživatele a jeho využití pro filtraci dokumentů, KIV Plzeň, 2003 [5] Ondráček, Z.: Automatická sumarizace textů, KIV Plzeň, 2003 [6] Jiřinec, J.: Problematika shlukování textových dokumentů, KIV Plzeň 2003
Návrh strukturních modelů statistických logických objektů a aplikovaná dvouhodnotová logika Řešitel : Josef Bokr Protože se při návrhu binárních statických logických strukturních modelů zadávají boolovské výstupní funkce často ve tvaru boolovských (Žegalkinových) polynomů, a protože přátelské jsou především normální disjunktivní formule (ndf), je vhodné disponovat postupem převodu polynomů na ndf i naopak. Vypracovaná prostá procedura využívá s výhodou Karnaughových map, přičemž pro výstupní funkce více než šestimístné lze použít rovněž Quinovu a McCluskeyovu minimalizační proceduru. Obdobně, jsou-li výstupní funkce obvodu symetrické, resp. majoritní, lze aplikovat vyvinutý prostý postup s Karnaughovou mapou vedoucí k nalezení příslušných minimálních ndf. Běžně se řízený logický technologický objekt (TO) pokládá za dynamický. Uvedené pojetí TO lze objasnit tak, že subjekt identifikující TO se jednak inspiroval sekvenčními logickými zpětnovazebními obvody a jednak se volky nevolky stává součástí systému automatického logického řízení, hrajíc roli řídicího automatu (ŘA). Protože však nemá smysl řídit dynamický objekt, stačí pozorné pozorování TO, aby bylo zřejmé, že TO je jen potenciálně dynamický. Modelem ŘA je podle Gluškova sekvenční automat zpravidla Mealyho typu, který svými stavovými přechody (iniciovanými stavy TO) kopíruje stavové přechody v TO. Vedle zmíněného pojetí ŘA existuje koncepce ŘA podle Bellmana: ŘA je totiž statický automat, minimální co do počtu stavů ŘA Gluškova. Oba typy ŘA však nejsou s to se vyrovnat se situací, kdy se v požadované stavové trajektorii na TO vyskytne stabilní stav pro ŘA produkované řízení a je žádoucí tímtéž řízením stabilní stav opustit. Tvrdí se však také, že jedinou příčinou stavového přechodu v TO je řízení, přičemž ani přechodová relace, spec. funkce, TO nic podobného netvrdí. Přechody v TO vykonávají výchozí stavy přechodů prostřednictvím aktorů, a řízení zmíněné přechody jen iniciuje. Řešení je pak nasnadě: do zpětné vazby k potenciálně dynamickému TO zařadíme statický ŘA, který event. vybavíme podpůrnými paměťmi, jsou-li čidla na TO impulsová a subjekt pak podnětem pro ŘA vybírá požadovanou stavovou trajektorii na TO. Cílem výzkumu bylo usnadnit návrh jednak logických statických obvodů a jednak strukturního modelu řídicího automatu. Související publikace: [1] Bokr, J.; Jáneš, V.: Some Interesting Applications of the Karnaugh map. Acta Electrotechnica et Informatica, No. 3, vol. 3, 2003, ss. 22 - 27, [2] Bokr, J.: Identifikacija upravljaemogo technologičeskogo objekta i upravljajuščego ustrojstva, logičeskoje upravlenije. In: Sborník III. mezinárodní konference Matematické modelování ve vzdělávání, vědě a ve výrobě 2003, Tiraspol 16. – 21. IX. 2003, ss. 27 - 28
Modul rozpoznávání slov systému komunikace s počítačem v přirozeném jazyce Řešitelé: Kamil Ekštein, Václav Matoušek, David Andrš, Vilém Beneš, Tomáš Pavelka Prototypovací systém LINGVO/LASER byl koncem roku 2003 doveden do stádia, kdy již umožňuje jednoduše a rychle vytvářet doménově závislé rozpoznávače souvislé řeči na základě gramatiky ve formátu BNF. Součástí systému jsou také jednoduché experimentální moduly sémantické analýzy a extrakce významu promluv (prozatím založené na technice word spotting), takže je možné konstruovat jednoduché ukázkové dialogové systémy, jako např. hlasem ovládanou aplikaci DOD@live, která v rámci Dne otevřených dveří informovala příchozí po položení příslušného dotazu o možnostech studia na KIV. Také byla vytvořena ukázková aplikace LChess, tj. hlasem ovládaná šachová hra. Systém LINGVO/LASER je vysoce modulární a může tudíž sloužit (a slouží) k testování vyvíjených algoritmů parametrizace řečového signálu, akusticko-fonetické analýzy, syntaktické a sémantické analýzy a řízení dialogu. Systém přirozeně interaguje se standardním softwarovým vybavení v této oblasti výzkumu, tj. s HTK/ATK, MATLABem, atd. V průběhu roku 2003 bylo dokončeno pořizování korpusu LICS AudioCorpus 2003 (LAC 2003). Jedná se o nahrávky promluv 90 mluvčích (40 mužů, 50 žen) v celkové délce 103 minut. Korpus byl ovšem pořízen v nepříliš vhodném akustickém prostředí a proto je znehodnocen mnoha ruchy, šumem a značnou reverberací. Nicméně práce na tomto korpusu odhalila četná úskalí procesu pořízení akustického korpusu a umožnila vytvoření metodologie pro nahrávání budoucích korpusů. Díky té bylo možno se při práci na korpusu LICS AudioCorpus HP (High Precision) vyvarovat předchozích chyb. Pro záznam byl vytvořen specializovaný software LASER Interactive Recorder (LRecorder), který umožňuje proces záznamu korpusu maximálně automatizovat a účinně napomáhá obsluze zajistit vysokou kvalitu nahrávky (provádí testy na limitaci signálu, celkovou úroveň zisku, atd.). Nový korpus LAC HP byl pořízen v audio/video studiu CIV ZČU za použití nejlepší dostupné techniky (headsety AKG, Plantronics, SoundBlaster Extigy). Obsahuje v současné době 2540 vět od 62 mluvčích (14 mužů, 48 žen) v celkové délce 146 minut. Korpus se dělí na dvě části: LAC HP Chess (věty z oblast šachu) a LAC HP Phonetic (věty obsahující všechny fonémy v alespoň minimálním zastoupení – slouží k natrénování doménově nezávislého akusticko-fonetického dekodéru). Při práci na rozpoznávači LASER (zejm. parametrizačním modulu LAFE – LASER Acoustic Front-End) byla navržena metoda detailní, řízené analýzy spekter mikrosegmentů řečového signálu. Cílem takové analýzy je získání hypotézy o příslušnosti mikrosegmentu k fonetické třídě, což umožňuje zvýšení spolehlivosti rozpoznávání statistickými metodami zamítáním některých hypotéz statistického klasifikátoru. Řízená spektrální analýza umožňuje např. určení znělosti fonému ze spektra mikrosegmentu se 100%-ní spolehlivostí. Velmi spolehlivě lze také určit, zdali charakter spektra odpovídá fonému rezonantnímu (samohlásce, nosovce, likvidě) nebo šumovému (frikativě, neznělé okluzivě). Pro zápis fonetického inventáře byl navržen jazyk PDL (Phoneme Description Language) a vytvořen jeho parser. Fonetický inventář zapsaný v PDL je pak vstupem do daty řízeného modulu, který na základě řízené spektrální analýzy produkuje expertní znalosti, které lze využít v dalších modulech systému LINGVO/LASER. Spektrální analýza je řízená v tom smyslu, že skript v jazyce SACL (Spectral Analysis Control Language) určuje, jaká oblast spektra se má prohledávat a jaké akustické fenomény by měla obsahovat, aby mohl být daný foném zařazen do hypotézy.
V průběhu práce na jednotlivých modulech systému LINGVO/LASER byly shromažďovány poznatky o interakci modulů a jejich optimální integraci v jeden funkční celek. Tyto údaje pak byly využity k návrhu architektury celého systému. Testy provedené s již hotovými moduly prokázaly výhodnost předávání všech informací získaných v určité fázi zpracování řečových dat dalším modulům – tato koncepce tzv. šířících se znalostí (Spreading Knowledge) umožňuje např. zvýšit přesnost rozpoznávání: Modul parametrizace řečového signálu určuje metodami spektrální analýzy, příp. autokorelací fundamentální hlasivkovou frekvenci a na základě toho pak rozhodne, zda je mluvčí muž nebo žena. Tato informace je pak šířena po systému: Akusticko-fonetický dekodér ji využije tak, že použije buďto ženské nebo mužské fonetické modely, čímž samozřejmě dosáhne lepšího výsledku, než při použití všech modelů. Modul syntaktické analýzy může na základě takové informace potlačovat gramaticky nesprávné hypotézy (identifikace špatné rodové koncovky, o které nelze bez této znalosti rozhodnout), atd. Byly provedeny testy hybridních architektur rozpoznávacích systémů, zejména na úrovni akusticko-fonetického dekódování. Během testů byla vyhodnocena úspěšnost rozpoznávání při spojení vícevrstvého perceptronu (MLP) s dekodérem s dynamickým borcením času (DTW) a skrytými Markovovými modely. Také byl zjišťován vliv injekce expertních znalostí získaných řízenou spektrální analýzou na úspěšnost rozpoznávání. S dekodérem MLP/DTW se nepodařilo dosáhnout výrazně lepších výsledků, úspěšnost rozpoznání mikrosegmentu se pohybuje okolo 50% (mikrosegmenty rozpoznané jako ticho se do statistiky nepočítají). Všechny experimenty s neuronovými sítěmi jsou komplikovány vysokou výpočetní náročností trénování (desítky hodin na nejlepším dostupném HW). Testy úspěšnosti rozpoznávání slov lze najít v diplomové práci [5]. Experiment s dekodérem MLP/HMM byl proveden se sítí trénovanou na LAC 2003 (cca 40 min). Trénovací data byla označkována automaticky metodou Forced Viterbi Alignment (software HTK). Výstupy sítě byly použity jako vstupy HMM systému s různými počty Gaussovských mixtur. Nejlepší výsledek má systém s 16 mixturami: 64,33 % správně rozpoznaných slov, 40,55 % správně rozpoznaných fonémů. HMM dekodér trénovaný stejnými daty má úspěšnost na fonémech 71,45 %. Testy s injekcí expertních znalostí zatím nelze objektivně vyhodnotit, neboť byly provedeny na malém objemu dat (bylo nutné provádět ručně z důvodů nevhodného rozhraní asynchronního markovského dekodéru). Testy s rozpoznáváním řeči parametrizované metodou TIDOSA dopadly oproti očekávání velmi špatně – markovský dekodér je prakticky nepoužitelný na takto předzpracovaných datech, protože metoda TIDOSA transformuje časovou osu zobrazovaného prostoru nelineárně a ani velmi komplexní rozbor problému neukázal cestu, jak tyto dvě techniky vhodně spojit. Knihovna algoritmů na zpracování digitálního signálu LASERLib, která vznikla v rámci přípravy a implementace prototypovacího systému LINGVO/LASER, byla dále použita k vývoji softwarového signálového procesoru pro pokusy v oblasti psychoakustiky. Aplikace pracuje v reálném čase a jako vstup snímá data ve formátu PCM ze zvukové karty. Tato data jsou okamžitě transformována (zpoždění cca 3 ms) a zaváděna opět na výstup. Jeden z experimentů, který procesor umožňuje provádět, je resyntéza řeči s náhodným rozložení spektrální energie při zachování celkové míry informace, tj. signál na výstupu obsahuje stejné množství informace jako vstupní signál, ale jeví se člověku jako nesrozumitelný. Aplikace je pochopitelně konfigurovatelná, takže ji lze nastavit pro celou řadu jiných způsobů zpracování signálu, např. pro simulaci pásmové filtrace v kochleárních implantátech, apod. Cílem výzkumu v dané oblasti bylo nalezení vhodné architektury systému pro automatické rozpoznávání spojité řeči a její implementace s ohledem na pozdější využití
v dialogových systémech a vývoj prototypovacího systému, který by umožnil jednoduchý a časově nenáročný vývoj hlasem ovládaných aplikací. Související publikace: [1] Ekštein, K.; Mouček, R.: Time-Domain Structural Analysis of Speech, In Proceedings of CICLing 2003, Mexico City, Feb 2003. [2] Ekštein, K.; Mouček, R.: Detection of Relevant Speech Features using Driven Spectral Analysis, In Proceedings of the 4th International PhD Workshop, Spa Libverda, Czech Republic, Sept. 2003. [3] Ekštein, Kamil; Matoušek, Václav; Mouček, Roman: Hybrid analytic/ANN-based acousticphonetic decoding. In: Elektronische Sprachsignalverarbeitung. Dresden, Universitätsverlag & Buchhandel, 2003. ISBN 3-935712-83-9. S. 14-21 [4] Ekštein, Kamil; Matoušek, Václav; Pavelka, Tomáš: Automatic segmentation and labeling of speech signal. In: Elektronische Sprachsignalverarbeitung, Tagungsband der 14. Konferenz, Dresden, w.e.b. Universitätsverlag & Buchhandel, 2003. ISBN 3-935712-83-9. S. 75-81 Diplomové práce: [5] Pavelka, T.: Implementation of Hybrid Speech Recognizer. Diplomová práce, Západočeská univerzita v Plzni, 2003
Návrh modulu lingvistické analýzy, dialog-manageru a modulu generování systémových odpovědí dialogového informačního systému Řešitelé: Roman Mouček, Karel Taušer, Václav Matoušek V rámci zpracování modulu lingvistické analýzy dialogového informačního systému byla věnována pozornost zejména sémantickému zpracování spontánních řečových promluv účastníka dialogu, návrhu a implementaci modelu sémantické reprezentace a ověření vhodnosti této reprezentace použitím metod sémantické interpretace. Byl rozšířen korpus spontánních promluv účastníka komunikace (cca 100 kompletních dialogů v rámci zpracovávaných domén + cca 2.500 úvodních dotazů, nejsou zahrnuty promluvy generované programovými nástroji). Byl vytvořen softwarový balík pro analýzu vstupních spontánních promluv a reprezentaci těchto promluv pomocí sémantických konceptů. Sémantická reprezentace promluvy respektuje syntaktickosémantické elementární větné struktury češtiny založené na propozičních typech. Dále byly respektovány nejnovější požadavky z oblasti neurověd (organizace sémantické paměti, funkční systémy jazyka a řeči lidského mozku) a zkušenosti z vývoje dialogově orientovaných aplikací. Sémantické hierarchie navržené lokálně i v rámci domén byly finálně implementovány v XML. Byla navržena pravidla sémantické interpretace a částečně implementována (Java, C#). Pro generování odpovědí byla sestavena množinA UCG struktur, které strukturně popisují promluvy pro oblast dopravních spojení a dále promluvy užívané během šachové partie. Pro sémantickou reprezentaci těchto výstupních promluv byla sestavena množina UFO struktur, které zároveň slouží jako interface mezi modulem generování odpovědí a dialogovým managerem. UFO struktury jsou navrhovány ve vytvořeném pomocném modulu, který pak generuje sekvence deklarací struktur jazyka C. Dále byl rozpracován algoritmus na rekurzivní generování syntaktických prvků výstupních promluv, který pro vstupní sémantickou reprezentaci nalezne odpovídající UCG strukturu a rekurzivním procházením argumentů sestavuje ortografickou podobu promluvy. Související publikace: [1] Mouček, R., Ekštein, K.: Corpus Construction within Linguistic Module of City Information Dialogue System, In Proceedings of CICLing 2003, Mexico City, Feb 2003. [2] Mouček, R., Ekštein, K.: Utterance Models in Dialogue Systems, In Proceedings of the 4th International PhD Workshop, Spa Libverda, Czech Republic, Sep 2003. [3] Ekštein, K., Mouček, R.: Detection of Relevant Speech Features using Driven Spectral Analysis, In: Proceedings of the 4th International PhD Workshop, Spa Libverda, Czech Republic, Sep 2003. [4] Ekštein, Kamil; Hitzenberger, Ludwig; Klečková, Jana; Krutišová, Jana; Kubišta, Jana; Matoušek, Václav; Mouček, Roman; Taušer, Karel: Novel communication concepts for municipal information services. In: SoftCOM 2003 : International conference on software, telecommunications and computer networks. University of Split, 2003. ISBN 953-6114-64X. S. 705-709 Diplomové práce: [5] Beneš, V.: Sémantická analýza doménově roztříděných dialogů, Diplomová práce, Západočeská univerzita v Plzni, 2003
Generický dialogový systém LINGVO Řešitelé: David Andrš, Vilém Beneš, Václav Matoušek, Karel Taušer Cílem výzkumu v projektu LINGVO bylo vytvoření generického systému rozpoznávání řečového signálu. Naplnění tohoto cíle předpokládá dokončení jednotlivých podcílů, kterými byly: pořízení korpusu, vytvoření generátoru vět. Korpus byl pořizován v audio/video studio CIV. Cílem bylo získat korpus 100 mluvčích (50 mužů a 50 žen). Korpus má dvě části označené LAC-HP Chess a LAC-HP Phonetic. První část zahrnuje věty s málo frekventovanými fonémy (celkem 15 vět), druhá část zahrnuje věty pro ovládání šachové hry (celkem 25 vět). K 18.12.2003 bylo nahráno 14 mužů a 48 žen. Celková délka nahrávek je 146 minut. Hlavním úkolem byla organizace nahrávání, vedlejším úkolem bylo i samotné kvalitní nahrávání. Generátor vět na bázi šablon má usnadňovat trénování jazykových modelů. Věty jsou generovány z šablony, ve které je gramatikou popsáno, jak lze jednotlivé věty derivovat z počátečního symbolu. Jednotlivá pravidla gramatiky mají přiřazenu pravděpodobnost, která vyjadřuje, jak často se pravidlo uplatňuje. Dále je v rámci pravidla umožněno zadat pravděpodobnost, se kterou se uplatňují jednotlivé symboly na jeho pravé straně. Další vhodnou vlastností, je vkládání jedné šablony do druhé, čímž se ušetří doba potřebná pro vytvoření šablony popisující celou doménu. Přidruženým projektem k projektu LINGVO je projekt LingvoChess. Jeho cílem je vyvinout multimodální aplikaci, a to hru člověka s šachovým strojem. Aplikace bude ovládána jak klasickými vstupními zařízeními (myš, klávesnice), tak hlasovým vstupem. Aplikace sestává z několika hlavních bloků. Jsou jimi šachový stroj, vizualizce hry, systém rozpoznávaní hlasu. Byl použit již hotový šachový stroj s názvem Crafty. Systém rozpoznávání hlasu je postupně vyvíjen v rámci projektu LINGVO. Blok vizualizace hry je jádrem celého projektu. Hlavními úkoly je komunikace s šachovým strojem, čtení jednotlivých povelů uživatele (zadaných myší, klávesnicí, hlasem). Původně se zamýšlelo použití již hotového vizualizačního nástroje (eboard, příp. winboard) a skloubit tak jednotlivé části jedním centrálním blokem. Bohužel nevýhoda těchto vizualizačních nástrojů spočívá v tom, že předpokládají vstup pouze z klávesnice, příp. myši, což je pro multimodální aplikaci nevhodné. Nejde v nich ani simulovat vstup z jiného zdroje. Tím se staly nepoužitelnými a proto jsme přistoupili k vlastní implementaci vizualizačního nástroje. Jeho obrovskou výhodou je, že lze snadno doprogramovat funkce, které budou zapotřebí pro hlasové ovládání. V současnosti (počátek roku 2004) je jádro herního systému v dokončovací fázi a s ním je paralelně vyvíjen vizualizační blok hry. Jsou prováděny testy funkčnosti, především kooperace jádra a vizualizační části. Dílčí úkol extrakce slov z fonetických sítí měl za cíl získat slovní graf z fonetické sítě. Tato část je přechodem mezi rozpoznávačem a blokem jazykových modelů. Má za úkol připravit vstupní data pro blok jazykových modelů, jimiž jsou slovní mříže. Rozpoznávač (předřazený blok) může pracovat ve dvou módech. Může rozpoznávat fonémy nebo slova. Při rozpoznávání slov je použita gramatika, rozpoznané věty jsou tedy vždy správně, vyhovují totiž gramatice. Potom ztrácí smysl použití bloku jazykových modelů. Pokud rozpoznávač rozpoznává fonémy, není svázán gramatikou a použití jazykových modelů je nutné. Na výstupu rozpoznávače je fonetická síť, ve které se hledají slova. Protože síť je fonetická, je velmi rozsáhlá. Vyhledávání celých slov, která mohou být i velice dlouhá, má exponenciální složitost (používá se obdoba
jazykových modelů, ovšem místo slov se používají fonémy), je proces vyhledávání všech slov náročný. Ná základě těchto zjištění se přešlo k dvoufázovému vyhledávání slov. V první fázi se vyhledají krátké segmenty (2-4 písmenné), které se v druhé fázi složí ve slova. Práce na dvoufázovém vyhledávání slov již byly zahájeny a jejich dokončení se předpokládá v roce 2004. Související publikace: [1] Ekštein, Kamil; Hitzenberger, Ludwig; Klečková, Jana; Krutišová, Jana; Kubišta, Jana; Matoušek, Václav; Mouček, Roman; Taušer, Karel: Novel communication concepts for municipal information services. In: SoftCOM 2003 : International conference on software, telecommunications and computer networks. University of Split, 2003. ISBN 953-6114-64X. S. 705-709 Diplomové práce: [2] Andrš D.: Programová realizace robustního klasifikátoru slov na bázi stochastických jazykových modelů. KIV ZČU Plzeň, 2003
Vývoj robustních metod klasifikace vícerozměrných automatickou verifikaci podpisů a rozpoznávání rukopisu
aperiodických
signálů
pro
Řešitelé: Václav Matoušek, Pavel Mautner, Tomáš Maršálek, Ondřej Rohlík, Marek Šoule Výzkum byl v roce 2003 zaměřen na zpracování signálů poskytovaných třemi typy speciálního biometrického pera s využitím pro verifikaci podpisu a pro rozpoznávání psaného textu. Předmětem problému verifikace podpisu je rozhodnout, zda daný podpis je či není autentický. Toto rozhodnutí je provedeno na základě porovnání podpisu s databází autentických podpisů (podpisových vzorů). Existují dva významné problémy které bylo třeba vyřešit. Prvním je otázka, jak klasifikovat podpisy do dvou tříd, když klasifikátor je možno trénovat jen daty jedné třídy (autentickými podpisy). Nelze totiž předpokládat, že budoucí uživatelé klasifikátoru (např. banky) budou uměle vytvářet falešné podpisy ke každé sadě autentických podpisů, a to jen proto, aby mohli natrénovat klasifikátor. Druhým problémem verifikace podpisů je určení vhodných příznaků, tj. hodnot, které podpis co nejlépe charakterizují. Tyto příznaky jsou používány v několika metodách rozpoznávání (při tzv. extrakci příznaků) a jejich správný výběr tvoří podstatnou část provedených výzkumných prací. Diplomová práce [12] se zabývala experimentálním ověřením použitelnosti Kohonenovy samoorganizující mapy pro verifikaci podpisů pořizovaných speciálním perem MechPen. Bylo navrženo několik sad příznaků, které byly testovány. Testováno bylo také různé nastavení parametrů neuronové sítě. Úspěšnost verifikace se pohybovala mezi 89 a 96% podle zvolených příznaků a nastavení parametrů sítě. Pro testy byly používána data pořízená na jaře 2003. Data bohužel nebyla dostatečně reprezentativní, jelikož nepočítala s faktem, že pisatel uchopí pero pokaždé jinak. Proto byl během podzimu 2003 proveden další sběr dat, v kterém už byly podpisy prováděny i s odstupem času (1 a 2 dny). Dále byly „simulováno“ rozdílné uchopení pera tím, že pisatel vždy mezi jednotlivými podpisy pero položil a znovu ho uchopil. Byly prováděny také podpisy vstoje, které simulují podepisování např. u okénka v bance. Z experimentů byl učiněn závěru, že při použití jednoduchých příznaků nedochází k výrazným změnám v příznakovém popisu podpisů prováděných vsedě a vstoje, které by měly vliv na úspěšnost verifikace. To však nelze říci o podpisech vytvořených s odstupem času. Pisatel totiž při pořizování trénovacích podpisů a první sady testovacích vytvořil přibližně 40 podpisů během krátké doby. Za tuto dobu se jeho podpis ustálil a měl určitou relativně stejnou podobu. Bohužel druhý den má pisatel jiné fyzické i psychické rozpoložení a z toho důvodu neuchopí pero zcela stejně jako předchozí den a i přítlak a rychlost podepisování může být jiná, např. díky únavě po probdělé noci. Uvedených závěrů bylo dosaženo na základě analýzy signálů popsaných příznaky použitými ve zmíněné diplomové práci, proto pro jiné příznaky nejsou vyloučeny jiné výsledky. Z grafologického hlediska by se měly podpisy pořízené vsedě a vstoje výrazně lišit. Naproti tomu v podpisech provedených s odstupem času by měly být rozpoznatelné stejné vlastnosti. Zjišťování těchto vlastností a jejich reprezentace pomocí příznaků bude náplní dalšího výzkumu. Pro rozpoznávání izolovaných písmen byla nejprve použita metoda k-nejbližších sousedů a vytváření příznaků klasickými metodami. Jelikož použitím klasického příznakového popisu nebylo dosaženo potřebné spolehlivosti rozpoznávání, byly v dalším postupu použity příznaky získané z popisu signálu vybranými strukturními elementy signálu, pomocí momentových invariant a konečně koeficienty waveletové transformace. Problém rozpoznávání celých slov je obtížný především v tom, že pro správnou funkci klasifikátoru je nutné buď nashromáždit velmi
velký soubor dat (desetitisíce slov) nebo slova analyzovat písmeno po písmenu, ovšem za cenu vysoké chybovosti. V rozpoznávání slov bylo dosaženo úspěšnosti 78 až 92%. Cílem výzkumu v této oblasti v této oblasti je vyvinout takové metody a algoritmy, které by v budoucnu umožnily částečné nebo úplné nahrazení klávesnice, neboť výzkumy v oblasti ergonomie jasně ukazují, že pořizování textů perem je pro člověka přirozenější a pohodlnější. Úloha rozpoznávání rukopisu je však vzhledem k tomu, jak většinou píšeme, úlohou nesmírně obtížnou. Zatímco problém rozpoznávání textu psaného hůlkovým písmem se podařilo v uplynulých třech letech vcelku uspokojivě vyřešit aplikací klasických metod rozpoznávání a dosaženou spolehlivost rozpoznávání jednotlivých písmen přesahující nyní 92 % lze dále ještě zvýšit vylepšením metody extrakce příznaků, postupným rozšiřováním databáze slovních modelů sloužících ke korekcím rozpoznávaných posloupností znaků a dalším zdokonalováním použitého jazykového modelu, rozpoznávání běžného (souvislého) rukopisu zůstává i nadále otevřeným problémem. Jeho obtížnost spočívá především v tom, že pro správnou funkci klasifikátoru bude nutné buď nashromáždit velmi velký soubor dat (desetitisíce slov) nebo slova analyzovat znak po znaku, ovšem s tím, že kontextová závislost jednotlivých znaků je u každého z nás specifická a bude ji třeba řešit samostatně. Samostatným problémem řešeným v rámci této dílčí úlohy je využití akustické informace získané při psaní biometrickým perem. Cílem výzkumu v této oblasti bylo experimentálně potvrdit či vyvrátit použitelnost nového pera MicPen pro verifikaci podpisů a rozpoznávání izolovaných znaků (slov). K tomuto účelu byl navržena a implementována nová metoda pro verifikaci podpisů a rozpoznávání izolovaných znaků (slov). Při experimentech bylo potvrzeno, že pero MicPen je použitelné pro obě tyto aplikace. Detaily experimentů a zevrubný popis pera lze nalézt v [10]. V rámci experimentů vznikl požadavek na automatizované segmentování získaných dat pro další zpracování. K tomuto účelu byla vyvinuta univerzální metoda pro segmentaci dat vytvořených pery MechPen, OptoPen a MicPen. Metoda umožňuje i uživatelský zásah do automatický nalezených segmentů. Metoda byla dostatečně otestována a je nasazena na segmentaci dat jak pro verifikaci podpisů tak rozpoznávání izolovaných slov. V rámci experimentů bylo zjištěno, že metoda velice urychluje přípravné práce experimentů a proto bude iniciován její další vývoj. Související publikace: [1] Mautner, P., Rohlík, O., Matoušek, V., Kempf, J., Sharfenberg G.: Comparison of Signature Verification Methods for Data Acquisition Pen, Proceedings of 48. International wissenschaftliches Kolloquium, Ilmenau 2003, 03_00_04.pdf [2] Mautner, P., Rohlík, O., Matoušek, V., Kempf, J.: Signature Verification Using Unsupervised Learned Neural Network, Proceeding of the 1. IAPR-TC3 Workshop, Florence, Italy, 2003, pp. 71-75 [3] Mautner, P., Rohlík, O., Matoušek, V., Kempf, J.: Signature Verification Using Selforganizing Feature Map, Proceeding of the 2. International Conference on Computational Inteligence, Robotics and Autonomous Systems (CIRAS), Singapore, 2003, ISSN: 02196131, ps080305.pdf [4] Matoušek, Václav; Mautner, Pavel; Musil, Marek; Rohlík, Ondřej: Hybrid method of feature extraction from biometric signals. In: 48. Internationales Wissenschaftliches Kolloquium. Ilmenau : Technische Universität Ilmenau, 2003. S. 127-128
[5] Mautner, Pavel; Matoušek, Václav; Rohlík, Ondřej; Kempf, Jürgen: Signature verification using unsupervised learned neural networks. In: Artificial Neural Networks in Pattern Recognition : proceedings of the first IAPR-TC3 workshop. Florence : University of Florence, 2003. S. 71-75 [6] Mautner, Pavel; Matoušek, Václav; Rohlík, Ondřej; Kempf, Jürgen: Signature verification using self-organizing feature map. In: CIRAS 2003 [elektronický zdroj]. Singapore : National University of Singapore, 2003. S. 1-4 [7] Mautner, Pavel; Rohlík, Ondřej; Matoušek, Václav; Kempf, Jürgen; Scharfenberg, Georg: Comparison of signature verification methods for data acquisition pen. In: 48. Internationales Wissenschaftliches Kolloquium. Ilmenau : Technische Universität Ilmenau, 2003. S. 147-148 [8] Rohlík, Ondřej; Mautner, Pavel; Matoušek, Václav; Kempf, Jürgen: The new text and graphical input device: compact biometrical data acquisition pen. In: Human-Computer Interaction, IFIP TC13 international conference on human-computer interaction. Amsterdam, IOS Press, 2003. ISBN 1-58603-363-8. S. 872-875 [9] Rohlík, Ondřej; Mautner, Pavel; Matoušek, Václav; Kempf, Jürgen: HMM based handwritten text recognition using biometrical data acquisition pen. In: CIRA2003 [elektronický zdroj] : proceedings 2003 IEEE international symposium on computational intelligence in robotics and automation. Kobe : University of Tsukuba, 2003. ISBN 0-7803-7867-9. S. 950-953 [10] Šoule, M.; Kempf, J.: Handwritten text analysis throug sound. In: Recent Trends in Multimedia Information Processing, Proceedings of the 10th international workshop on systems, signals and image processing, Prague, 2003. - ISBN 80-86645-05-3. - S. 254-257 [11] Šoule, M. On-line Recognition of Handwritten Text, PhD. Study Report, Západočeská univerzita v Plzni, 2003
Diplomové práce: [12] Maršálek T.: Metody verifikace podpisů s využitím neuronových sítí. Diplomová práce, Západočeská univerzita v Plzni, 2003
Inteligentní (robustní) metody zpracování dat Řešitelé: František Vávra, Pavel Nový, Arnoštka Netrvalová, Michala Kotlíková, Hana Mašková. V roce 2003 bylo realizováno jedno možné zobecnění metodiky užití morfologických postupů pro vyhlazování a filtraci v časových řadách. Taková metodika je rozšířena, propracována a používána v oboru zpracování digitalizovaného obrazu. Využití pro jednorozměrné objekty je logickým následkem rozšíření u dvourozměrných objektů. Základem užití tohoto aparátu je min-max algebra. Bylo realizováno i další možné zobecnění spojené s fuzzy přístupy a aparátem teorie svazů. Výsledky jsou demonstrovány výsledky na časových řadách kursů měn. Byla ověřována metodika měření rizika nedosažení resp. opuštění dané hladiny (množiny) realizací skalárního procesu Brownova typu. Model uvažuje analýzu rizika pro jedno i více období. Daný přístup bude aplikován na proces vývoje cen vybraných akcií. Zkoumáním dat z různých netechnických oborů (ekonomie, finančnictví, lékařství, spolehlivost, …) a společných problémů při zpracování byl extrahován pojem dezinformace. Je založen na příslušnosti předmětu klasifikace nějaké třídě (intervalu spolehlivosti, diagnose, předpovědnímu intervalu, rozhodování o budoucí bezporuchovosti, ...). Na schématu klasické klasifikační úlohy lze demonstrovat výše uvedený pojem. Jedna z možností jak určit příslušnost předmětu klasifikace klasifikační třídě t na základě pozorovaného příznakového vektoru x je klasický „test proti pozadí“. Rozhodujeme o příslušnosti ke třídě t pokud platí nerovnost: p( x / t ) > l t , pro vhodně zvolené l t . lg p( x ) Pro posuzování vhodnosti příznaku X pro klasifikaci do třídy t použijeme „střední skóre“ p( x / t ) D(t;X)= ∑ p( x / t ) lg p( x ) x∈X Obdobně pro posuzování vhodnosti příznaku X pro klasifikaci do souboru tříd T = { t1 ,...,t k } užijeme „střední skóre“: p( x / t ) DT(X)= ∑ p( t ) D(t;X)= ∑ p( t )∑ p( x / t ) lg p( x ) t∈T t∈T x∈ X Je zřejmé, že: p( x , t ) = I( X : T ), DT(X)= ∑ ∑ p( x , t ) lg p( x ) p( t ) t∈T x∈X což není nic jiného než Gibbsova, Sillardova, Shannonova, Watanabeho, Turingova, Goodova, Jeffreysova, Kullbackova a Leiblerova informace (Good, I. J.: Mathematical Reiews 52 (1976) s. 294). Z předchozích volných úvah je patrné, že soubor klasifikačních tříd T = { t1 ,...,t k } tvoří universum a klasifikační třídy jsou vlastně souborem elementárních jevů obdobně jako hodnoty příznaku(ů) x ∈ X = { x 1 ,..., x m } na jehož základě klasifikujeme.
S použitím Jensenovy nerovnosti můžeme snadno dokázat I ( X : T ) ≥ 0 a to nezávisle na výběru dvojice X ,T . Ve skutečnosti nám nejsou pravděpodobnosti (hustoty) p( x ,t ), p( x ), p( t ) dostupné a pracujeme s jejich odhady e( x ,t ) ≈ p( x ,t ),e( x ) ≈ p( x ),e( t ) ≈ p( t ) nebo s jejich některou parametrickou reprezentací (také odhadovanou). Klasifikační schopnost příznaku X do souboru tříd T = { t1 ,...,t k } pak „měříme“ na základě zákona velkých čísel e( xi ,t i ) 1 n lg ∑ n i =1 e( xi )e( t i ) pozorování dvojic
^
In( X : T ) =
kde
sčítáme
^
In( X : T ) → ∑ t∈T
přes
jednotlivá ( x i ,t i ) . A proto e( x ,t ) p( x ,t ) lg . Z toho je patrné, že již nemáme zaručenu podmínku ∑ e( x )e( t ) x∈ X ^
nezápornosti. Naopak, velice často se stává, že I n ( X : T ) < 0 . e( xi ,t i ) 1 n lg v sobě implicitně skrývá srovnávací ∑ n i =1 e( xi )e( t i ) studie o počtu úspěšných a neúspěšných klasifikací na pevném rozsahu výběru (trénovacího ^
Výpočet vztahu I n ( X : T ) = ^
nebo testového souboru). Záporná I n ( X : T ) je prvním znakem toho, že byl použit nevhodný, tedy dezinformační model. Cílem výzkumu v dané oblasti bylo zkoumání a rozvoj inteligentních metod zpracování dat s ohledem na zvyšování spolehlivosti jejich výpovědi. Nedílnou součástí prací byl i výzkum příčin nefunkčnosti nebo nespolehlivosti těchto metod. Tato součást se ukázala produktivní. Vedla k zavedení pojmu dezinformace plynoucí z praktické nedostupnosti skutečného modelu. Práce s modelovými odhady pak vede na některé nepředpokládané ale korektní výsledky (záporná shannonovská informace, záporná divergence,…).
Související publikace:
[1] Vávra, F., Nový, P.: Modely údržby, možnosti využití, Konference ČK CIRED 2003, Tábor, (2003). [2] Nový, P., Vávra, F., Kotlíková, M.: Metoda vyšetření hlasového pole a její aplikace, Mezinárodní seminář a sborník DATASTAT'03, Katedra aplikované matematiky PřF MU Brno, Svratka, (2003). [3] Vávra, F., Nový, P., Mašková, H.: Hlasové pole a problém fundamentální frekvence, Mezinárodní seminář a sborník DATASTAT'03, Katedra aplikované matematiky PřF MU Brno, Svratka, (2003). [4] Kotlíková, M., Mašková, H., Netrvalová, A., Nový, P., Vávra, F., Zmrhal, D.: Application of Insurance Methods in Power Engineering, Mezinárodní konference a sborník Aplimat, ISBN 80-227-1813-0, Bratislava, Slovenská republika, (2003). [5] Vávra, F., Nový, P., Mašková, H., Kotlíková, M., Zmrhal, D.: Nonparametric Estimations of Non-Negative Random Variables Distributions, Kybernetika-Volume 39 (2003), Number 3, Pages 341-346, Praha, (2003).
[6] Mašková H.: Probability Modele of Large Data Registers, Mosis ’03, Ostrava 2003. [7] Zmrhal D.: Forecasting Model using the Predictor-Corrector Method, Mosis ’03, Ostrava 2003. [8] Kotlíková M.: Knowledge Mining-Some Critical Notes for Time series. Mosis ’03, Ostrava 2003.
Rozpis čerpání finančních prostředků v roce 2003 Neinvestiční prostředky Cestovné a vložné Drobný hmotný a nehmotný majetek Věcné náklady Zák. pojištění + stravné Mzdy + zák. a soc. poj.
557257,3 186770,2 69713,5 4576 1454683
Čerpáno celkem Dotace na rok 2003 celkem Zbývá
2273000 2273000 0
Investiční prostředky Čerpáno celkem Dotace na rok 2003 celkem Zbývá
100000 100000 0
Souhrnný seznam publikací za rok 2003
1. Čírtek, Pavel; Racek, Stanislav: The fault injector tool as the C-Sim component. In: Modelling and Simulation in Management, Informatics and Control: Proceedings of the international workshop. Žilina : EDIS, 2003. ISBN 80-8070-139-3. S. 31-36 2. Dudáček, Karel; Vavřička, Vlastimil: Experiences of using Hitachi Evaluation Board in laboratory work. In: Applied Electronics 2003: international conference. Pilsen: University of West Bohemia, 2003. ISBN 80-7082-951-6. S. 43-46 3. Ekštein, Kamil; Hitzenberger, Ludwig; Klečková, Jana; Krutišová, Jana; Kubišta, Jana; Matoušek, Václav; Mouček, Roman; Taušer, Karel: Novel communication concepts for municipal information services. In: SoftCOM 2003: International conference on software, telecommunications and computer networks. Split: University of Split, 2003. ISBN 9536114-64-X. S. 705-709 4. Ekštein, Kamil; Matoušek, Václav; Mouček, Roman: Hybrid analytic/ANN-based acoustic-phonetic decoding. In: Elektronische Sprachsignalverarbeitung. Dresden: Universitätsverlag & Buchhandel, 2003. ISBN 3-935712-83-9. S. 14-21 5. Ekštein, Kamil; Matoušek, Václav; Pavelka, Tomáš: Automatic segmentation and labeling of speech signal. In: Elektronische Sprachsignalverarbeitung: tagungsband der 14. konferenz. Dresden: w.e.b. Universitätsverlag & Buchhandel, 2003. ISBN 3-935712-83-9. S. 75-81 6. Ekštein, Kamil; Mouček, Roman: Time-domain structural analysis of speech. In: Computational Linguistics and Intelligent Text Processing: 4th international conference: proceedings. Berlin: Springer, 2003. ISBN 3-540-00532-3. S. 506-510 7. Frank, Milan; Skala, Václav: Graphical interfaces for C#. In: CESCG 2003: proceedings of the 7th central european seminar on computer graphics. Vienna: Vienna University of Technology, 2003. S. 1-10 8. Grillinger, Petr: Simulation verification of fault-tolerant brake-by-wire system. In: Industrial Simulation Conference 2003: 1st international industrial simulation conference 2003. Ghent: EUROSIS, 2003. ISBN 90-77381-03-1. S. 206-210 9. Grillinger, Petr; Herout, Pavel: Simulation tool for functional verification of TTP/Cbased systems. In: Simulation in Industry : 15th European Simulation Symposium. Erlangen: SCS, 2003. ISBN 3-936150-28-1. S. 122-130 10. Grillinger, Petr; Kačer, Jaroslav: Java model of basic algebraic structures. In: Advanced Simulation of Systems: proceedings of the XXVth international autumn colloquium. Ostrava: MARQ, 2003. ISBN 80-85988-88-7. S. 253-257 11. Grillinger, Petr; Racek, Stanislav: Simulation of temporal faults in time triggered systems. In: ECMS 2003: 6th international workshop on electronics, control, measurement and signals. Liberec: Technical University, 2003. ISBN 80-7083-708-X. S. 284-288 12. Grolmus, Petr; Hynek, Jiří; Ježek, Karel: User profile identification based on text mining. In: Information Systems Implementation and Modelling: proceedings of the conference. Ostrava: MARQ, 2003. ISBN 80-85988-84-4, S. 109-116.
13. Hartman, David; Kačer, Jaroslav: JUTS - J-Sim urban traffic simulator. In: Proceedings of the Second International Conference on the Principles and Practice of Programming in Java : PPPJ 2003. Dublin: Computer Science Press, Trinity College, 2003. ISBN 0-9544145-1-9. S. 113 14. Herout, Pavel: Java. 1. vyd. České Budějovice: Kopp, 2003. ISBN 80-7232-209-5. 15. Herout, Pavel: Ověření funkce systémů odolných proti poruchám metodou simulací. Západočeská univerzita: Plzeň, 2003. 16. Herout, Pavel: Simulační metoda testování funkce RT programu odolného proti poruchám. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 381-386 17. Herout, Pavel; Racek, Stanislav; Hlavička, Jan: A method of functional verification of reliable embeded computer system. In: Proceedings University of West Bohemia in Pilsen. 2002. Plzeň: Západočeská univerzita, 2003. ISBN 80-7082-949-4. S. 33-44 18. Hrádek, Jan; Kuchař, Martin; Skala, Václav: Hash functions and triangular mesh reconstruction. Computers & Geosciences. Vol. 29, č. 6 (2003). ISSN 0098-3006, s. 741-751. 19. Hynek, Jiří; Ježek, Karel: Practical approach to automatic text summarization. In: Proceedings of the 7th ICCC/IFIP International Conference on Electronic Publishing: ELPUB 2003: from information to knowledge. Braga: Universidade do Minho, 2003. ISBN 972-98921-2-1, s. 378-388. 20. Jokl, Roman; Racek, Stanislav: C-Sim version 5.0. In: Third International Conference on Application of Concurrency to System Design: ACSD 2003: proceedings. Los Alamitos: IEEE Computer Society, 2003. ISBN 0-7695-1887-7. S. 229-230. 21. Kačer, Jaroslav: Discrete-time process-oriented simulation with J-Sim. In: Recent Advances in Java Technology: theory, application, implementation. Dublin: Computer Science Press, Trinity College, 2003. ISBN 0-9544145-0-0. S. 21-30 22. Kačer, Jaroslav; Koutný, Tomáš; Codl, David: Comparison-evaluation of Java-based discrete-time simulation tools. In: Modelling and Simulation of Systems: proceedings of the conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 125-130 23. Kohout, Josef; Kolingerová, Ivana: Parallel delaunay triangulation based on circum-circle criterion. In: Spring Conference on Computer Graphics: SCCG 2003: conference proceedings. Bratislava: Comenius University, 2003. ISBN 80-2231837-X. S. 85-93 24. Kotlíková, Michala: Knowledge mining - some critical notes for time series. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 299-304 25. Kotlíková, Michala; Mašková, Hana; Netrvalová, Arnoštka; Nový, Pavel; Vávra, František; Zmrhal, David: Application of insurance methods in power engineering. In: APLIMAT 2003: 2nd international conference. Bratislava: Slovak University of Technology, 2003. ISBN 80-227-1813-0. S. 467-472 26. Koutný, Tomáš; Šafařík, Jiří: Load-balancing using autonomous co-operating nodes. In: SympoTIC´03: joint 1st workshop on mobile future & symposium on trends in communications proceedings. Bratislava: Slovak Technical University, 2003. ISBN 0-7803-7993-4. S. 153-155
27. Kučera, Martin; Ježek, Karel; Hynek, Jiří: Kategorizace textů metodou NBCI. In: Znalosti 2003: sborník příspěvků 2. ročníku konference. Ostrava: VŠB-Technická univerzita, 2003. ISBN 80-248-0229-5. S. 33-42 28. Ledvina, Jiří; Ledvina, Petr; Vavřička, Vlastimil: Design of contactless identification card reader. In: Proceedings of International Carpathian Control Conference: ICCC´2003. Košice: Technical University, 2003. ISBN 80-7099-509-2. S. 345-348 29. Mašková, Hana: Probability models of large data registries. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-8598886-0. S. 199-204 of 30. Matoušek, Václav; Mautner, Pavel; Musil, Marek; Rohlík, Ondřej: Hybrid method feature extraction from biometric signals. In: 48. Internationales Wissenschaftliches Kolloquium. Ilmenau: Technische Universität Ilmenau, 2003. S. 127-128 31. Mautner, Pavel; Matoušek, Václav; Rohlík, Ondřej; Kempf, Jürgen: Signature verification using unsupervised learned neural networks. In: Artificial Neural Networks in Pattern Recognition: proceedings of the first IAPR-TC3 workshop. Florence: University of Florence, 2003. S. 71-75 32. Mautner, Pavel; Matoušek, Václav; Rohlík, Ondřej; Kempf, Jürgen: Signature verification using self-organizing feature map. In: CIRAS 2003 [elektronický zdroj]. Singapore: National University of Singapore, 2003. S. 1-4 33. Mautner, Pavel; Rohlík, Ondřej; Matoušek, Václav; Kempf, Jürgen; Scharfenberg, Georg: Comparison of signature verification methods for data acquisition pen. In: 48. Internationales Wissenschaftliches Kolloquium. Ilmenau: Technische Universität Ilmenau, 2003. S. 147-148 34. Mouček, Roman; Ekštein, Kamil: Corpus construction within linguistic module of city information dialogue system. In: Computational Linguistics and Intelligent Text Processing : 4th international conference: proceedings. Berlin: Springer, 2003. ISBN 3-540-00532-3. S. 406-409 35. Partyk, Martin; Polec, Jaroslav; Kolingerová, Ivana: Hybrid scheme with triangulations for transform coding. Radioengineering. Vol. 12, č. 3 (2003). ISSN 12102512, s. 42-45. 36. Partyk, Martin; Polec, Jaroslav; Kolingerová, Ivana; Březina, Anton: Triangulations in a hybrid scheme for shape independent transform coding. In: Advanced Concepts for Intelligent Vision Systems. Ghent: Ghent University, 2003, s. 137-141 37. Parus, Jindřich: Mesh morphing. In: STUDENT EEICT 2003: proceedings of the international conference and competition. Brno: University of Technology, 2003. ISBN 80-214-2401-X. S. 298-302 38. Parus, Jindřich; Kolingerová, Ivana: Mesh morphing. In: CESCG 2003: proceedings of the 7th central european seminar on computer graphics. Vienna: Vienna University of Technology, 2003. S. 1 39. Pešička, Ladislav: The protection of mobile agent system against a malicious behaviour. In: Advanced Simulation of Systems: proceedings of the XXVth international autumn colloquium. Ostrava: MARQ, 2003. ISBN 80-85988-88-7. S. 309-314 40. Pešička, Ladislav; Šimek, Martin: Modeling of communication of asynchronous distributed components. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 51-56
41. Racek, Stanislav; Čírtek, Pavel: Possibilities of C-Sim programs decomposition using components. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0, S. 87-92. 42. Racek, Stanislav; Grillinger, Petr: Testing properties of safety-critical systems using CSim tool. In: The 7th World Multiconference on Systemics, Cybernetics and Informatics: SCI 2003. Orlando: IIIS, 2003. ISBN 980-6560-01-9. S. 276-281 43. Racek, Stanislav; Herout, Pavel: Počítačový řídící systém automobilu a problematika jeho spolehlivosti. In: Výpočtová mechanika 2003: 19. konference s mezinárodní účastí. Plzeň: Západočeská univerzita, 2003. ISBN 80-7082-999-0. S. 383-388 44. Racek, Stanislav; Herout, Pavel: Safety critical control applications based on TTP/C protocol services. In: Proceedings of International Carpathian Control Conference: ICCC´2003. Košice: Technical University, 2003. ISBN 80-7099-509-2. S. 570-573 45. Rohlík, Ondřej; Mautner, Pavel; Matoušek, Václav; Kempf, Jürgen: The new text and graphical input device: compact biometrical data acquisition pen. In: Human-Computer Interaction: IFIP TC13 international conference on human-computer interaction. Amsterdam: IOS Press, 2003. ISBN 1-58603-363-8. S. 872-875 46. Rohlík, Ondřej; Mautner, Pavel; Matoušek, Václav; Kempf, Jürgen: HMM based handwritten text recognition using biometrical data acquisition pen. In: CIRA2003 [elektronický zdroj]: proceedings 2003 IEEE international symposium on computational intelligence in robotics and automation. Kobe: University of Tsukuba, 2003. ISBN 07803-7867-9. S. 950-953 47. Smlsal, Tomáš; Skala, Václav: DirectX in C#. In: C# and .NET Technologies' 2003: workshop proceedings: the 1st international workshop on C# and .NET Technologies on algorithms, computer graphics, visualization, distributed and WEB computing. Plzeň: UNION Agency-Science Press, 2003. ISBN 80-903100-3-6. S. 71-77 48. Šafařík, Jiří; Solčány, Viliam: Towards a user-friendly parallel simulator of discreteevent systems. In: Proceedings of International Carpathian Control Conference: ICCC´2003. Košice: Technical University, 2003. ISBN 80-7099-509-2. S. 381-384 49. Šimek, Martin: Extension of security policy in Java-based mobile agent systems. In: The 7th World Multiconference on Systemics, Cybernetics and Informatics: SCI 2003. Orlando: IIIS, 2003. ISBN 980-6560-01-9. S. 383-387 50. Šimek, Martin; Pešička, Ladislav: A performance model of interactions in mobile agent systems. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 93-100 51. Šoule, Marek; Kempf, Jürgen: Handwritten text analysis throug sound. In: Recent Trends in Multimedia Information Processing: proceedings of the 10th international workshop on systems, signals and image processing. Prague: Czech Technical University, 2003. ISBN 80-86645-05-3. S. 254-257 52. Uhlíř, Karel; Skala, Václav: The implicit function modeling system - comparison of C++ and C# solutions. In: C# and .NET Technologies' 2003: workshop proceedings: the 1st international workshop on C# and .NET Technologies on algorithms, computer graphics, visualization, distributed and WEB computing. Plzeň: UNION Agency-Science Press, 2003. ISBN 80-903100-3-6. S. 87-92
53. Valdman, Jan: A systematic approach to log file analysis: the glam model. In: Proceedings University of West Bohemia in Pilsen. 2002. Plzeň: Západočeská univerzita, 2003. ISBN 80-7082-949-4. S. 95-108 54. Valdman, Jan: Testing and simulation using log file analysis. In: Advanced Simulation of Systems: proceedings of the XXVth international autumn colloquium. Ostrava: MARQ, 2003. ISBN 80-85988-88-7. S. 109-112 55. Valdman, Jan: The GLAM model of log file analysis. In: The 7th World Multiconference on Systemics, Cybernetics and Informatics: SCI 2003. Orlando: IIIS, 2003. ISBN 9806560-01-9. S. 433-438 56. Vaněček, Petr; Kolingerová, Ivana: Fast delaunay stripification. In: Spring Conference on Computer Graphics : SCCG 2003: conference proceedings. Bratislava: Comenius University, 2003. ISBN 80-223-1837-X. S. 94-100 57. Varnuška, Michal; Kolingerová, Ivana: Improvements to surface reconstruction by the CRUST algorithm. In: Spring Conference on Computer Graphic: SCCG 2003: conference proceedings. Bratislava: Comenius University, 2003. ISBN 80-223-1837-X. S. 101-109 58. Vávra, František; Nový, Pavel; Mašková, Hana; Kotlíková, Michala; Zmrhal, David: Nonparametric estimations of non-negative random variables distributions. Kybernetika. Vol. 39, č. 3 (2003). ISSN 0023-5954, s. 341-346. 59. Vavřička, Vlastimil: RF data channel for standalone contactless card reader. In: ECMS 2003: 6th international workshop on electronics, control, measurement and signals. Liberec: Technical University, 2003. ISBN 80-7083-708-X. S. 403-412. 60. Zmrhal, David: Forecasting model using the predictor-corrector method. In: MOSIS '03: proceedings of the 37th international conference. Ostrava: MARQ, 2003. ISBN 80-85988-86-0. S. 295-298. 61. Žalik, Borut; Kolingerová, Ivana: An incremental construction algorithm for Delaunay triangulation using the nearest-point paradigm. International Journal of Geographical Information Science. Vol. 17, č. 2 (2003). ISSN 1365-8816, s. 119-138.
Diplomové a bakalářské práce:
1. Andrš D.: Programová realizace robustního klasifikátoru slov na bázi stochastických jazykových modelů. KIV ZČU Plzeň, 2003 2. Beneš, V.: Sémantická analýza doménově roztříděných dialogů. KIV ZČU Plzeň, 2003 3. Jiřinec, J.: Problematika shlukování textových dokumentů, KIV ZČU Plzeň, 2003 4. Maršálek T.: Metody verifikace podpisů s využitím neuronových sítí. KIV ZČU Plzeň, 2003 5. Ondráček, Z.: Automatická sumarizace textů. KIV ZČU Plzeň, 2003 6. Pavelka, T.: Implementation of Hybrid Speech Recognizer. KIV ZČU Plzeň, 2003 7. Řebíček, L.: Automatické stanovení profilu uživatele a jeho využití pro filtraci dokumentů, KIV ZČU Plzeň, 2003. 8. Šoule, M.: On-line Recognition of Handwritten Text. Ph.D. Study Report, KIV ZČU Plzeň, 2003