Informační systémy a technologie
Výzkumný záměr MSM235200005
Průběžná zpráva za rok 20000 29.listopadu 2000
Západočeská univerzita Fakulta aplikovaných věd Katedra informatiky a výpočetní techniky Centrum informatizace a výpočetní techniky
Výzkumný záměr MSM235200005
Informační systémy a technologie
Zodpovědný řešitel: Doc.Ing. Karel Ježek, CSc.
Řešitelský kolektiv: Ing. Pavel Herout, Ph.D., Dr.Ing. Jana Klečková, Ing. Jiří Ledvina, CSc., Doc.Ing. Václav Matoušek, CSc., Ing. Pavel Mautner, Ph.D., Ing. Roman Mouček, Ing. Pavel Nový, Ph.D., Ing. Jana Ocelíková, Ph.D., Ing. Jan Okrouhlý, Ing. Ladislav Pešička, Ing. Lukáš Petrlík, Doc.Ing. Stanislav Racek, CSc., Ing. Ondřej Rohlík, Ing. Vladimír Rudolf, Ing. Jiří Sitera, Ing. Martin Šimek, Ing. Karel Taušer, Ing. Jakub Urbanec, Ing.Václav Vais, Doc.Ing. František Vávra, CSc., Ing. Miloš Wimmer,Ing. Vlastimil Vavřička, CSc., Ing. Martin Zíma, Ing. František Zuzák.
Okruhy řešení: I.Programové a technické vybavení distribuovaných výpočetních systémů, paralelní výpočetní systémy a sítě (koordinátor: Doc. Ing. Stanislav Racek, CSc.), II.Informační a databázové systémy, integrace databázových a znalostních systémů, metody analýzy dat, komunikace s počítačem v přirozeném jazyce a dialogové informační systémy (koordinátor: Doc. Ing. Václav Matoušek, CSc.), III.Algoritmy počítačové grafiky a vizualizace dat (koordinátor: Prof. Ing.Václav Skala, CSc.).
-2-
Výzkumný záměr MSM235200005
Informační systémy a technologie
1. Přehled výsledků dosažených v jednotlivých okruzích řešení 1.1. Okruh řešení I - Distribuované výpočetní systémy, paralelní výpočetní systémy a sítě Řešitelé: Doc.Ing.Stanislav Racek, CSc., Ing. Karel Mareš, CSc., Ing. Vladimír Rudolf, Ing. Václav Vais, Ing. Miloš Wimmer, Ing. Martin Chlumský, Ing. Pavel Herout, PhD., Ing. Jiří Ledvina, CSc.,Ing. Jan Okrouhlý, Ing. Jiří Sitera, Ing. Rudolf Griessl, Ing. Tomáš Hrubý, Ing. Luboš Kejzlar, Ing. Jakub Urbanec, Ing. Vlastimil Vavřička, CSc., Dr. Ing. Karel Dudáček
1.1.1 Implementace autentizačního protokolu Kerberos 5 v distribuovaném prostředí ORION Řešitelé: Ing. Luboš Kejzlar, Ing. Martin Chlumský, Ing. Jiří Sitera Otázky bezpečnosti, autentizace a autorizace stojí neustále v popředí zájmu tvůrců i uživatelů moderních výpočetních systémů. Speciálně v oblastech rozsáhlých distribuovaných výpočetních systémů je definice a implementace odpovídající bezpečnostní politiky stále otevřeným problémem. Cílem této části projektu byla implementace autentizačního systému v distribuovaném prostředí ZČU ORION. Bylo nutné zabezpečit systémovou vazbu na tyto základní systémové komponenty: • Jednotný systém autentizace Single Sign On. • Metody vzdáleného přístupu (telnet, ftp, ssh). • Transparentní přístup k datům (distribuovaný souborový systém AFS). • Autentizační systém využívaný WWW servery. • Dodatečné zabezpečení komunikačního kanálu pomocí protokolu SSL (Secure Socket Layer). Byla provedena integrace se systémem dálkového zpracování úloh LSF (Load Sharing Facility) a v rutinním provozu byla ověřena škálovatelnost daného řešení na základě replikace služeb a zavedení inter-domain vztahů důvěry. V rámci implementace v prostředí ZČU byla úspěšně testována návaznost existující infrastruktury na další autentizační mechanismy využívající kryptografii s veřejným klíčem, delegování pravomocí a koncept „proxy“ pověření. Výsledky projektu jsou aktivně rutinně využívány cca 7000 uživateli v rámci ZČU (projekty ORION, ORION NT, ORION Linux) a 300 uživateli v rámci hlavních akademických superpočítačových center). Zkušenosti a implementační výstupy jsou v nějaké podobě využity
-3-
Výzkumný záměr MSM235200005
Informační systémy a technologie
i v lokálních výpočetních prostředích dalších českých univerzit (MU Brno, VUT Brno, UK Praha a další). Další výzkumná a implementační činnost směřovat k autentizačním mechanismům ve výpočetním prostředí typu „grid“, tedy v prostředí, charakteristickém mimo jiné i následujícími vlastnostmi: • Prostředí je tvořeno velkým množstvím geograficky i administrativně oddělených subjektů; jeho rozsah může překračovat hranice instituce. • Objem poskytovaných zdrojů (výpočetní kapacita, diskový prostor, speciální periferie …) je geograficky oddělený. • Jednotlivé výpočetní zdroje mohou vyžadovat značně odlišné mechanizmy autentizace a autorizace. Vlastní publikace: [1] Kejzlar, L.- Chlumský, M. – Sitera, J.: Projekt Orion – základní specifikace projektu. http://home.zcu.cz/orion/orion.html [2] Kejzlar, L.- Chlumský, M. – Sitera, J.: Autentizace uživatelů. http://home.zcu.cz/asc/orion/authenti.htm Použité zdroje: I.Foster and C. Kosselman, editors: The Grid: Blueprint for a Future Computing Infrastructure. Morgan Kaufmann Publishers, 1999. I.Foster, C. Kosselman, G. Tsudik and S.Tuecke: A security architecture for computational grids. In: ACM Conference on Computers and Security, pp 83-91, ACM Press, 1998. E. Belani, A.Vahdat, T.Anderson and M.Dahlin: The CRISIS wide area security architecture. In: Usenix Security Symposium, January 1998. M.Steiner, G.Tsudik and M.Waidner: CLIQUES – A new approach to group key agreement. In: IEEE ICDCS’98, May 1998. http://www.globus.org http://www.egrid.org
1.1.2 Integrace klientů pro přístup k prostředí ORION na standardní platformy - projekty Orion Linux a Orion NT Řešitelé: Ing.Rudolf Griessl, Ing. Jan Okrouhlý, Ing. Tomáš Hrubý Výpočetní prostředí na ZČU v Plzni je postaveno několika standardech klientských platforem. Společnými cíli „projektů skupiny ORION“ je: • •
poskytnout uživatelům univerzitní sítě jednotný přístup ke sdíleným zdrojům univerzitní sítě bez ohledu na to, z které z platforem ke zdrojům přistupují (domovský adresář, poštovní schránka, sdílený souborový systém, veřejné tiskárny, …), maximálně zjednodušit správu koncových uživatelských stanic.
-4-
Výzkumný záměr MSM235200005
Informační systémy a technologie
V oblasti PC jsou na ZČU v současné době nosnými platformami Windows NT a LINUX. Cílem projektu Orion Linux byl návrh struktury a konfigurace OS Linux, který by umožnil: • automatickou instalaci na PC ve veřejných učebnách, • snadnou instalaci privátních stanic, • snadnou správu systému na princip delegováním maximálních pravomocí vlastníku stanice, • provoz veřejných uživatelských serverů, • provoz služebních a specializovaných serverů. Řešení projektu bylo ovlivněno tím, firma Transarc (dodavatel distribuovaného souborovému systému AFS) dlouhou dobu platformu OS Linux nepodporovala plně. Po pokusné fázi s různými distribucemi Linuxu (Slackware, Debian) a různými verzemi jádra. Během roku 1999 byly vytvořeny dvě distribuce Orion-Linux s AFS klientem firmy Transarc. V cílové distribuci bylo plně implementováno autentizační schéma Kerberos 5. V současné době je distribuce v konečné fázi testování a její nasazení do provozu na koncové stanice ve veřejných počítačových laboratoří ZČU lze očekávat do konce roku 1999. Technické podrobnosti jsou prezentovány v [5]. Při rozšiřování množiny podporovaných klientských platforem nebylo možno přehlédnout. komerčně nejperspektivnější systém WindowsNT (a jeho nástupce Windows 2000). Firma Microsoft nabízí spolu se systémem Windows NT i několik strategií a hotových řešení, jak systém začlenit do několika typických výpočetních prostředí používaných zvláště v sítích menšího rozsahu. Žádné z těchto řešení se však nehodí do podmínek sítě ZČU. Proto byla zvolena cesta vlastního vývoje. Počáteční know-how bylo získáno na University of Notre Dame, USA. Základní informace o filosofii projektu OrioNT jsou prezentovány v [2] a [4]. Jedním ze základních požadavků projektu OrioNT je možnost instalovat WindowsNT na na příslušných stanicích. Instalací zde není míněna obecně známá instalace systému z instalačních médií. Požadovaná instalační procedura, musí mít následující vlastnosti: • musí být dostatečně rychlá, • nesmí ovlivnit případné ostatní operační systémy, které mohou být na dané stanici rovněž nainstalovány, • měla by být bezzásahová, neměla by od uživatelů vyžadovat speciální znalosti, • musí respektovat síťové umístění dané stanice, případně její odlišný hardware. Instalační procedura je řešena tak, že na všech stanicích, kde je administrativně dovoleno instalovat Windows NT, lze v menu bootovací paměti najít položku, určenou k instalaci dané architektury NT. V centrální konfigurační databázi stanic je u každé stanice určeno, zda lze Windows NT instalovat. Mohou zde být uloženy i informace o typu instalace a o singulárních atributech dané stanice. Při procesu instalace se využívá linuxové jádro s klientem pro přístup k distribuovanému souborovému systému AFS. Na AFS jádro najde odpovídající instalační obraz – prototyp Windows NT. Tento obraz je přenesen na určený diskový oddíl, čímž je vytvořen jakýsi diskový klon Windows NT, který je dále ještě drobně upraven a aktualizován. Celá instalace trvá řádově několik minut.
-5-
Výzkumný záměr MSM235200005
Informační systémy a technologie
Infrastruktura univerzitní sítě je vystavěna nad distribuovaným prostředím AFS a Kerberos autentizací. Windows NT však samy o sobě nemají vlastní prostředky, které by umožňovaly integraci do takového prostředí. Bylo zvažováno několik možností, jak tyto nesrovnalosti překonat: 1. Replikace (a údržba) paralelní databáze uživatelských účtů na NT Domain Controlleru(ech). 2. Replikace (a údržba) paralelních databází uživatelských účtů na NT Workstations stanicích. 3. Vytvoření autentizačního modulu Windows NT, který by nahrazoval "doménovou" architekturu naší databází AFS/Kerberos uživatelských účtů. 4. Vytvořit náhradu autentizačního "front-end" modulu a tím převzít kontrolu nad NT účty pomocí našich mechanismů. Po analýze všech specifik prostředí Orion a platformy Windows NT byla zvolena varianta číslo 4. Modul GINA (Graphical Identification aNd Authentication).fy Microsoft byl nahrazen speciálně vytvořeným modulem, který zajišťuje funkce nezbytné pro systémovou.integraci do prostředí Orion. Při přihlašování uživatele do OrioNT tedy probíhá autentizace protokolem Kerberos. Na NT stanici je po přihlášení zřízeno dočasné konto pro dobu trvání dané relace. Uživateli je namapován jeho AFS domovský adresář a z něj je přečten jeho uživatelský profil pro Windows NT. Úplná dokumentace projektu je k dispozici v [3], zásadní závěry jsou publikovány v [1]. Rozsáhlou a netriviální problematikou, kterou bylo nutno také řešit, je instalace a aktualizace aplikačního softwaru, a to jak lokálního, tak i centrálně spravovaného. Vlastní publikace: [1] Okrouhlý, J. - Griessl, R.: Windows NT v otevřeném výpočetním prostředí. Sborník konference EurOpen.CZ, Nečtiny, listopad 1999. ISBN 80-902715-0-2. [2] Okrouhlý, J. - Griessl, R.: Projekt OrioNT – základní specifikace projektu. http://home/zcu/oriont [3] Okrouhlý, J. - Griessl, R.: Dokumentace k projektu OrioNT http://home/zcu/oriont/dokumentace/dokumentace.html [4] Okrouhlý, J. - Griessl, R.: Motivace a cíle projektu OrioNT http://home/zcu/oriont/motivace/motivace.html [5] Hrubý, T.: Projekt Linux – základní specifikace projektu. http://home.zcu.cz/orion/linux2 Použité zdroje: University of Notre Dame, Illinois, USA, http://www.nd.edu/~windows/windowsnt/ http://www.nd.edu/~dobbins/ntarch/ State University of New York at Buffalo, http://www.tks.buffalo.edu/dce/dfs/win_nt/nt_gina/nt_gina_over.htm http://www.tks.buffalo.edu/dce/dfs/win_nt/nt_dce_dfs.htm http://www.tks.buffalo.edu/dce/dfs/win_nt/nt_gina/nt_gina.htm
-6-
Výzkumný záměr MSM235200005
Informační systémy a technologie
The Pennsylvania State University http://dsg.cac.psu.edu/Projects/ntw.html http://dsg.cac.psu.edu/WindowsLabs/ The University of Sydney, Australia http://www.arch.usyd.edu.au/~doug/gina.html University of Michigan (Ann Arbor, Michigan, USA): http://www-personal.engin.umich.edu/~itoi/
1.1.3 Využití adresářových služeb při managementu distribuovaného výpočetního prostředí (projekt Pleiades) Řešitelé: Ing. Jiří Sitera Projekt se zabývá adresářovými službami jakožto prostředníkem pro organizaci informací v distribuovaném výpočetním prostředí. Mezi hlavní cíle projektu patří návrh a implementace informační infrastruktury distribuovaného výpočetního prostředí a využití adresářových služeb jako jednotného rozhraní pro organizaci informací a přístup k nim. Více informací o projektu viz publikace [7]. V uplynulém období byly v rámci projektu zkoumány především trendy a nové technologie adresářových služeb. Dále byly práce zaměřeny na návrh prvotních verzí datových modelů, shromáždění podkladů a provedení některých rozhodnutí (volba serverového SW a vývojových nástrojů), návrh a realizace některých testovacích a pilotních projektů. Velmi úzkou vazbu na projekt Pleiades má projekt Maia zabývající se vytvořením nového systému pro správu rozsáhlého distribuovaného výpočetního prostředí. Z hlediska základní vize projektu Pleiades se jedná o klíčový aplikační projekt nad jednotnou informační infrastrukturou. Mimo jiné je v něm prezentována jedna z hlavních výzkumných oblastí, jež byly identifikovány v publikaci [5] – problematika propojení adresářových služeb s úložištěm dat založeným na relačně-databázové technologii. V rámci projektu Pleiades byl zpracován nástin datového a funkčního modelu pro management distribuovaného výpočetního prostředí. Další informace je k dispozici v publikaci [6]. V oblasti využití adresářových služeb v rámci distribuovaného výpočetního prostředí ZČU Orion bylo kromě experimentálního plnění dat v adresářových službách z existujícího managementu (Moira) především navrženo a realizováno ověřovací nasazení LDAPu pro získávání konfiguračních informací při (auto)instalaci stanic. Tato pilotní aplikace se naplno rozběhla v rámci projektu OrioNT. Nejdůležitější výsledky této části výzkumného záměru byly prezentovány v [1] a [2]. Další oblastí výzkumu bylo ověřování a vývoj v oblasti pokročilejších grafických nástrojů pro management dat uložených v adresářových službách (directory browser). Tato oblast je důležitá jako jeden ze stavebních kamenů vize informační infrastruktury sloužící jako rámec nejen pro ukládání dat, ale i pro tvorbu aplikací (viz [5]). Návrh a realizace modulárního LDAP prohlížeče je řešen v zadané diplomové práci, která by měla být obhajována v roce 2000.
-7-
Výzkumný záměr MSM235200005
Informační systémy a technologie
Vlastní publikace: [1] Sitera, J.: Adresářové služby jako informační infrastruktura distribuovaného výpočetního prostředí. Sborník konference EurOpen.CZ, Nečtiny, listopad 1999. ISBN 80-902715-0-2. [2] Sitera, J.: Using LDAP as a Service for Getting Workstation Configuration Information in Distributed Computing Environment. In Proceedings University of West Bohemia 1999 (v tisku). [3] Sitera, J.: Adresářové služby, únor 1999. http://home.zcu.cz/projekty/lps/ldap/AdresaroveSluzby.ps [4] Sitera, J.: Management distribuovaného výpočetního prostředí – ideový náčrt funkční a datové specifikace. http://home.zcu.cz/projekty/lps/ldap/projekt/www/management/navrh [5] Sitera, J.: Projekt Pleiades – stručné shrnutí dosavadních poznatků a plánů, duben 1999. http://home.zcu.cz/projekty/lps/ldap/report3.99.ps [6] Holeček, P.- Sitera, J.: Projekt Maia – domovská stránka. http://home.zcu.cz/projekty/lps/maia [7] Sitera, J.: Projekt Pleiades – základní specifikace projektu. http://home.zcu.cz/projekty/lps/ldap/ldap.html Použité zdroje: Projekt Globus (Meta Directory Services) http://www.globus.org/mds Gregor von Laszewski, Ian Foster: Using of LDAP in Globus, Mathematics and Computer Science Division, Argonne National Laboratory, 1998 http://www/unix.mcs.anl.gov/~laszewsk/papers/ldap_in_globus LTAP (Lightweight Trigger Access Process) http://ltap.bell-labs.com/LTAPTM.doc Stanford University Information Technology Systems and Services, Computing and Communication Services, Distributed Computing Group, Directory Services Project. http://www.stanford.edu/group/networking/directory Directory Enabled Networks Ad Hoc Working Group, http://www.murchiso.com/den Howard L.: An Approach for Using LDAP as a Network Information Service, RFC 2307, March 1998.
1.1.4 Návrh a implementace komplexní infrastruktury pro využití WWW technologií Řešitelé: Ing. Jakub Urbanec, Ing. Miloš Wimmer Cílem tohoto projektu bylo vytvoření podpory pro údržbu informací na informačních serverech pomocí WWW technologií. Jednou z navržených a ověřovaných metod pro dosažení tohoto cíle je centralizovaná správa dokumentů, která bude dostatečně jednoduchá jak pro uživatele, jež systém použijí pro získávání dat, tak i pro správce informací v systému. Další možnou cestou je zřizování dedikovaných www serverů (kupříkladu katedrální www server nebo
-8-
Výzkumný záměr MSM235200005
Informační systémy a technologie
informační server projektu či grantu). V rámci projektu byly řešeny obě zmíněné metody a byly ověřeny v pilotních nasazeních. V rámci řešení centralizované správy dokumentů byly vypracovány dvě pilotní verze projektu: • realizace pomocí SMB - protokolu pro sdílení souborů; toto řešení je dostupné pro všechny podporované platformy v počítačové síti ZČU - Microsoft Windows 3.11, Windows 95 i Windows NT, Linux, • realizace pomocí File-Upload - správa dokumentů je založená na databázi, dynamické tvorbě www stránek a prohledávání; dokumenty jsou do databáze předávany přímo z www prohlížeče; systém obsahuje prostředky na prohledávaní pomocí klíčových slov a udržuje statistiky přístupů. Testovací provoz první varianty ukázal, že operační systém Windows 3.11 jeví při použití SMB protokolu značnou nestabilitu, proto bylo rozhodnuto o úplné realizaci druhého projektu. Decentralizované řešení lze realizovat cestou virtuálních www serverů. Tato metoda umožňuje sdílení jednoho fyzického www serveru řadou správců informací. Univerzitní organizační jednotka, která má požadavek na vytvoření www serveru pouze navrhne jméno tohoto serveru, požadovanou diskovou kapacitu a osobu správce dat. Na základě této specifikace se vytvoří a nakonfiguruje virtuální www server s diskovým prostorem na centrálních univerzitních zdrojích, tedy i. s automatickým zálohováním. Správce dat má plná přístupová práva k této datové oblasti, ale systémová správa serveru je prováděna specialistou z centrální univerzitní Laboratoře počítačových systémů. Pilotní projekt virtuálních www serverů byl uveden do provozu v březnu roku 1999. V současné době je provozováno cca 30 serverů. Ukazuje se, že spektrum uživatelů na univerzitě je tak široké, že své opodstatnění má jak centralizována správa dokumentů, tak i dedikované virtuální www servery. Výsledky této částidílčího záměru jsou prezentovány v [1], [2] a [3]. V rámci dalšího řešení záměru se bude provádět zejména systémová integrace systému File-Upload do univerzitního prostředí Orion, jejíž cílem je využití distribuovaného souborového systému AFS a autentizačního protokolu Kerberos 5. Vlastní publikace: [1] Urbanec, J.: Leveraging Intranet Services into University Campus Information System. In: Proceedings University of West Bohemia 1999 (v tisku) [2] Urbanec, J.:Návrh a implementace komplexní infrastruktury pro využití WWW http://home.zcu.cz/projekty/lps/www / [3] Urbanec, J.:Projekt virtuálních WWW serverů. http://www.projekt.zcu.cz/ Použité zdroje: Frystyk, Lee: HyperText Transmission Protocol version 1.1, RFC 2068, 1997. ftp://ftp.zcu.cz/pub/doc/rfc/rfc2068.txt TCX Dataconsult: MySQL – SOL database server. http://www.mysql.com/ Apache group: HTTP server Apache, http://www.apache.org/
-9-
Výzkumný záměr MSM235200005
Informační systémy a technologie
Netscape Communication corp.: SSL – Secure Socket Layer ver. 3. http://home.netscape.com/eng/ss13
1.1.5 Rozvoj kvality služeb na metropolitní síti Západočeské univerzity Řešitelé: Ing. Vladimír Rudolf, Ing. Václav Vais, Ing. Karel Mareš, CSc. Technické podmínky pro řešení tohoto dílčího záměru poskytlo řešení projektu LB98245. Projekt LB98245 vyřešil základní síťovou infrastrukturu s množstvím „single point of failure“. Cílem dílčího záměru byla eliminace těchto míst a zvýšení spolehlivosti vybraných síťových služeb na principu jejich dynamického zálohování. Dalším cílem byla implementace kvality služeb (QoS) do produkční části univerzitní sítě. Metropolitní univerzitní síť je otevřená heterogenní síť tvořená aktivními komunikačními prvky několika platforem, proto bylo nutné řešit redundanci síťových služeb tak, aby bylo dosaženo nezbytné interoperability. Redundance služeb byla řešena v těchto oblastech: • ATM technologie • konfigurační server technologie ATM LANE (LECS) • LAN emulation server (LES) • redundandní páteřní síť řešená na bázi protokolu PNNI • IP technologie • základní redundance na bázi OSPF • dynamická redundance na bázi protokolu HSRP, resp. VRRP • IPX technologie • základní redundance na bázi NLSP Výsledkem této části záměru bylo ověření jednotlivých technologií, porovnání jejich vlastností a parametrů a příprava na jejich uvedení do rutinního provozu v souvislosti s dokončením optické metropolitní sítě řešené projektem LB98245. Část výsledků je prezentována v [1]. Kvalita služeb (QoS) byla řešena jak v prostředí ATM technologie, tak i v přepínaných sítích založených na technologii Ethernet. Zatímco v sítích ATM je QoS implicitní vlastností technologie, u sítí na bázi technologie Ethernet je nutno kvalitu služeb implementovat postupy, které nejsou organickou součástí této technologie. Výsledkem této části záměru je ověření a implementace standardu IEEE 802.1p/q ve vybraných oblastech počítačové sítě ZČU (prezentováno v [2]). Vlastní publikace: [1] Rudolf, V., Vais, V.: WEBnet-University of West Bohemia's Secure MAN Project. In: Proceedings of Networks3 European Conference Monte Carlo, 1999 Proceedings on CD ROM. [2] Rudolf, V.: Kvality služeb (QoS) v prostředí přepínaných sítí Ethernet. Sborník konference EurOpen.CZ, Nečtiny, listopad 1999. ISBN 80-902715-0-2.
- 10 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Použité zdroje: IEE802.lq – IEEE Standards for Local and Metropolitan Area Networks: Virtual Bridged Local Area Networks. Advanced QoS Concept and Topics. In: Proceedings Networkers98 Cannes. France. QoS IP & ATM environments, přednáška Data/Voice/Video konference Cisco, Praha 1999.
1.1.6 Výkonnostní a spolehlivostní modelování systémů s distribuovaným řízením Řešitelé: Doc.Ing.Stanislav Racek, CSc., Ing. Jiří Ledvina,CSc., Ing. Václav Vais, Ing. Pavel Herout, Ph.D., Ing. Vlastimil Vavřička, CSc., Dr. Ing. Karel Dudáček V rámci této části řešení výzkumného záměru Informační systémy a technologie jsou rozvíjeny metody a modely využitelné k apriornímu odhadu výkonnostních a spolehlivostních ukazatelů výpočetních systémů realizujících současně větší počet výpočetních aktivit (vlákna, procesy ap.). Aplikační spektrum zahrnuje distribuované výpočetní systémy a programy, paralelní procesy v konkrétním výpočetním prostředí, výpočetní systémy odolné proti poruchám (FT syst.), systémy pracující v reálném čase (RT syst.) ap. Jsou rozvíjeny jednak matematické modely na bázi markovských náhodných procesů a stochastických petriho sítí a dále simulační modely vyžívající mapování konkurenčních výpočetních aktivit z aplikační domény na pseudo-paralelní procesy v diskrétním simulačním modelu. Pro druhý uvedený účel je využíván simulační nástroj C-Sim [8] navržený a implementovaný na řešitelském pracovišti. V první uvedené kategorii modelů byl v hodnoceném období zejména řešen spolehlivostní model distribuovaného autentizačního systému určený ke spolehlivému ověřování totožnosti uživatelů služeb poskytovaných v dané množině geograficky vzdálených center. Výsledky byly publikovány v [1], [2], [3], [10]. V druhé uvedené kategorii byla rozvíjena metodika modelování FT systémů využívajících softwarovou injekci poruch. Metodika byla detailněji popsána v rámci disertační práce [9]. Některé konkrétní výsledky dosažené jejím použitím byly popsány v [4], [5], [6]. Tyto výsledky byly dosaženy ve spolupráci s katedrou počítačů FEL ČVUT (prof.Ing. J. Hlavička, DrSc.). Dále byly sledovány možnosti využití procesově orientované diskrétní simulace pro návrh a předběžné ověření funkce RT systémů a programů [7]. Pro další období se předpokládá pokračování vývoje modelu autentikačního systému s cílem umožnit zjištění většího počtu sledovaných ukazatelů. Dále bude pokračovat vývoj simulační metodiky ověřování funkce spolehlivých RT systémů a programů. Část této činnosti by měla být realizována v rámci projektu 5. programu EU, jehož nositelem je spolupracující katedra počítačů FEL ČVUT. Vlastní publikace: [1] Vais, V. – Ledvina, J.: A tool for fast and efficient dependability modeling of a distributed authentication system, Proc. of MOSIS 99, Roznov p. R., Czech rep., pp. 243-250.
- 11 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
[2] Vais, V. et al.: Dependability model of an authentication system, EDCC-3, Prague, 1999, fast abstract. [3] Vais, V. – Racek, S. - Hlavička J.: Reliability analysis of an authentication system, Proc. of UWB, Vol1/1999. [4] Racek, S. - Herout, P. - Hlavička, J.: Fault Injection as a Tool for FT Process Controler Design Proceedings of DDECS'97 - Design and Diagnostic of Electronic Circuits and System, Szczyrk, Poland, 1998, str. 123-128, ISBN 83-908409-6-0. [5] Hlavička, J. - Racek, S. - Herout, P.: Analysis and Testing of Process Controler Dependability 9th European Workshop of Dependable Computing, Gdaňsk, Poland, květen 1998, str. 7-11, ISBN 83-907591-1-X. [6] Herout, P. - Racek, S. - Hlavička, J.: Simulační ověření funkce spolehlivého průmyslového mikropočíače, Automatizace, ročník 42, číslo 6, červen 1999, ISSN 0005-125X, str. 399 - 403. [7] Štika, J. - Racek, S. - Herout, P.: Simulační verifikace aplikací pracujících v oblasti reálného času. 33rd Spring International Conference MOSIS'99 - Modelling and Simulation of System, Rožnov pod Radhoštěm, duben 1999, str. 223-230, ISBN 80-85988-33-X. [8] Herout, P. - Hlavička, J. - Racek, S.: C-Sim: a C-based simulation and/or verification tool, FEL CVUT research report (předpokládané vydání v prosinci 99). Disertační práce: [9] Herout, P.: Návrh funkce vestavěného mikropočítače se zvýšenou spolehlivostí. Disertační práce ZČU Plzeň, 1999. Práce ke státní doktorské zkoušce: [10] Vais, V.: Návrh distribuovaného ověřovacího systému. Práce ke státní doktorské zkoušce, ZČU Plzeň, 1999. Použité zdroje: Balakrishnan, M., - Reibman, A.: Reliability models for fault-tolerant private network applications. IEEE Trans. on Comp., Vol. 43 (9), Sept. 1994. Balakrishnan, M., - Trivedi, K.: Componentwise decomposition for an efficient reliability computation of systems with repairable components. Proc. FTCS-25, Pasadena, USA 1995, pp.259-268. Trivedi, K. et al.: Markov Reward Approach to Performability and Reliability Analysis. Proc. Mascots’94, Durham, North Carolina, 1994, pp 7-11. Bondavali et al.: Dependability Modelling and Sensitivity Analysis of Scheduled Maintenance Systems. In: Proceedings EDCC-3, Prague, 1999, pp 7-23.
- 12 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
1.2 Okruh řešení II - Informační a databázové systémy (integrace databázových a znalostních systémů, metody analýzy dat, komunikace s počítačem v přirozeném jazyce)
1.2.1 Integrace databázových a znalostních systémů Řešitelé: Doc.Ing.Karel Ježek, CSc., Ing. Martin Zíma, Nárůst dat v současných informačních systémech vyžaduje nové přístupy při jejich zpracování a vyhodnocování, umožňující integrovat data do zhuštěné podoby - znalostí. V rámci této úlohy byl vyvíjen experimentální deduktivní databázový systém (EDD) [1] jako nadstavba relačního databázového systému. Výhodou tohoto řešení je jednak rozšířenost relačních databází (možnost použít jako back-end výkonný komerční databázový systém) a dále možnost soustředit úsilí pouze na řešení vlastní deduktivní části systému. Systém umožní vyhodnocovat deduktivní programy nad rozsáhlými relačními daty. Základem systému je překladač rozšířeného logického jazyka Datalog do relačního jazyka SQL. K výpočtu pevného bodu rekurzivních predikátů je vzhledem k neúplnosti jazyka SQL použito jeho procedurální rozšíření (PL SQL). V současné době je EDD v prototypovém stavu, použitelném pro zpracování číselných a řetězcových dat. Jeho použitelnost byla testována na úloze řízení dopravy [2] a na reálných datech studijní databáze. Pro praktickou využitelnost systému byla navržena modifikace metody magických množin [6],[7] a publikována v [4] a[5]. Další práce na úkolu se předpokládají v těchto směrech: - Použití deduktivního systému rozšířeného o práci s neurčitostí k realizaci deduktivního znalostního systému. - Použití deduktivního systému k dolování znalostí z warehousu, včetně logickým jazykem vyjadřovaných OLAP operací. Základní principy pro prvý z citovaných směrů byly již navrženy a publikovány v [3]. Další související teoretické problémy (optimalizace vyhodnocování dotazu v prostředí neurčitosti, výběr vhodné logiky apod.) budou řešeny v následné etapě. Ověřování efektivnosti a funkčnosti principů pro systémy pracující s velkým množstvím dat, je často ztěžováno nemožností získat reálná data. Ta si jejich vlastníci ze zřejmých důvodů tají. Proto předpokládáme využití kryptovaných dat univerzitní databáze a zkušební nasazení znalostního systému v tomto prostředí. Publikace vlastní: [1] Ježek, K., Toncar, V.: Experimental Deductive Database, Workshop on Information Systems Modeling - MOSIS'98 Proc. Int. Conference, St.Hostyn 1998, pp. 83-90, ISBN 80 85988 24 0. [2] Ježek, K., Zíma, M.: Deductive Control of Traffic Process, Proc.of Process Control '98 Conference, pp.191-194, ISBN 80-7194-138-7 [3] Ježek, K., Toncar,V.: Experimental Deductive System with Fuzzy Logic, Proc. University of West Bohemia 1998, pp.55-62,ZČU Plzeň 1999,ISSN 1211-9652, ISBN 80-7082-478-6.
- 13 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
[4] Ježek, K., Zíma, M.: Problem of Information Passing in Magic Sets Method, Proc. ISM'99 Int. Conf. pp. 193-200, ISBN 80-85988-31-3 [5] Zíma, M.: Příspěvek k metodě magických množin. Písemný referát k rigorózní zkoušce, ZČU Plzeň 1999 Ostatní odkazy: [6] Jiawei Han: Chain-Split Evaluation in Deductive Databases, IEEE Trans.on Data Eng. 1995, pp.261-273 [7] Seppo Sippu, E. Soisalon-Soininen: An Analysis of Magic Sets and Related Optimization Strategies for Logic Queries. Journal of ACM, No.6, 1996, pp.1046-1088
1.2.2 Vyhledávání dokumentů Řešitelé: Doc.Ing.Karel Ježek,CSc., Ing.Lenka Lorenzová Cílem tohoto úkolu je rozvoj metod vyhledávání textových a hypertextových dokumentů, s využitím metod dataminingu. S rozvojem elektronických knihoven a s nárůstem informací zpřístupňovaných prostřednictvím internetu, je tento úkol velmi aktuální. V r.1999 byla navržena a publikována původní metoda vyhledávání podobných dokumentů na síti, využívající struktury webu [1]. Metoda vychází z myšlenky reprezentovat strukturu webu pomocí grafu, jehož uzly představují dokumenty a hrany reprezentují odkazy mezi těmito dokumenty.V grafu se vyhledávají komponenty takového tvaru, který charakterizuje svým topologickým uspořádáním odkazů do uzlů a z uzlů vzájemnou podobnost dokumentů. Práce je náplní připravované disertace ing.Lorenzové, která na toto téma zpracovala také oponovaný referát k rigorózní zkoušce [2]. Ing. Lorenzová přešla od září t. r. do hlavního pracovního poměru na Jihočeskou universitu jako pedagogický pracovník. Na řešení úkolu bude pokračovat v rámci externího dokončení doktorandského studia. V následujícím období předpokládáme podrobnější rozpracování metody a implementaci jejích částí. V příštím roce bude možné úlohu vyhledávání dokumentů rozšířit o zkoumání možností hledání dokumentů a automatické začleňování dokumentů do tématických okruhů na základě jejich obsahu. Předpokládáme využití netradičních metod dataminingu [3]. Na toto téma byl v letošním roce přijat nový doktorand. Publikace vlastní: [1] Lorenzová, L.: Podobnost web dokumentů. Sborník konference Datasem99, Brno 1999, str.314-317, ISBN 80-210-2181-0 [2] Lorenzová, L.: Podobnost web dokumentů. Písemný referát k rigorozní zkoušce, ZČU Plzeň 1999 Ostatní odkazy: [3] I.A.Witten, E.Frank: DataMining, Morgan Kaufmann Publishers, 2000, USA, ISBN 1-55860-552-5
- 14 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
1.2.3 Modul rozpoznávání slov systému komunikace s počítačem v přirozeném jazyce Řešitelé: Doc. Ing. Václav Matoušek, CSc., Ocelíková, PhD., Ing. Ondřej Rohlík
Ing. Pavel Mautner, PhD., Ing. Jana
Dialogový systém umožňující komunikaci uživatele s informačním systémem se principiálně skládá ze šesti základních modulů: • modulu předzpracování vstupního signálu, jehož cílem je potlačení vysoké redundance řečového signálu a jeho transformace na vnitřní, informačně významnou (hodnotnou) formu jeho reprezentace, • modulu rozpoznávání slov v plynulých a spontánních promluvách, na jehož výstupu se objevuje rozpoznaná posloupnost slov jako nejlepší hypotéza rozpoznávané věty, • modulu lingvistické analýzy hypotézy promluvy, jenž také interpretuje význam promluvy prostřednictvím vhodně zvoleného formalismu (bude řešeno v následujících krocích), • modulu řízení dialogu a komunikace s databází obsahující požadovaná data, tzv. dialogmanager (základní principy jeho návrhu jsou uvedeny v následujícím odstavci) , • modulu generování systémových odpovědí – jeho struktura a základní funkční vlastnosti jsou tématem disertační práce jednoho z doktorandů, kteří se na řešení výzkumného záměru podílejí, a dosažené výsledky budou v patřičném čase publikovány, • modulu kvalitní syntézy systémových odpovědí (modulu hlasového syntezátoru). Detailní popis struktury dialogového systému lze nalézt např. v [1], [3]. Poměrně značná pozornost byla v posledním období věnována vývoji modulu rozpoznávání slov, neboť spolehlivost rozpoznávání slov ve spontánních promluvách, která se typicky pohybovala okolo 65 %, se zdála být z pohledu výsledků dosahovaných ve světě neúnosně nízká. Bylo proto přistoupeno k vývoji modulu následné korekce rozpoznaných posloupností slov pomocí jazykových modelů různých typů a stupňů – jednotlivé testované jazykové modely jsou opět podrobněji uvedeny v příloze. Výsledky pokusů byly shrnuty a publikovány v práci [4] („Matoušek V., Ocelíková J.: Improvement of the Recognition Rate of Spoken Queries to the Dialogue System“), která byla úspěšně prezentována na workshopu TSD´99, a rovněž byly publikovány na mezinárodní konferenci INTERACT´99 v Edinburghu. Nejlepších výsledků bylo dosaženo při pokusné implementaci tzv. permugramových jazykových modelů, které nejlépe postihují variabilitu slovosledu českých promluv (v některých případech došlo ke zlepšení přesnosti rozpoznávání o více než třicet procent), a proto v následujícím období bude pozornost věnována kromě jiného také jejich podrobnému testování ve vztahu k dalším problémovým oblastem a jejich definitivní implementaci a začlenění tohoto v jistém smyslu dodatečného modulu do struktury vyvíjeného systému.
- 15 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Publikace vlastní: [1] Matoušek V., Nöth E.: Ein mehrsprachiges multifunktionelles Auskunftsdialogsystem. In: Spektrum – Zeitschrift für Technik, Wirtschaft und Sozialwesen, No. 1, Januar 1999. Impressum Verlag, Regensburg, pp. 48 – 54. [2] Klečková J., Krutišová J., Matoušek V., Mautner P., Netrvalová J.: Spoken Dialog Based Information System Interface. In: Proceedings of UWB, Vol.1/1997, pp. 71 – 82. [3] Matoušek V., Ocelíková J., Harbeck S., Nöth E., Ipšič I., Ivanecký J.: The Multilingual Spoken Dialog System. In: Proceedings of UWB, Vol.2/1998, pp. 81 – 95. [4] Matoušek V., Ocelíková J.: Improvement of the Recognition Rate of Spoken Queries to the Dialogue System. In: Proceedings of the 2-nd Workshop on Text, Speech and Dialogue (TSD'99), Mariánské Lázně, September 1999, pp. 308-314. [5] Matoušek V., Nöth E.: Ein mehrsprachiges multifunktionelles Auskunftsdialogsystem. In: Mehnert D.: Elektronische Sprachsignalverarbeitung, v.e.b. Universitätsverlag Dresden, September 1999, pp. 136 – 143. Ostatní odkazy: Viz následující odstavec.
1.2.4 Řízení dialogu v dialogovém informačním systému Řešitelé: Doc. Ing. Václav Matoušek, CSc., Ing. Jana Krutišová, Ing. Roman Mouček, Ing. Jana Ocelíková, PhD. Během posledních deseti let zaznamenalo využití mluvené řeči jako přirozeného prostředku komunikace člověka s okolním světem nebývalý rozvoj i v situacích, kdy se partnerem člověka v dialogu stává stroj nebo počítač. Stále běžnější se stávají aplikace, kdy ovládání strojů a zařízení je prováděno hlasovými povely či psací stroje automaticky píší to, co člověk diktuje. Vzniklo též několik dialogových systémů, kdy se člověk dotazuje hlasem na určité informace, počítač je nachází například ve své databázi, syntetizuje odpověď a předává ji člověku opět v mluvené formě. Tento poslední příklad se stal tématem intenzívně rozvíjeným v rámci daného výzkumného záměru. Dialog jako forma komunikace člověka s počítačem a informačním systémem je rozvíjen proto, že lidstvo je nuceno hledat takové formy komunikace, které mu umožní předávat či získávat stále větší objemy informací za jednotku času. Člověk se snaží nalézt úspornější způsoby vyjadřování, které navíc dovolují předávanou informaci účinně komprimovat a na přijímací straně nejen stoprocentně restaurovat do původní podoby, ale i detekovat chyby vzniklé při předávání informace (i na velmi velké vzdálenosti) a případně tyto chyby opravit. Jazyk však stále zůstává nejpřirozenější formou komunikace mezi lidmi, a proto se dnes snažíme tuto formu komunikace rozšířit i na komunikaci člověka s počítači (této oblasti je věnována největší pozornost, protože drtivá většina technicky vyspělých výrobků dnes zahrnuje více či méně specializovaný výpočetní prostředek, prostřednictvím něhož obsluha zařízení s tímto komunikuje - jen namátkou jmenujme nejrůznější typy palubních počítačů, řídicí systémy např. obráběcích strojů nebo celých výrobních linek, lékařskou či "vyspělejší" spotřební elektroniku atd.).
- 16 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Jedním z komunikačních médií, která jsou pro lidi nejdůležitější, je tedy řeč, ať již spisovná, obecná, hovorová nebo nejčastěji používaná řeč spontánní, která v sobě zahrnuje řeč obecnou, dialekty, gramaticky nesprávné tvary a v neposlední řadě i zakašlání, mlaskání, vyplňované pauzy apod.: Chtěl bych ject někdy kolem čtvrtý do ...ééééééhm... Berouna. Zvláštní role spontánní řeči oproti psané komunikaci je zřejmá z následujících bodů: - Prostřednictvím intonace můžeme snadněji a jemněji ovládat zamýšlené působení na posluchače než pomocí interpunkčních znamének ve větě [Not91]. - Spontánní řečí můžeme vyjádřit mimo textové informace i svou náladu (např. radost, smutek, rozčilení). - Pomocí přízvuku můžeme odstranit případnou víceznačnost věty. - Pro přímou komunikaci nepotřebujeme žádné podpůrné prostředky jako papír a tužku. Vedle právě popsaných jednoznačných výhod spontánní řeči se ale vyskytují i mnohé odchylky, které mohou způsobit problémy při komunikaci: - Používání spontánní řeči je velmi volné a odchyluje se od spisovného jazyka. - Člověk pochopí i špatně použité skloňování, časování nebo čas, což se často vyskytuje v různých dialektech nebo u cizinců mluvících naším jazykem. - Abychom porozuměli promluvě, je občas nutné dobře znát některé odchylky v dialektu nebo regionální mluvě. Totéž platí pro výrazy, které používají například děti. - Častými efekty vyskytujícími se ve spontánní řeči jsou pauzy, váhání nebo opravy. Tyto efekty spontánní řeči se nevyskytují ve psané řeči. Použití spontánní řeči je pro lidi mnohem jednodušší než korektní používání psaného slova, a proto se dnes snažíme stejným způsobem realizovat i komunikaci s informačními systémy. Vývoj dialogového informačního systému probíhá ve dvou rovinách – rovině návrhu vedení dialogu, v níž je třeba respektovat veškeré charakteristické rysy a zvláštnosti komunikace mezi lidmi, a v rovině technické, kdy je zase nezbytné respektovat možnosti soudobé techniky. V rovině prvé byl proveden návrh řízení dialogu člověka s počítačem, který je podrobněji popsán v příloze a byl již publikován na několika konferencích. Jako výsledek této etapy bylo formulováno obecné schéma strategie vedení dialogu člověka s informačním systémem, které lze vyjádřit ve formě následujících několika bodů: - počáteční přivítání, - vygenerování prvního dotazu, - výstup dotazu na modul převodu textu na řeč, - převést řízení na rozpoznávání a porozumění řeči, - modifikovat tyto části podle aktuálního stavu systému, - zpracovat výsledky získané z modulu porozumění řeči, - zkombinování těchto informací s aktuálním stavem systému, - výběr dalšího dotazu na základě nového stavu systému, - vygenerování přesné podoby tohoto dotazu, - verifikace dříve získaných výsledků, - přístup do databáze, - výstup výsledků dotazu, nejlépe po jejich konverzi do vhodné podoby, - zpracování speciálních situací za běhu dialogu (chyby z databáze, opakování otázky, opakování výsledků, ...), - monitorování vývoje dialogu.
- 17 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
V rovině druhé – implementační – byl proveden návrh efektivní technické a programové struktury dialogového systému a pokud možno přesná specifikace jeho funkcí. Výsledky této fáze lze shrnout do podoby následujících bodů: - Hlavními moduly řečového dialogového systému jsou: modul rozpoznávání slov, modul lingvistické analýzy, modul řízení dialogu a modul generování odpovědi se syntézou řeči. - Přirozenými rozhraními mezi moduly jsou: struktury založené na slovech (řetězce, grafy), popis sémantické informace, řetězec slov pro syntetizovanou promluvu. - Lingvistická analýza promluvy vede k reprezentaci sémantického obsahu; pro tuto reprezentaci musí být zvolen vhodný formalismus. - Sémantická informace je použita v procesu řízení dialogu, čímž se manager dialogu v principu stává nezávislým na původní řečové formulaci a tedy i nezávislým na jazyce. - Interpretační proces kontroly dialogu se rozděluje do dvou kroků: použití (lokálních) interpretačních pravidel a jejich dosazení do kontextu dialogu. - Kontrola dialogu obsahuje metody, které z dosavadního průběhu dialogu vygenerují novou systémovou promluvu. Vzorem pro návrh struktury dialogového systému se stala struktura systému SUNDIAL vyvinutého v rámci jednoho projektu z programu ESPRIT, která byla přizpůsobena požadavkům na komunikaci s jednoduchým informačním systémem v českém jazyce. Její konkrétní podobu lze nalézt v publikovaných pracích. Publikace vlastní: [1] Matoušek V. Ocelíková J.: Managing Spoken Dialogs in Information Services. In: Proceedings of the 7-th IFIP TC13 Conference INTERACT'99 on Human-Computer Interaction), Edinburgh, Scotland, September 1999, pp. 141-148. [2] Matoušek V., Ocelíková J.: Processing of Anaphoric and Elliptic Sentences in a Spoken Dialog System. In: Proceedings of the European Conference EUROSPEECH '99, Budapest, September 1999, pp. 1407-1410. [3] Matoušek V., Ocelíková J.: Improvement of the Recognition Rate of Spoken Queries to the Dialogue System. In: Proceedings of the 2-nd Workshop on Text, Speech and Dialogue (TSD'99), Mariánské Lázně, September 1999, pp. 308-314. [4] Klečková J., Krutišová J., Matoušek V., Mautner P., Netrvalová J.: Spoken Dialog Based Information System Interface. In: Proceedings of UWB, Vol.1/1997, pp. 71 – 82. Ostatní odkazy: Eckert, W. and Niemann, H. (1994). „Semantic Analysis in a Robust Spoken Dialog System.“ In: Proceedings of the International Conference on Spoken Language Processing, Yokohama, Japan, pp. 107-110. Eckert, W. (1994). „Gesprochener Mensch-Maschine-Dialog.“ Dissertation, Technische Fakultaet der Universitaet Erlangen-Nuernberg, Germany. Gibbon, D. and Moore, R.and Winski, R. (1997). „Handbook of Standards and Resources for Spoken Language Systems.“ Mouton de Gruyter Verlag, Berlin, New York. Klečková, J. and Matoušek, V. and Netrvalová, J. (1995). „An Automatic Creation of the Language Model for the Spontaneous Czech Speech Recognizer.“ In: Proceedings of the European Conference EUROSPEECH '95, Madrid, pp. 1185-1188.
- 18 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Krutišova, J. and Matoušek, V. and Ocelíková, J. (1998). „Development of an One-Purpose Dialog Manager.“ In: Proc. of the Int. Workshop SPECOM '98, St. Petersburg, pp. 131-134. Matoušek, V. (1993). „Phonetic Segmentation Method for the Continuous Czech Speech Recognition.“ In: Proc. of the European Conference EUROSPEECH '93, Berlin, pp. 713-717. Matoušek, V. and Krutišová, J. and Mautner, P. and Ocelíková, J. (1998). „A Dialog Module for the Information Retrieval System.“ In: Proc. of the AIII Int. Conference on Artificial Intelligence Applications in Industry, Kosice, pp. 469-478. Netrvalová, J. (1997). „Representation and Interpretation of Continuous Utterances.“ In: Proc. of the 2-nd SQEL Workshop on Multi-Lingual Information Retrieval Dialogs, Plzen, pp. 28-31. Phillips, M. D. and Bashinski, H. S. and Ammerman, H. L. and Fligg, C. M. (1988). „A Task Analytic Approach to Dialogue Design.“ In: Helander, M. (Ed.). „Handbook of HumanComputer Interaction“. Elsevier Science, North Holland Publ., pp. 835-857. Sacks, H. and Schlegloff, E. and Jefferson, G. (1974). „A simplest systematics for the organization of turn-taking in conversation.“ In: Language, Vol. 50, pp. 697-735. Schukat-Talamazzini, E. G. (1995). „Automatische Spracherkennung.“ Vieweg Verlag, Braunschweig, Wiesbaden. Schukat-Talamazzini, E. G. and Niemann, H. (1994). „Speech Recognition for Spoken Dialog Systems.“ In: Niemann, H. and De Mori, R. and Hannrieder, G. (editors) (1994). „Progress and Prospects of Speech Research and Technology.“ CRIM/FORWISS Workshop, Infix, Munich, pp. 110-120. Tomita, M. (1986). „Efficient Parsing for Natural Language.“ Kluwer Academic Publishers, Boston.
1.2.5 Integrovaný modul pro zpracování větné prozódie Řešitelka: Dr.Ing. Jana Klečková, Ing. Karel Taušer Návrh modulu pro zpracování suprasegmentálních jevů vychází ze základního principu, že analyzovaná spontánní promluva je členěna na jednotlivé věty. V rámci každé (jedné) věty je sledován průběh energie a základní hlasivkové frekvence. Na základě provedené analýzy je pak věta zařazena do některé z prozodických větných kategorií. Extrahované větné příznaky reprezentující charakteristickou prozodickou informaci obsaženou v signálu promluvy jsou vedle posloupnosti rozpoznaných slov dalším vstupem modulu lingvistické (syntakticko-sémantické) analýzy. Struktura modulu prozodické analýzy je popsána v [2]. Proces prozodické analýzy promluvy je principiálně rozčleněn do dvou částí. V první fázi je prováděn výpočet prozodických charakteristik. Tato je prováděna na úrovni prvotního zpracování vstupního řečového signálu; z tohoto pohledu je proto tato část prozodického modulu integrována do modulu akusticko-fonetické analýzy. Druhou fází zpracování prozodické informace je pak extrakce příznaků a jejich následné zpracování. Průběh prozodických charakteristik signálu je získáván výpočtem z akustických charakteristik promluvy, pro analýzu vstupního signálu je použito metody krátkodobé frekvenční analýzy signálu. Ta je založena na předpokladu, že se vlastnosti signálu v průběhu času (ve vztahu k periodě vzorkování signálu)mění jen velmi pomalu. Splnění tohoto předpokladu je dáno
- 19 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
automaticky možnostmi hlasových orgánů, které nemohou přecházet z jednoho postavení do druhého okamžitě (skokově). Pro výpočet průběhu základního hlasivkového tónu byla použita metoda založená na výpočtu krátkodobé autokorelační funkce uvedené v [1]. Jedná se o aplikaci autokorelační funkce na centrálně a amplitudově omezený řečový signál. Krátkodobá autokorelační funkce má totiž tu vlastnost, že, pokud signál je periodický s periodou T, pak má maximum právě pro m = 0, T, 2T, ..., čehož lze s úspěchem využít právě pro stanovení základní hlasivkové frekvence. Délka mikrosegmentu řeči přitom musí být alespoň dvakrát větší než je perioda signálu. Z upraveného (omezeného) signálu se vypočte hodnota autokorelační funkce, normalizuje se a nalezne její maximum. Pokud její maximum dosahuje hodnoty stanoveného prahu, určí se z polohy maxima hledaná frekvence. V opačném případě se mikrosegment považuje za neznělý. Při výpočtu základní hlasivkové frekvence je možno se setkat s problémy, jakými jsou chybný výpočet hodnot frekvence, chybné určení znělosti mikrosegmentu a nalezení dvojnásobné nebo poloviční frekvence než hledaná základní hlasivková frekvence. Pro odstranění těchto problémů byl vypracován originální postup, podrobně popsaný v [2]. Přenositelnost vytvořeného modulu je omezena tím, že modul zpracovává nízkoúrovňová data (vstupem je binární soubor). Problémem je zatím doba odezvy modulu, analýza průměrné věty trvá cca 5s. Tato hodnota hraničí s požadavky na odezvu dialogového systému v reálném čase ( publikace [3]). Zpracování větné intonace je klasickou klasifikační úlohu, ve které se provádí zařazování obrazů do předem definovaných tříd. Pro vlastní klasifikaci byly testovány metody založené na nejmenší vzdálenosti (dynamické programování), na statistických vlastnostech řečového signálu (skryté Markovovy modely) a na využití umělých neuronových sítí. Obě výše uvedené metody jsou v principu pro zpracování prozodického obrazu věty využitelné, z hlediska komplexního řešení problému však bylo zvoleno použití umělé neuronové sítě. Důvodem volby byla skutečnost, že u člověka je přirozená řeč vytvářena a zpracovávána biologickou neuronovou sítí. Prozodická informace proto splňuje všechny atributy informace zpracovatelné umělou neuronovou sítí. Podrobnější popis realizovaného způsobu zpracování větné intonace lze nalézt v [4]. Na základě prvních zkušeností se zpracováním větné intonace byla provedena analýza dalších prozodických charakteristik. Dalším cílem při zpracování prozódie spontánní promluvy se stal projekt databáze prozodických charakteristik. Databáze by měla být zdrojem informací jak pro lingvistický modul systému rozpoznávání a porozumění plynulé řeči, tak pro modul vedení dialogu [5] [6]. Publikace vlastní: [1] Klečková J.: Počítačové zpracování spontánní promluvy, prosodie, slang, argot. In: Sborník přednášek VI. konference o slangu a argotu v Plzni, PeF ZČU v Plzni, září 1998, str. 41 – 46. [2] Klečková J.: The Integrated Prosody Module. In: Proceedings of UWB, Vol. 2, ZČU Publishing, January 1999, pp. 63 – 68. [3] Klečková J.: Detection of Sentence Types in the Dialog System - project. 8th Czech-German Workshop, Institute of Radio Engineering and Electronics Academy of Sciences of the Czech Republic, Prague, September 1998. [4] Klečková, J., Matoušek, V.: Detection of Sentence Types by the Integrated Prosody Module. In: Proceedings TSD’98, Brno, September 1998, 235 - 240.
- 20 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
[5] Klečková J.: A Database of Prosody Attributes for the Dialog System. In: Syllabes Ilemes Journées d´Etudes Linguistiques Nantes, Équipe AAI – Université de Nantes, France, March 1999, pp. 111 – 116. [6] Klečková, J., Matoušek, V.: „Developing the Database of the Spontaneous Speech Prosody Characteristics. In: Proceedings EUROSPEECH'99, Budapešť, Hungary, September 1999, Volume 2, pp. 731 - 734.
1.2.6 Automatizace tribodiagnostiky motorových olejů Řešitelé: Doc. Ing. František Vávra, CSc., Ing. Pavel Mautner, PhD., Ing. František Zuzák Cílem projektu Automatizace tribodiagnostiky motorových olejů je analýza metod odhadu počtu a klasifikace typu částic v digitalizovaném mikroskopickém obrazu vzorku leteckého oleje – klasifikace se zadanou pravděpodobností „planého poplachu“ a se zadanou pravděpodobností „zamlčení“ kritické situace. Výsledkem by pak mělo být vytvoření programového vybavení aplikující zkoumané metody (včetně jejich popisu a uživatelské dokumentace). Doposud byl proveden návrh datových formátů pro uložení nasnímaných mikroskopických obrazů, byl vybrán vhodný způsob nasvícení a míra zvětšení vzorků a byly provedeny první experimenty analýzy dodaných vzorků. V dalším se práce na projektu zabývala testováním metod počítačové analýzy obrazů, které jsou vhodné pro aplikaci tribodiagnostiky leteckých motorových olejů a byl naprogramován základní softwarový balík AeroWear aplikující poznatky, které byly publikovány formou technických zpráv a článků (viz seznam publikací). V další fázi výzkumu se budeme zabývat testováním vhodných příznaků pro klasifikaci částic opotřebení a implementací vybraných metod do programového balíku AeroWear. Publikace vlastní: [1] Mautner P., Zuzák F.: Digital Microgram Processing in Tribodiagnostics. Book of Abstracts of Euromech 406 Colloquium Image Processing in Applied Mechanics - IPMAM 99, str. 243–245, Warszawa, 1999, ISSN 0208-5658 [2] Kohout J., Mautner P., Zuzák F.: Automation of Tribodiagnostics Using Image Processing. Proceedings of the International Workshop IWSSIP 99, VTU, Bratislava, 1999, ISBN 80968125-7-2 [3] Kohout J., Mautner P., Zuzák F.: Automatická detekce částic v digitálních mikrogramech. Sborník 15. konference s mezinárodní účastí Výpočtová mechanika 99, str. 163–170. Západočeská univerzita, Plzeň, 1999, ISBN 80-7082-542-1 [4] Kohout J., Mautner P., Zuzák F.: Metody zpracování digitálního ferogramu pro tribodiagnostiku. Sborník 15. konference s mezinárodní účastí Výpočtová mechanika 99, str. 170–177 Západočeská univerzita, Plzeň, 1999, ISBN 80-7082-542-1 [5] Zuzák F.: Image Measurement and Transformation Invariant Shape Description. Rigorózní práce, KIV ZČU Plzeň, 1999
- 21 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
1.2.7 Zpracování dat a informací pro rozhodování obecně a v ekonomii speciálně Řešitelé: Doc. Ing. František Vávra, CSc., Ing. Pavel Nový Ve sledovaném období byly nadále vyvíjeny a ověřovány metody extrakce užitečné informace z dostupných dat. Pozornost byla věnována časovým řadám a strukturovaným ekonomickým datům. Vývoj metodik byl a je účelově orientován na užití pro předpovědi a rozhodování Z pohledu užívaného teoretického aparátu byly vyvíjeny a zkoumány metody se základem v klasické a neklasické teorii informace, včetně navazujících modelů časových řad. Dosavadní základní výsledky byly a budou publikovány v pracích [1],[2],[3]. Základním pojmem pro předpovědní a hodnotící metodiky je stavový model časové řady. Typ chování časové řady je kódován stavem ve kterém se vyskytuje. Nechť je k dispozici stavová množina: Q={q1,q2,q3, ... ,qn-1,qn} možných chování. Jí je přiřazena matice pravděpodobností přechodu P = {pij} kde pij = Prob{qi→qj}. Dále předpokládáme, že jsou k dispozici ekvidistantní pozorování časové řady x(ti) kde ti = t0+i∆ a ty budou dostupné i v budoucnosti. Každému stavu qi je jednoznačně přiřazena hustota pravděpodobnosti fi(x) rozdělení hodnot časové řady pokud je ve stavu qi. Nechť je ve stavu ve kterém se časová řada nachází obsažena veškerá (minimální) potřebná informace pro popis budoucího chování. Tedy časová řada q(i) (= stav ve kterém se řada nachází v čase ti) je markovským řetězcem. Aby byl popis úplný je nezbytné doplnit vektor pravděpodobností výskytu ve zvoleném stavu v daném čase p(i)(k) = Prob{v čase ti se časová řada nachází ve stavu qk}. Shrnuto, časovou řadu popisujeme následující posloupností: t1
t2
t3
t4
...
ti
tn-1
tn
q(1)
q(2)
q(2)
q(3)
...
q(i)
q(n-1)
q(n)
f(1)(x)
f(2)(x)
f(3)(x)
f(4)(x)
...
f(i)(x)
f(n-1)(x)
f(n)(x)
x(t1)
x(t2)
x(t3)
x(t4)
...
x(ti)
x(tn-1)
x(tn)
Přičemž první tři řádky popisují model a čtvrtý řádek konkrétní realizovanou trajektorii (pozorovaný segment časové řady). Pro modelování předpokládáme, že je k dispozici vektor p(0) počátečního rozdělení pravděpodobností výskytu ve stavu. Pro simulační experimenty bude takový vektor často ve tvaru: (0,0, ... , 0,1,0, ... , 0)T tedy počáteční stav bude jistý. Rozhodovací modely jsou zkoumány na úrovni minimalizace počtu kroků pro identifikaci a návrh rozhodnutí za současné minimalizace budoucí neurčitosti (entropie) výsledku, což dává maximalizaci očekávané neurčitosti dílčího experimentu (identifikačního kroku). Jako cíl, ze kterého vyplyne kritérium optimality ve formě minimalizace počtu elementárních experimentů (rozhodnutí nebo rozhodovacích kroků), si pro neurčitost výsledku rozhodnutí stanovme podmínku, že: H ( S / Y k , Y k − 1 , . . . , Y1 ) ≤ β m , tj. postačuje nám pravděpodobnostní popis h ∈ S s neurčitostí
nanejvýš
rovnou
β m . Odtud pro rovnost
- 22 -
H ( S / Y k , Y k − 1 , . . . , Y1 ) = β m
Výzkumný záměr MSM235200005
Informační systémy a technologie
plyne: H ( S / Y k − 1 , . . . , Y1 ) = β m + H ( Y k ) − H ( E ) .Pro rekurentní vztah pro k kroků a zavedemeli konvenci : H ( S / Y0 ) = H ( S ) , pak platí:
k
H ( S ) = ∑ H (Yi ) + β m − k H ( E ) . i=1
Oba vztahy s podmínkou minimalizace k , tj. : H ( S / Y k , Y k − 1 , . . . , Y1 ) = H ( S /Y k − 1 , . . . , Y1 ) − H ( Y k ) + H ( E ) ,
H ( S / Yk ,Yk − 1 ,...,Y1 ) ≤ β m , k → min , dávají Bellmanovou rovnicí úlohy minimalizace počtu elementárních experimentů (experimentů k
identifikačních ). Vztah H ( S ) = ∑ H ( Y i ) + β m − k H ( E ) , je pak řešením Bellmanovy rovnice i=1
a říká, že každý experiment (nebo rozhodnutí, řídící zásah) musíme vybírat tak, aby maximalizoval očekávanou neurčitost jeho výsledku a současně patřil do množiny rozhodnutí v daném kroku možných, při zachování platnosti některého funkčního vztahu y = f ( h, e ) . Publikace vlastní: [1] Vávra, F., Nový, P., Zuzák, F.: Interest Rate Trend Modelling. In: Proceedings Mosis’ 99, Manam’ 99, Rožnov pod Radhoštěm, 1999. [2] Vávra, F., Nový, P., Rojík, A., Zmrhal, D.: Markovský simulační model časové řady (Využití pro předpověď trendu CZK) – připravováno k publikaci. Disertační práce: [3] Nový, P.: Úloha řízení při audiometrickém vyšetření prahu percepce. Disertační práce, Plzeň KIV, prosinec 1999.
- 23 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
1.3 Okruh řešení III - Algoritmy počítačové grafiky a vizualizace dat Tento okruh řešení byl zpracován v rámci projektu VS 97 155, ze kterého byl také financován. Postup prací, výsledky řešení včetně publikací a čerpání finančních prostředků jsou uvedeny v separátních zprávách [1], [2], které byly úspěšně oponovány 9.11.1999. Ve zprávě [1] jsou uvedeny citace publikací vytvořených v tomto okruhu řešení. Publikace vlastní: [1] Skala V. a kol: Počítačová grafika a vizualizace dat v paralelním a distribuovaném prostředí. Zpráva o řešení projektu VS97155, průběžná zpráva za rok 1999. [2] Skala V. : Počítačová grafika a vizualizace dat v paralelním a distribuovaném prostředí. Zpráva o využití finančních prostředků projektu VS97155 za rok 1999.
1.4 Projekty Vega a Lyra V rámci výzkumného záměru byly řešeny i granty LB98245 (projekt Vega) LB98246 (projekt Lyra). Oba granty byly financovány samostatně. Průběžné zprávy ([1], [2]) o jejich řešení jsou součástí samostatných příloh. Publikace vlastní: [1] Šmrha, P.: Plzeňská akademická metropolitní síť – projekt Vega. Zpráva o řešení projektu LB98245 v roce 1999. [2] Ryjáček, Z.: Využití a podpora superpočítačových technologií – projekt Lyra. Zpráva o řešení projektu LB98246 v roce 1999. Ve zprávách jsou uvedeny citace publikací zpracovaných v rámci řešení projektů Vega a Lyra .
- 24 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
2. Stručná zpráva o průběhu zahraničních cest Ing. Martin Chlumský, Ing. Rudolf Griessl, Ing. Jiří Sitera - USA, březen 1999. Účast na konferenci DECORUM 99 v New Orleans, přední světová konference z oblasti distribuovaných systémů. Krátkodobé pobyty na předních univerzitních pracovištích USA, která se zabývají problematikou distribuovaných systémů s cílem výměny zkušeností a navázání kontaktů. Navštívené instituce a osoby: University of Southern California – Information Science Institute (pracoviště realizující projekt Globus) – Carl Kesselman, Steve Fitzgerald University of California Santa Cruz – Communications and Technology Services – Brian Buhrow, Jim Warner Stanford University – Computing and Communication Services - Jeff Hodges Ing. Vladimír Rudolf, Ing. Václav Vais – Monaco, duben 1999. Aktivní vystoupení na evropské konferenci Networks3 v Monte Carlu. Konference o moderních síťových technologiích; zvaná přednáška. Ing. Václav Vais – Finsko, červen 1999. Účast na evropské konferenci konferenci EUNIS´99 v Espoo. Konference o informačních technologiích v univerzitním světě. Ing. Vladimír Rudolf – Rakousko, říjen 1999. Účast na evropské konferenci Networkers´99 (Moderní síťové technologie). Ing. Martin Chlumský, Ing. Jindřich Kňourek – Francie, listopad 1999. Návštěva superpočítačových center ve Francii s cílem výměny zkušeností a navázání nových kontaktů. Navštívené instituce a osoby: IDRIS Paris – Victor Alessandrini CRIHAN Rouen – Jean Christian Cordier IRISA Rennes – Hugues Leroy Centre Charles Hermite – Loria Nancy, Olivier Couland ICPS Strasbourg – Romanic David Dr.-Ing. Jana Klečková ve dnech 24. – 29. března 1999 účast na workshopu „Recent Advances in Computational Linguistics“ v Nantes, Francie, přednesla příspěvek „A Database of Prosody Attributes for the Dialog System“ Ing. Pavel Mautner, PhD. ve dnech 6. – 8. května 1999 aktivní účast na konferenci „EuroMech“ ve Varšavě, Polsko, přednesl příspěvek „Digital Microgram Processing in Tribodiagnostics“
- 25 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Ing. Pavel Mautner, PhD. a Ing. František Zuzák ve dnech 2. – 4. června 1999 aktivní účast na IWSSIP ´99 (International Workshop on Speech Signal and Image Processing) v Bratislavě, Slovensko, přednesli příspěvek „Automation of Tribodiagnostics Using Image Processing“ Doc. Ing. Václav Matoušek, CSc. a Ing. Ondřej Rohlík 25. června 1999 vystoupení na konferenci k využití multimediálních technologií (Multimediatag ´99) v Regensburgu, Německo, přednesli příspěvek na téma „Klassifizierung und Mustererkennung – ein multimediales Lernprogramm“ Doc. Ing. Václav Matoušek, CSc. ve dnech 29. srpna – 5. září 1999 účast na zasedání technického výboru TC.13 IFIP (Human-Computer Interaction), aktivní účast na významné mezinárodní konferenci INTERACT ´99 v Edinburghu, Velká Británie, přednesl příspěvek „Managing Spoken Dialogs in Information Services“ Dr.-Ing. Jana Klečková a Ing. Jana Ocelíková, PhD. ve dnech 4. – 11. září 1999 aktivní účast na mezinárodní konferenci EUROSPEECH ´99 v Budapešti, Maďarsko, prezentovaly příspěvky „Developing the Database of the Spontaneous Speech Prosody Characteristics“ a „Processing of Anaphoric and Elliptic Sentences in a Spoken Dialog System“ Doc. Ing. Václav Matoušek, CSc. ve dnech 20. – 22. září 1999 účast a vystoupení na celoněmecké odborné konferenci ESSV ´99 (Elektronische Sprachsignalverarbeitung) v Görlitz, Německo, přednesl referát na téma „Ein mehrsprachiges multifunktionelles Auskunftsdialogsystem“
3. Konkretizace cílů pro další kalendářní rok Obecným cílem je výzkum a vývoj metod a prostředků komplexního návrhu distribuovaných informačních počítačových systémů v různých úrovních abstrakce. Tento komplexní cíl je konkretizován v jednotlivých okruzích řešení a dílčích úkolech (viz kap.1).
- 26 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
4. Rozpis čerpání finančních prostředků Mzdové náklady
814.810,- Kč
Neinvestiční náklady Sociální a zdravotní pojištění Zák. pojištění Cestovné a vložné
285.183,50 Kč 321,- Kč 141.377,02 Kč
Drobný nehmotný majetek
0
Drobný hmotný majetek
79.306,- Kč
Věcné náklady
67.003,- Kč
Režie pracoviště
100.000,- Kč
------------------------------------------------------------------------------------------------------------Celkem
1.488.000,52 Kč
- 27 -
Výzkumný záměr MSM235200005
Informační systémy a technologie
Přílohy: •
Program mezinárodní konference TSD'99, organizované Katedrou informatiky a výpočetní techniky ZČU. (http://www-kiv.zcu.cz/events/tsd99/program)
•
Kopie vybraných publikací.
Separátní zprávy: •
Zpráva o řešení grantu LB98245, průběžná zpráva za rok 1999.
•
Zpráva o řešení grantu LB98246, průběžná zpráva za rok 1999.
•
Zpráva o řešení projektu VS97155, průběžná zpráva za rok 1999.
•
Zpráva o využití finančních prostředků projektu VS97155 za rok 1999.
- 28 -