Technologická podpora v projektu KP-Lab Pavel Smrž*
[email protected]
Ján Paralič†
[email protected] Abstrakt: Příspěvek je věnován novému evropskému integrovanému projektu KP-Lab v oblasti elektronického vzdělávání. Stručně uvádíme cíle projektu, zmíníme teoretická východiska a zdůrazníme propojení pedagogického a informatického výzkumu. Hlavní pozornost soustředíme na technologickou podporu nové metody výuky založené na tzv. trialogickém přístupu. Výukové objekty jsou v rámci projektu chápány v kontextu sémantického webu, pro jejich kategorizaci a poloautomatickou anotaci jsou využívány znalostní technologie. Diskutujeme rovněž možnosti automatického budování ontologií na základě analýzy výukových objektů a vytváření distribuovaných služeb pro multimodální přístup k různým znalostním zdrojům. Klíčová slova: projekt KP-Lab, trialogické učení, sémantický web
1
Úvod
Projekt KP-Lab (Knowledge-Practices Laboratory) je jedním z největších současných celoevropských integrovaných projektů v oblasti elektronického vzdělávání. Začal v únoru 2006, potrvá 5 let a zahrnuje 22 partnerských institucí ze 14 evropských zemí a Izraele. Partnerem projektu za českou stranu je Vysoká škola ekonomická v Praze, Slovensko reprezentuje Technická univerzita v Košicích. Projekt vychází ze silného teoretického zázemí, staví na bohaté pedagogické praxi podpořené moderními technologiemi a na rozsáhlém testování výsledků v reálných podmínkách. Zahrnuje experimenty menšího rozsahu i dlouhodobé studie ve školách, technických i klasických univerzitách, pedagogických pracovištích a profesních organizacích. V rámci projektu bude uspořádána řada kurzů, během nichž budou účastníci přímo využívat výstupy projektu v konkrétních modelových situacích. Rozšířené pilotní studie se zaměří mj. na aplikovatelnost nových výukových metod pro velká množství studentů (např. v bakalářském stupni vysokoškolského studia). Cílem projektu v teoretické rovině je vyvinout a na příkladech demonstrovat nový přístup k učení použitelný při výuce i profesním tréninku. Tento přístup, označovaný jako trialogické učení, zdůrazňuje sociální povahu inovativních postupů učení a práce se znalostí. Učení je chápáno jako sociální proces, v rámci něhož účastníci společně rozšiřují a transformují své individuální i sdílené chápání dané problematiky. Účastníci interagují mezi sebou stejně jako s externími nástroji, výpočetní technikou, informačními zdroji atd., aby si osvojili znalost prostřednictvím používání, vytváření a rozvoje sdílených znalostních objektů. Trialogické učení je tedy možné charakterizovat jako proces tvorby sdílených objektů, které jsou výsledkem spolupráce účastníků, a interakci prostřednictvím výsledků společných aktivit.
* Fakulta informačních technologií, Vysoké učení technické v Brně, Božetěchova 2, 612 66 Brno † Fakulta elektrotechniky a informatiky, Technická univerzita Košice, Letná 9, 042 00 Košice
Pedagogický výzkum v projektu KP-Lab je veden snahou ověřit možnosti zavedení vytvořených výukových metod v různých prostředích. Zvláště v oblasti vysokoškolského vzdělávání se projekt soustřeďuje na vývoj metod tzv. symetrického postupu znalostí, tj. případu, kdy se skupina studentů orientuje na vytváření a rozšiřování sdíleného poznání, spíše než na tradiční jednosměrný tok znalostí a kompetencí od přednášejícího ke studentům. Zkoumány jsou rovněž metody organizace znalostí v profesionálních prostředích. Technologická část projektu se zabývá výzkumem a vývojem vhodných řešení pro podporu moderních učebních metod. Cílem je navrhnout a implementovat modulární, flexibilní a rozšiřitelný systém podporující uvedené pedagogické metody. Výstupem bude mj. virtuální prostředí pro spolupráci, nástroje pro vytváření a manipulaci se znalostními objekty, objevování a využívání implicitních znalostí spojených s procesem získávání informací, sdílená anotace multimediálních dat, prostředí pro správu virtuálních konferencí, komunikační služby a obecný middleware pro výukové aplikace. Technologický rámec nabídne také nástroje a služby propojující vytvořené nástroje s programy třetích stran. Autoři tohoto příspěvku jsou v rámci svých týmů odpovědní za technologický vývoj příslušných částí projektu KP-Lab. Účastní se vývoje middleware pro znalostní technologie, stejně jako návrhu a vývoje uživatelských nástrojů pro podporu procesů vytváření znalostních objektů. Těmito tématy se detailněji zabýváme v dalších částech. Text příspěvku je organizován následovně. Druhá kapitola je věnována technologickým aspektům, diskutuje obecné požadavky na vyvíjenou platformu a stručně charakterizuje technologické prostředí celého projektu. Jádro příspěvku tvoří kapitola třetí, v níž jsou rozebrány konkrétní úkoly českého a slovenského týmu. Nejprve je diskutována problematika architektury orientované na webové služby a agentových technologií vhodných pro prostředí KP-Lab. Dále jsou popsána pokročilá řešení, založená na technologiích sémantického webu, která umožňují automatickou analýzu a podporu práce se znalostními objekty. Závěrečná kapitola nastiňuje směry dalšího vývoje v nejbližších měsících.
2
Technologický rámec projektu
Jak bylo nastíněno v úvodní části, základem trialogického učení je interakce mezi různými formami znalostí. Centrálním pojmem jsou znalostní objekty. Ty se mohou v mnoha směrech lišit od běžných učebních objektů, s nimiž pracují dnešní systémy pro podporu výuky. Může jít například o videozáznamy skupiny řešící daný problém, dokumenty (e-maily, záznamy z diskusních fór) shrnujících průběžné závěry jednání, ve skupině společně vyvíjený software, (ne)formální pojmové mapy zachycující chápání dané oblasti v rámci dané skupiny atd. Technologický rámec KP-Lab si klade za cíl podpořit inovativní přístupy teoretické a pedagogické části projektu. Ukazuje se, že prostředky současných výukových systémů, stejně jako existujících systémů pro správu znalostí, neposkytují dostatečné mechanismy pro práci se znalostními objekty vyžadované v KP-Lab. Příkladem může být potřeba uživatelského prostředí pro spolupráci skupin v rámci trialogického učení, které nabídne prostředky pro reprezentaci a manipulaci s různými formami znalostních objektů, vyhledávání znalostí v databázích, extrakci informací z existujících objektů, poloautomatické anotace, automatické vytváření a propojování ontologií odrážejících zaznamenanou znalost, dolování dat z log souborů pro personalizaci, objevování nových vzorů „nevyslovené“ tacitní znalosti atd. Projekt předpokládá vývoj flexibilních distribuovaných služeb dostupných prostřednictvím nejrůznějších klientských zařízení – od PC, přes PDA a komunikátory až po mobilní telefony. Bude využito moderních technologií autonomních agentů a webových služeb, multimediální komunikace v reálném čase a technologie sémantického webu.
Důležitou součástí řešení je také podpora zpracování multimodálních dat a jejich prezentace s důrazem na sdílení dat a spolupráci při jejich anotaci. Někteří partneři projektu dnes rutinně používají různé systémy v této oblasti, a bude tedy velmi obtížné integrovat výsledky projektu do stávajících struktur, např. software pro virtuální konference. Proto se zaměřujeme na definici rozhraní s důrazem na otevřenost, respektování standardů, charakterizaci architektury. Počítáme také s implementací komunikačních bran pro přístup k úložištím multimediálních dat. Jisté aspekty trialogického učení vyžadují specializované technologické prostředky. Například systém Map-It bude podporovat interaktivní proces vytváření myšlenek, sledování argumentů a jejich přehodnocování v průběhu času. Nabídne nástroje pomáhající účastníkům s přípravou argumentace, při zapojení do virtuálních diskusí i při pozdější potřebě reprodukce argumentů. Součástí bude editor argumentačních map – vizuální synchronní prostředí pracující v grafickou reprezentací argumentačního procesu, který se objevuje např. během audio či videokonferencí, automatické generování zápisů z jednání tvořené z těchto map, a nástroj pro analýzu doplňkových informací získaných systémem v průběhu diskusí. KP-Lab klade velký důraz na zachycení implicitní znalosti a její transformaci do podoby sdílených znalostních objektů. Standardním postupem se tedy stává např. analýza „vyprávění příběhů“ (storytelling) a použití audio/videozáznamů ke studiu pracovních postupů. Analýza aktivity jednotlivců a skupin a vytváření jejich profilů je další podstatnou složkou analýzy implicitních znalostí. KP-Lab pracuje s popisem uživatelů na kvalitativně nové úrovni dané identifikací, automatickou extrakcí a zpřesňováním uživatelských profilů na základě použití znalostních objektů a interakce mezi uživateli. Všechna vyvíjená technologická řešení vycházejí z filosofie otevřeného kódu. Ta by měla mj. přispět k znovupoužitelnosti vytvořených nástrojů v dalších projektech zabývajících se příbuznou problematikou.
3
Role českého a slovenského týmu
Po prvních třech měsících ambiciózního projektu, který je plánován na pět let, nelze samozřejmě hovořit o konečné podobě technologických komponent. O některých nástrojích však již dnes můžeme mluvit v přítomném čase, neboť byly vyvinuty v předchozím výzkumu autorů, osvědčily se a v průběhu dalšího období budou integrovány do prostředí KP-Lab. 3.1
Webové služby a agentové technologie v prostředí KP-Lab
Zejména slovenský tým se v prvním období zaměřil na analýzu požadavků a návrhy jednotlivých částí technické infrastruktury projektu. Vzhledem k velkým zkušenostem v této oblasti identifikoval existující technologie vhodné pro prostředí KP-Lab – webové služby, autonomní agenty [10], identifikační, autentikační a bezpečnostní mechanismy. Práce se zpočátku zaměřují na přístupy k popisu webových služeb (WSDL) a mechanismy pro jejich zveřejňování a vyhledávání (UDDI). To se týká zejména základních služeb, které jsou v projektu potřeba – správa identit, logování, autentikace apod. Důraz je kladen na tvorbu znovupoužitelných komponent a na možnosti skládání složitějších služeb s využitím služeb nižší úrovně. Důležitým aspektem je i otevřenost software a dostupnost nástrojů pro návrháře, vývojáře a testery. Vzhledem k evropskému kontextu projektu se velmi nadějnou platformou pro multiagentní systémy jeví nástroj JADE [1], který je referenční implementací standardů FIPA (The Foundation for Intelligent Physical Agents) [2]. Platformy pro multiagentní systémy podporují vývoj pomocí sady obecných komponent a služeb využitelných k implementaci a
nasazení agentních technologií. Komunikace mezi agenty je v JADE realizována pomocí zasílání zpráv, přičemž tyto zprávy odpovídají jazyku FIPA ACL [3]. Vzhledem k nedostatečnému rozšíření agentových technologií v dnešní době se tento přístup jeví jako nejvhodnější, neboť je zajištěna interoperabilita s jinými agentovými systémy, které splňují doporučení FIPA. JADE definuje strukturu chování agentů. Může jít o javové třídy implementující stavový systém nebo pravidlové systémy. JADE poskytuje také základní nástroje pro debugování a monitorování, stejně jako služby identifikace a zveřejňování. Technická infrastruktura projektu KP-Lab má zajistit provozování distribuovaných aplikací jak v pevných sítích, tak na mobilních zařízeních (GPRS, UMTS, WLAN). Vzhledem k nutnosti zajistit přístup z různých typů zařízení je dále zkoumána možnost zapojení technologie JADE-LEAP (Lightweight Extensible Agent Platform) [4], která rozšiřuje možnosti JADE v oblasti mobility agentů a může být provozována v odlehčených javových prostředích typu J2ME-CLDC. JADE-LEAP může být konfigurován pro 3 hlavní typy implementace jazyku Java, které mají být používány v rámci KP-Lab: • j2se – pro práci na serverech a pracovních stanicích v rámci pevné sítě s posledními verzemi JDK; • pjava – na mobilních zařízeních podporujících J2ME CDC nebo PersonalJava, např. na moderních PDA a komunikátorech; • midp – na většině mobilních telefonů s podporou Javy, MIDP 1.0 nebo vyšší. Existuje také tzv. dotnet verze prostředí JADE-LEAP, kterou je možné nasadit v prostředí Microsoft .NET Framework verze 1.1 nebo vyšší. Přes rozdílnou interní strukturu poskytují všechny 4 zmíněné verze prostředí JADE LEAP stejné API, a nabízejí tedy homogenní vrstvu zobecňující rozdílnost zařízení a typů sítí [10]. 3.2
Technologie sémantického webu pro podporu trialogického učení
Aktivita českého a slovenského týmu v této oblasti je součástí vývoje obecného middleware projektu KP-Lab. Technologie sémantického webu implementují služby pro ukládání, prohledávání a aktualizaci znalostních objektů a nabízejí kontextově orientovaný přístup k nim. Učení není v koncepci KP-Lab omezeno na přenos znalosti. Z toho dále vyplývá potřeba nových personalizačních technik. Je také nutné rozšířit existující rozhraní výukových aplikací, aby byla umožněná vzájemná výměna dat se systémem KP-Lab. V prvním období jsme se zaměřili na podporu přístupu, správy a rozšiřování služeb pro sémantický popis znalostních objektů KP-Lab. Tyto služby nabízejí podporu kontextového přístupu k znalostním objektům prostřednictvím ontologií KP-Lab a možnost rozšiřování těchto ontologií na základě automatické analýzy obsahu. Služby pro extrakci informací pomohou také uživatelům vytvářet sémantický popis znalostních objektů. Poloautomatická tvorba takových popisů a vytváření jádra nových ontologií se opírá o použitou technologii zpracování přirozeného jazyka. Na základě sémantického popisu je možné realizovat mechanismus doporučování znalostních objektů. Jeho součástí jsou explicitně uvedené preference uživatel, stejně jako automaticky extrahované části profilu získané analýzou chování. Uživatelé mohou být automaticky informování, pokud nové znalostní objekty odpovídají jejich preferencím. V rámci automatické extrakce informací ze znalostních objektů a jejich propojování s ontologiemi jsou vyvíjeny nástroje umožňující vybírat relevantní pojmy z pojmových sítí a doplňovat existující ontologie. Uživatelské prostředí umožní interaktivní konstrukci a
udržování ontologií. Za pomoci nástrojů vyvíjených na FORTH [5] je postupně implementováno škálovatelné úložiště sémantických popisů znalostních objektů a odpovídajících ontologií. Přístup k uloženým datům je zprostředkován moderními deklarativními dotazovacími a modifikačními jazyky [6]. Ontologie využívané v rámci projektu předpokládají explicitní reprezentaci nejistoty, která byla navržena v našem předchozím výzkumu [7]. Další práce se budou věnovat i inferenci skrytých znalostí a jejich začlenění do procesu trialogického učení. Základní funkcionalitu námi řešených celků lze shrnout do následujících bodů: • extrakce a efektivní uložení doménových pojmů a jejich vzájemných vztahů; • inference implicitní doménové znalosti; • export do RDF, dotazování a extrakce dat prostřednictvím RQL. Naším cílem je zpracovat volný nebo strukturovaný obsah znalostních objektů a vytvořit základní pojmové struktury, extrahovat lexikálně-sémantické vzory založené na analýze četnosti a výskytech syntaktických vzorů, automaticky sloučit vytvořené struktury a aktualizovat základní doménové ontologie KP-Lab. Zpracování zahrnuje nezbytné složky analýzy přirozeného jazyka – tokenizaci, morfologické značkování a analýzu povrchové syntaxe. Pro vlastní extrakci používáme opět naše dříve vyvinuté metody [8]. Současně jsou aplikovány přístupy ověřené v rámci vývoje Jbowl [9].– javové knihovny, která poskytuje standardní API pro dolování dat z textových dokumentů. Důležitá je zejména implementace různých schémat přiřazování váhy termům ve vektorovém modelu, metody výběru termů (tf, IG, CHI), rozhraní pro přístup k sémantickým sítím typu wordnet a strukturám MESH, klasifikační modely (kNN, SVM, rozhodovací stromy, pravidlové systémy, naivní bayesovské přístupy atd.) a shlukování pomocí algoritmů k-Means a GH(SOM). Knihovna Jbowl je v současné době integrována s vyhledávacím strojem Lucene, s webovou aplikací J2EE (Webocrat) a prostředím pro paralelní a distribuované počítání GridMiner. V rámci projektu se dále předpokládá integrace do prostředí GATE jako modulu pro extrakci informací z textů, stejně jako rozšíření vícejazyčných metod zpracování přirozeného jazyka.
4
Závěr a směry dalšího vývoje
Jak je jistě patrné z diskutovaných vlastností, cíle projektu KP-Lab je velmi ambiciózní a k jejich naplnění je potřeba spolupráce mnoha odborníků z různých oblastí. Českému a slovenskému týmu, které pracují v úzké kooperaci, se už od prvních měsíců podařilo zapojit do práce špičkových evropských týmů a díky účasti ve všech technologických celcích i ovlivňovat do značné míry vývoj celého projektu. Jsou tedy vytvořeny dobré předpoklady pro následné využití výsledků projektu v českém a slovenském prostředí, zejména v akademické sféře, jíž jsou oba autoři součástí. Zmíněná velikost a mezioborovost projektu má samozřejmě i své stinné stránky. Současným největším úkolem projektu je sjednotit pojmy a najít společný jazyk mezi teoretickou, pedagogickou a technologickou částí. Stejně tak je nutné překonat striktní dělení dané strukturou projektu a zajistit pravidelnou komunikaci i mezi odborníky ze vzdálených oborů. To vyžaduje zejména aktuální potřeba technické formalizace trialogického učení a definice příslušných požadavků na technologickou podporu. Vedle obecných kroků stojí samozřejmě před českým a slovenským týmem mnoho bezprostředních úkolů, na které se zaměří v nejbližším období. Nástroje pro extrakci sémantických vztahů a doplňování ontologií dnes nepracují s formátem RDF, a bude tedy
potřeba implementovat příslušné převodní procedury. Vzhledem k orientaci na dotazovací jazyk RQL a další nástroje poskytované FORTH bude dále nutné vyvinout rozhraní propojující moduly extrakce informací se systémem RDFSuite. Přitom bude nutné vyřešit problémy spojené s doplňkovými informacemi, které zajišťují explicitní reprezentaci neurčitosti. Po konečném schválení koncepce multiagentního vývoje bude také nezbytné zajistit komunikaci nových nástrojů se stávajícími integrovanými systémy, které neposkytují prostředky pro výměnu informací s ostatními agenty. Tato práce byla podpořena projektem KP-Lab (Knowledge-Practices Laboratory) v rámci programu IST, smlouva č. 27490.
Použitá literatura a WWW odkazy 1. Java Agent DEvelopment Framework (JADE) – http://jade.cselt.it/. 2. The Foundation for Intelligent Physical Agents (FIPA) – http://www.fipa.org/. 3. BELLIFEMINE, F., POGGI, A., RIMASSA, G. Developing multi-agent systems with FIPAcompliant agent framework. Software Practice and Experience 31(2), 2001, s. 103-128 4. LEAP User Guide, January 2006 – http://jade.cselt.it/doc/LEAPUserGuide.pdf 5. ALEXAKI, S., CHRISTOPHIDES, V., KARVOUNARAKIS, G., PLEXOUSAKIS, D., TOLLE, K. The ICS-FORTH RDFSuite: Managing Voluminous RDF Description Bases, In Proc. of the 2nd International Workshop on the Semantic Web (SemWeb'01), in conjunction with Tenth International World Wide Web Conference (WWW10), s. 1-13, Hongkong, 2001. 6. KARVOUNARAKIS, G., MAGKANARAKI, A., ALEXAKI, S., CHRISTOPHIDES, V., PLEXOUSAKIS, D., SCHOLL, M., TOLLE, K. RQL: A Functional Query Language for RDF, In: The Functional Approach to Data Management: Modelling, Analyzing and Integrating Heterogeneous Data, LNCS Series, Springer-Verlag, 2004. 7. NOVÁČEK, V., SMRŽ, P. Empirical Merging of Ontologies – A Proposal of Universal Uncertainty Representation Framework. In Proceedings of the 3rd European Semantic Web Conference – ESWC 2006. 8. SMRŽ, P., NOVÁČEK, V. Ontology Acquisition for Automatic Building of Scientific Portals, SOFSEM 2006, Springer-Verlag, 2006, s. 493-500, ISBN 3-540-31198-X. 9. PARALIČ, J., BEDNÁR, P. Text Mining for Document Annotation and Ontology Support. Book chapter in: Intelligent Systems at the Service of Mankind, Ubooks, Germany, 2003, s. 237-248. 10. PARALIČ, M.: Agent-based solution for flexible services. In Proceedings of the 6th Workshop on Data Analysis, Abaújszántó, Hungary, 2005, pp. 1-9, ISBN 80-8086-015-7