Laboratoř inteligentních systemů, Praha a technickou diagnostiku (angl. troubleshooting). Nejprve stručně shrneme teoretické

Dveˇ aplikace bayesovskyćh sı´tı´? Jirˇ´ı Vomlel [email protected] Laboratorˇ inteligentnıćh systemu˚, Vysoka´ sˇkola ekonomicka´, Praha

Abstrakt V cˇlańku prˇedstavujeme dveˇ modernı´ aplikace bayesovskyćh sı´tı´ - adaptivnı´ testovańı´ a technickou diagnostiku (angl. troubleshooting). Nejprve strucˇneˇ shrneme teoreticke´ za´klady a navrhneme obecny´ ra´mec pouzˇity´ prˇi vytva´rˇenı´ strategiı´ pomocı´ bayesovskyćh sı´tı´. Na´sledneˇ popı´sˇeme aplikaci teorie prˇi adaptivnı´m testovańı´ a v technicke´ diagnostice. Tento cˇlańek vycha´zı´ ze zkusˇenostı´, ktere´ jsme zı´skali prˇi rˇesˇenı´ dvou projektu˚: - studentske´m semestra´lnı´m projektu beˇhem neˇhozˇ byl navrzˇen adaptivnı´ test znalostı´ zˇa´ku˚ rˇesˇ´ıcıćh za´kladnı´ u´lohy se zlomky - a prˇi projektu SACSO, spolecˇne´m projektu firmy Hewlett-Packard a Aalborgske´ univerzity v Dańsku, zameˇrˇene´m na diagnostiku slozˇityćh elektro-mechanickyćh zarˇ´ızenı´.

´ vod U

1

V te´to kapitole prˇedstavı´me bayesovske´ sı´teˇ a popı´sˇeme dveˇ za´kladnı´ u´lohy spolecˇne´ pro obeˇ aplikace popsane´ v tomto cˇlańku: (1) vytva´rˇenı´ modelu bayesovske´ sı´teˇ a (2) pouzˇitı´ modelu pro hledańı´ rˇesˇ´ıcı´ strategie. 1.1

Bayesovske´ sı´teˇ

Bayesovske´ sı´teˇ patrˇ´ı do skupiny pravdeˇpodobnostnıćh grafovyćh modelu˚ ktere´ jsou schopny modelovat proble´my, ve kteryćh je trˇeba pracovat s nejisty´mi (va´gnı´mi) informacemi. Na´vrh pouzˇ´ıt bayesovske´ sı´teˇ v oblasti expertnıćh syste´mu se poprve´ objevuje v pracıćh [18] a [21]. Prvnı´ skutecˇnou aplikacı´ byl expertnı´ syste´m pro elektromyografii Munin [2] a Pathfinder system [7]. Od te´ doby byly bayesovske´ sı´teˇ u´speˇsˇneˇ pouzˇity v mnoha oblastech. Sı´la teˇchto modelu˚ je zalozˇena nejen na jejich schopnosti prova´deˇt efektivneˇ vy´pocˇty se stovkami velicˇin za´rovenˇ, naprˇ. pouzˇitı´m metody popsane´ v pracech [14]) a v [11], ale take´ na jejich schopnosti pomoci cˇloveˇku le´pe porozumeˇt modelovane´ oblasti. Toho je dosazˇeno hlavneˇ dı´ky velmi dobrˇe srozumitelne´ reprezentaci neza´vislostı´ mezi velicˇinami pomocı´ acyklickyćh orientovanyćh grafu˚. Bayesovska´ sı´t’ je tvorˇena acyklickyćh orientovany´m grafem G = (V, E), ke kazˇde´mu uzlu i ∈ V je prˇirˇazena jedna na´hodna´ velicˇina Xi s konecˇnou mnozˇinou Xi navza´jem disjunktnıćh stavu˚ a tabulka podmıńeˇne´ pravdeˇpodobnosti P (Xi | (Xj )j∈pa(i) ), kde pa(i) oznacˇuje mnozˇinu rodicˇu˚ uzlu i v grafu G. Viz obra´zek 1, kde je uveden prˇ´ıklad bayesovske´ sı´teˇ. ?

Tato praće je cˇeskou verzı´ cˇlańku publikovane´ho na konferenci Znalosti 2003. Autor byl podporˇen grantem Grantove´ agentury Cˇeske´ republiky cˇ´ıslo 201/02/1269.

X1 P (X1 )

X2 P (X2 )

P (X3 | X1 ) X3 X5 P (X5 | X1 )

X7

X8

P (X7 | X5 )

X4 P (X4 | X2 ) X6 P (X6 | X3 , X4 )

X9 P (X9 | X6 )

P (X8 | X7 , X6 )

Obra´zek 1. Prˇ´ıklad bayesovske´ sı´teˇ

Bayesovska´ sı´t’reprezentuje kvalitativnı´ i kvantitativnı´ znalosti. Kvantitativnı´ znalosti jsou reprezentovańy pomocı´ tabulek podmıńeˇne´ pravdeˇpodobnosti, zatı´mco kvalitativnı´ znalosti pomocı´ acyklicke´ho orientovane´ho grafu. Tento graf vyjadrˇuje vztahy podmıńeˇne´ neza´vislosti mezi velicˇinami (Xi )i∈V . Koncept nazy´vany´ d-separace, zavedeny´ v praći [19], mu˚zˇe by´t vyuzˇit pro zı´skańı´ podmıńeˇnyćh neza´vislostı´ z grafu. Jestlizˇe P (Xi | Y) = P (Xi | Y, Xj ) ˇr´ıka´me, zˇe velicˇiny Xi , Xj jsou podmıńeˇneˇ neza´visle´, je-li dańa mnozˇina velicˇin Y. Velicˇiny Xi , Xj jsou d-separovańy mnozˇinou Y jestlizˇe, pro vsˇechny cesty1 spojujıćı´ uzly i a j existuje mezilehly´ uzel k takovy´, zˇe bud’ (1) hrany se nesetka´vajı´ “head-to-head” v uzlu k a Xk ∈ Y, nebo (2) hrany se setka´vajı´ “head-to-head” v uzlu k a ani Xk , ani zˇa´dny´ jeho potomek v grafu G, nepatrˇ´ı do Y. Za´kladnı´ pozˇadavek na pravdeˇpodobnostnı´ rozdeˇlenı´ P odpovı´dajıćı´ bayesovske´ sı´ti je, aby vsˇechny velicˇiny Xi , Xj , ktere´ jsou d-separovańy mnozˇinou Y, byly podmıńeˇneˇ neza´visle´ dańo Y v P . Pomeˇrneˇ snadno se da´ uka´zat, zˇe pravdeˇpodobnostnı´ rozdeˇlenı´ splnˇujıćı´ uvedeny´ pozˇadavek a za´rovenˇ majıćı´ podmıńeˇne´ pravdeˇpodobnosti rovny P (Xi | (Xj )j∈pa(i) ), i ∈ V je pra´veˇ jedno a rovna´ se soucˇinu podmıńeˇnyćh pravdeˇpodobnostı´, t.j. P ((Xi )i∈V ) =

Y

P (Xi | (Xj )j∈pa(i) ) .

i∈V

Cˇtena´rˇe, ktere´ by zajı´mal detailnı´ u´vod do teorie bayesovskyćh sı´tı´, odkazujeme na knihu [9]. 1.2

Vytva´rˇenı´ modelu˚

Pro vytva´rˇenı´ modelu˚ bayesovskyćh sı´tı´ se obvykle pouzˇ´ıvajı´ trˇi za´kladnı´ prˇ´ıstupy: 1

Cestou v orientovane´m grafu G rozumı´me posloupnost uzlu˚ v1 , . . . , vk takovou, zˇe pro i = 2, . . . , k bud’ (vi−1 , vi ) nebo (vi , vi−1 ) je hranou grafu G a pro i 6= j platı´, zˇe vi 6= vj .

– Na´vrha´rˇ modelu konzultuje experta oboru, ktery´ mu poskytne expertnı´ znalosti o modelovane´m proble´mu, oblasti, cˇi zarˇ´ızenı´. Tyto znalosti na´vrha´rˇ pouzˇije prˇi vytva´rˇenı´ struktury modelu a pro specifikaci cˇ´ıselnyćh hodnot v tabulkaćh podmıńeˇne´ pravdeˇpodobnosti. – Shroma´zˇdı´ se data obsahujıćı´ za´znamy o chovańı´ modelovane´ho proble´mu, oblasti, cˇi zarˇ´ızenı´. Na´sledneˇ se pouzˇije neˇktera´ metoda strojove´ho ucˇenı´, pomocı´ ktere´ zı´ska´me jak strukturu modelu, tak odhady cˇ´ıselnyćh hodnot v tabulkaćh podmıńeˇne´ pravdeˇpodobnosti. – Trˇetı´ za´kladnı´ prˇ´ıstup je kombinace prˇedchozıćh dvou. Naprˇ´ıklad struktura modelu je navrzˇena prˇi konzultacıćh s expertem, ale cˇ´ıselne´ parametry jsou odhadovańy ze shroma´zˇdeˇnyćh dat pomocı´ neˇktere´ ze statistickyćh metod. I strucˇny´ prˇehled ru˚znyćh metod, ktere´ je mozˇne´ pouzˇ´ıt pro vytva´rˇenı´ modelu˚ bayesovskyćh sı´tı´ by znacˇneˇ prˇekrocˇil rozsah tohoto cˇlańku. Vıće informacı´ mu˚zˇe cˇtena´rˇ nale´zt naprˇ´ıklad v knize [5], kde je neˇkolik kapitol veˇnovańo ucˇenı´ modelu˚. V kapitole 2 popı´sˇeme, jak byla vytvorˇena bayesovska´ sı´t’pouzˇita´ prˇi adaptivnı´m testovańı´ znalostı´. 1.3

Vytva´rˇenı´ strategiı´ pomocı´ modelu˚

Strategie popisuje kroky, ktere´ ma´ uzˇivatel syste´mu ucˇinit, aby dosa´hl pozˇadovany´ cı´l. Prˇ´ıklady kroku˚ jsou: (1) akce na zarˇ´ızenı´, kterou uzˇivatel udeˇla´, nebo (2) pozorovańı´, ktere´ uzˇivatel ucˇinı´, nebo (3) odpoveˇd’ uzˇivatele na polozˇenou ota´zku. Protozˇe nenı´ doprˇedu zrˇejme´, jaky´ bude vy´sledek provedene´ho kroku, kazˇda´ strategie musı´ specifikovat, co ma´ uzˇivatel ucˇinit pro vsˇechny mozˇne´ kombinace vy´sledku˚ vsˇech prˇedchozıćh kroku˚. Takzˇe strategie mu˚zˇe by´t reprezentovańa pomocı´ orientovane´ho stromu. Je vy´hodne´ definovat dva druhy uzlu˚ stromu - na´hodne´ uzly a termina´lnı´ uzly. Kazˇdy´ na´hodny´ uzel odpovı´da´ jednomu kroku strategie. Termina´lnı´ uzly jsou listy stromu, kde strategie koncˇ´ı. Jedno pouzˇitı´ strategie, ktere´ budeme nazy´vat sezenı´, odpovı´da´ cesteˇ ve stromu zacˇ´ınajıćı´ v korˇenu stromu a koncˇ´ıcı´ v neˇktere´m z uzlu˚ stromu. Obra´zek 2 prˇedstavuje prˇ´ıklad strategie adaptivnı´ho testu slozˇene´ ze dvou ota´zek. Elipsy prˇedstavujı´ na´hodne´ uzly a kosocˇtverce termina´lnı´ uzly. Kazˇdy´ na´hodny´ uzel je oznacˇen na´zvem kroku, ktery´ mu odpovı´da´. Kazˇda´ hrana vycha´zejıćı´ z na´hodne´ho uzlu je oznacˇena vy´sledkem kroku odpovı´dajıćı´ho dotycˇne´mu uzlu. Strategie reprezentovana´ tı´mto stromem je na´sledujıćı´: Jestlizˇe odpoveˇd’ na prvnı´ ota´zku X2 je spra´vneˇ pak druha´ ota´zka je X3 jinak druha´ ota´zka je X1 . Necht’ S oznacˇuje mnozˇinu vsˇech prˇ´ıpustnyćh strategiı´ rˇesˇenı´ dane´ho proble´mu a necht’ L(s) oznacˇuje mnozˇinu vsˇech termina´lnıćh uzlu˚ strategie s ∈ S. Definujeme hodnotıćı´ funkci f : ∪s∈S L(s) 7→ R. Cı´lem je minimalizovat hodnotu te´to funkce na konci sezenı´. Vy´stupy navrzˇenyćh kroku˚ nejsou doprˇedu zna´my, pouze pravdeˇpodobnost P (e` ) ukoncˇenı´ sezenı´ v uzlu ` ∈ L mu˚zˇe by´t spocˇtena pomocı´ modelu reprezentovane´ho bayesovskou sı´tı´. Pro strategii s ∈ S definujeme ocˇeka´vanou hodnotu hodnotıćı´ funkce Ef (s) =

X `∈L(s)

P (e` ) · f (e` ) .

(1)

X3 = yes X3 :

1 4

X2 = yes X2 :

1 5

<

2 ? 5

X3 = no

1 ? 4

X2 = no

<

X1 = yes X1 :

1 5

<

2 ? 5

X1 = no

Obra´zek 2. Prˇ´ıklad strategie adaptivnı´ho testu

Cı´l tak mu˚zˇe by´t formalizovań jako hledańı´ strategie s? ∈ S majıćı´ minima´lnı´ hodnotu Ef (s) ze vsˇech prˇ´ıpustnyćh strategiı´ s ∈ S. Cˇasto se sta´va´, zˇe nenı´ mozˇne´, kvu˚li kombinatoricke´ slozˇitosti proble´mu, najı´t optima´lnı´ strategii. Mı´sto toho se pouzˇ´ıvajı´ ru˚zne´ heuristicke´ metody poskytujıćı´ suboptima´lnı´ rˇesˇenı´. V kapitole 2 je tento prˇ´ıstup pouzˇit v adaptivnı´m testovańı´ a v kapitole 3 v technicke´ diagnostice. Tyto aplikace majı´ ru˚zne´ typy modelu˚ bayesovskyćh sı´tı´, ru˚zneˇ definovane´ mnozˇiny prˇ´ıpustnyćh strategiı´ a rozdı´lne´ hodnotıćı´ funkce f . Uvidı´me, zˇe take´ metody pouzˇite´ prˇi hledańı´ suboptima´lnı´ strategiı´ jsou rozdı´lne´.

2

Adaptivnı´ testovańı´

Testy, ktere´ se automaticky prˇizpu˚sobujı´ zjisˇteˇne´ u´rovni znalostı´ zkousˇene´ho, se nazy´vajı´ adaptivnı´ testy. Po zı´skańı´ odpoveˇdi na polozˇenou ota´zku, automaticky´ syste´m vybere na´sledujıćı´ ota´zku s vyuzˇitı´m znalosti zı´skane´ na za´kladeˇ prˇedchozıćh odpoveˇdı´ zkousˇene´ho. Jednoduchy´ prˇ´ıklad adaptivnı´ho testu byl uka´zań na obra´zku 2. Protozˇe realizace adaptivnı´ho testu vyzˇaduje pouzˇitı´ pocˇ´ıtacˇu˚, je tento prˇ´ıstup cˇasto nazy´vań pocˇ´ıtacˇove´ adaptivnı´ testovańı´, anglicky computerized adaptive testing (CAT). Vıće informacı´ je mozˇne´ zı´skat v publikacıćh [25] a [15]. 2.1

Bayesovska´ sı´t’pro adaptivnı´ testovańı´

Autorˇi praće [1] navrhli pouzˇitı´ grafovyćh pravdeˇpodobnostnıćh modelu˚ pro pocˇ´ıtacˇove´ adaptivnı´ testovańı´. Jejich model se skla´da´ z modelu studenta a neˇkolika pozorovacıćh modelu˚. Kazˇdy´ pozorovacı´ model odpovı´da´ jedne´ ota´zce. Nejprve na´vrha´rˇ testu specifikuje testovane´ znalosti a dovednosti Y = {Y1 , . . . , Yk } a prˇipravı´ soubor ota´zek X = {X1 , . . . , Xm }. Model studenta popisuje vztahy mezi znalostmi a dovednostmi studenta. Expertnı´ znalost o studentech je tak reprezentovańa sdruzˇeny´m pravdeˇpodobnostnı´ rozdeˇlenı´m P (Y1 , . . . , Yk ) definovane´m pro velicˇiny z modelu studenta. Nynı´ se budeme veˇnovat konkre´tnı´mu prˇ´ıpadu vytva´rˇenı´ modelu studenta rˇesˇ´ıcı´ho za´kladnı´ u´lohy se zlomky [23].

Nejprve, skupina studentu˚ Aalborgske´ univerzity prˇipravila papı´rove´ testy. Tyto testy rˇesˇili studenti prvnı´ho rocˇnı´ku strˇednı´ sˇkoly v obci Brønderslev. Byly testovańy cˇtyrˇi za´kladnı´ dovednosti - scˇ´ıtańı´, odcˇ´ıtańı´, na´sobenı´ a porovna´vańı´ zlomku˚, cˇtyrˇi operacˇnı´ dovednosti - kraćenı´ zlomku˚, prˇevod nepravyćh zlomku˚ na slozˇene´ zlomky a obraćeneˇ, hledańı´ spolecˇne´ho deˇlitele a schopnosti aplikovat operacˇnı´ dovednosti v komplexnıćh u´lohaćh. Studenti Aalborgske´ univerzity shrnuli vy´sledky jako seznam datovyćh za´znamu˚ o jednotlivyćh studentech. Bylo objeveno neˇkolik typickyćh sˇpatnyćh prˇ´ıstupu˚ k rˇesˇenı´ neˇkteryćh operacı´, ktere´ byly take´ zahrnuty jako velicˇiny do modelu studenta. Jako druhy´ krok byla pomocı´ PC-algoritmu [22], implementovane´ho v syste´mu Hugin [8], vytvorˇena struktura modelu studenta. Tato automaticka´ metoda ucˇenı´ poskytla prvnı´ na´hled na vztahy mezi velicˇinami. Na´sledneˇ byly neˇktere´ vztahy mezi velicˇinami vysveˇtleny pomocı´ takzvanyćh latentnıćhch velicˇin2 . Byly take´ vynuceny neˇktere´ za´vislosti mezi velicˇinami pomocı´ vynucenyćh hran v modelu. Vy´sledny´ model byl opeˇt naucˇen pomocı´ PC-algoritmu avsˇak prˇi pouzˇitı´ vy´sˇe zminˇovanyćh pozˇadavku˚ na vy´sledny´ model. Cˇ´ıselne´ parametry konecˇne´ho modelu byly odhadnuty z dat pomocı´ EM-algoritmu [13]. Vy´sledny´ model studenta je zobrazen na obra´zku 3. Uzly v prvnı´ rˇadeˇ odspoda odpovı´dajı´ pozorovany´m sˇpatny´m postupu˚m, sˇede´ uzly ve druhe´ rˇadeˇ za´kladnı´m dovednostem, nevyplneˇne´ uzly v druhe´ rˇadeˇ odpovı´dajı´ operacˇnı´m dovednostem a sˇede´ uzly ve trˇetı´ rˇadeˇ aplikacˇnı´m dovednostem. Uzel umı´steˇny´ nejvy´sˇe odpovı´da´ jedne´ latentnı´ velicˇineˇ. Detailneˇjsˇ´ı popis modelu je mozˇne´ nale´zt v cˇlańku [23].

HV1

ACL

CP

MMT1

MT

MMT4

MMT3

CL

MMT2

CMI

CIM

ACMI

ACIM

MC

ACD

CD

AD

SB

MAD

MSB

Obra´zek 3. Model studenta.

Jak bylo uvedeno na zacˇa´tku te´to kapitoly, pro kazˇdou ota´zku Xj ∈ X je vytvorˇen jeden pozorovacı´ model. Tento model popisuje za´vislost mezi danou ota´zkou Xj a relevantnı´mi dovednostmi, prˇ´ıpadneˇ sˇpatny´mi postupy v modelu studenta. Prˇ´ıklad u´lohy je 1 1 4 1 3 1 ´ lohu meˇl by mı´t 3 − 12 = 12 − 12 = 12 = 4 . Aby student byl schopen vyrˇesˇit tuto u dovednosti SB (odcˇ´ıtańı´), CL (kraćenı´), ACL (aplikace kraćenı´), CD (nalezenı´ spolecˇne´ho deˇlitele), ACD (aplikace nalezenı´ spolecˇne´ho deˇlitele), a nemeˇl by mı´t M SB 2

Latentnı´ velicˇina je velicˇina, jejı´zˇ hodnota nenı´ v datech nikdy pozorovańa. Mu˚zˇe vsˇak naprˇ´ıklad modelovat spolecˇnou nepozorovanou prˇ´ıcˇinu neˇkolika pozorovanyćh velicˇin.

sˇpatny´ postup prˇi odcˇ´ıtańı´. Na obra´zku 4 je zobrazena struktura pozorovacı´ho modelu pro tuto u´lohu. Vztah mezi velicˇinou Tj a souvisejıćı´mi dovednostmi a sˇpatny´m postupem

CL

ACL

MSB

SB

CD

Tj

ACD

Xj

Obra´zek 4. Pozorovacı´ model u´lohy Xj .

mu˚zˇe by´t popsań boolovskou funkcı´. Ve skutecˇnosti ale student mu˚zˇe udeˇlat chybu, ikdyzˇ ma´ vsˇechny potrˇebne´ prˇedpoklady pro spra´vne´ rˇesˇenı´ u´lohy. Na druhou stranu, spra´vna´ odpoveˇd’ nemusı´ vzˇdy znamenat, zˇe student ma´ vsˇechny potrˇebne´ prˇedpoklady, naprˇ´ıklad kdyzˇ spra´vnou odpoveˇd’ pouze uhodl. Tato nejistota je modelovańa pomocı´ podmıńeˇne´ho pravdeˇpodobnostnı´ho rozdeˇlenı´ P (Xj | Tj ) odhadnute´ho ze shroma´zˇdeˇnyćh dat. 2.2

Vytva´rˇenı´ adaptivnıćh testu˚

Obvykle adaptivnı´ test skoncˇ´ı, kdyzˇ byl polozˇen prˇedem urcˇeny´ pocˇet ota´zek, nebo kdyzˇ zkousˇejıćı´ zı´skal postacˇujıćı´ informace o zkousˇene´m. Takove´ podmıńky definujı´ mnozˇinu prˇ´ıpustnyćh strategiı´ S. Kazˇdy´ zkousˇejıćı´ chce maximalizovat informace, ktere´ ma´ o zkousˇene´m na konci testu. Jednou z mozˇnostı´ formalizace tohoto pozˇadavku je usilovat o pravdeˇpodobnostnı´ rozdeˇlenı´ P (Y1 , . . . , Yk ) minimalizujıćı´ Shannonovu entropii na konci testu [3]. Shannonova entropie (zkraćeneˇ entropie) H(P ) pravdeˇpodobnostnı´ho rozdeˇlenı´ P (Y1 , . . . , Yk ) je definovańa na´sledovneˇ: X H(P ) = − P (Y1 = y1 , . . . , Yk = yk ) · log P (Y1 = y1 , . . . , Yk = yk ) . y1 ,...,yk

V kazˇde´m termina´lnı´m uzlu ` testovacı´ strategie s spocˇteme entropii podmıńeˇne´ho pravdeˇpodobnostnı´ho rozdeˇlenı´ podmıńeˇne´ho zı´skanou evidencı´, t.j. H(e` ) = H(P (Y1 , . . . , Yk | e` )) . Pouzˇijeme-li substituci f (e` ) = H(e` ) vzorec 1 mu˚zˇeme prˇepsat jako X EH (s) = P (e` ) · H(e` ) .

(2)

`∈L(s)

Cı´lem je tedy najı´t testovacı´ strategii s ∈ S minimalizujıćı´ ocˇeka´vanou entropii EH (s).

V praxi se cˇasto pouzˇ´ıvajı´ tzv. hladove´ heuristiky, pomocı´ ktery´ nalezneme suboptima´lnı´ test. Test, ktery´ se nazy´va´ kra´tkozrace optima´lnı´ je test slozˇeny´ z ota´zek vybranyćh tak, zˇe kazˇda´ ota´zka minimalizuje ocˇeka´vanou entropii po odpoveˇzenı´ jedne´ ota´zky. Strategie nalezene´ tı´mto zpu˚sobem nemusı´ by´t optima´lnı´, ale v praxi se cˇasto ukazuje, zˇe se prˇ´ılisˇ nelisˇ´ı od optima´lnıćh strategiı´. 2.3

Vy´sledky a porovnańı´ s jiny´mi prˇ´ıstupy

Klasicky´m prˇ´ıstupem pouzˇ´ıvany´m v testovańı´ znalostı´ od 60. let 20. stoletı´ je teorie odezvy (angl. item response theory - IRT) [16, 20]. Tato metoda modeluje studenta pomocı´ jedne´ velicˇiny Θ. Tento jednoduchy´ model je vhodny´ naprˇ´ıklad pro hodnocenı´ studentu˚, ale nenı´ schopen poskytnout detailneˇjsˇ´ı diagnostiku. Rozsˇ´ırˇenı´m je vıćerozmeˇrna´ teorie odezvy, kde se pouzˇ´ıva´ neˇkolik velicˇin reprezentujıćıćh ru˚zne´ aspekty souvisejıćı´ se znalostmi a schopnostmi zkousˇene´ho. Aplikace bayesovskyćh sı´tı´ je mozˇne´ povazˇovat za zobecneˇnı´ vıćerozmeˇrna´ teorie odezvy prˇina´sˇejıćı´ dveˇ za´kladnı´ vy´hody. – Bayesovska´ sı´t’ je schopna le´pe modelovat usuzovańı´ studenta a umozˇnuje hlubsˇ´ı pochopenı´ modelovane´ho proble´mu. – Protozˇe model studenta reprezentovany´ pomocı´ bayesovske´ sı´teˇ je schopen zachytit vztahy mezi testovany´mi dovednostmi a schopnostmi, je mozˇne´ podstatneˇ zkra´tit adaptivnı´ test prˇi zachovańı´ spolehlivosti vy´sledku˚. Vy´sledky experimentu˚ s adaptivnı´mi testy vyuzˇ´ıvajıćı´mi bayesovske´ sı´teˇ, prezentovane´ v cˇlańku [23], ukazujı´, zˇe bylo mozˇne´ dobrˇe odhadovat skutecˇne´ dovednosti studenta. V pru˚meˇru vıće nezˇ 90% dovednostı´ bylo spra´vneˇ odhadnuto jizˇ po sedmi polozˇenyćh ota´zkaćh. V papı´rovyćh (neadaptivnıćh testech) bylo trˇeba polozˇit 20 ota´zek pro dosazˇenı´ stejne´ kvality predikce. Dalsˇ´ı experimenty s bayesovsky´mi sı´teˇmi v oblasti adaptivnı´ho testovańı´ a vyúky (angl. tutoring) jsou popsańy v cˇlańku [17], respektive v cˇlańku [4].

3

Technicka´ diagnostika

Technicka´ diagnostika je cˇasto velmi slozˇita´ u´loha. Proto pocˇ´ıtacˇove´ syste´my vyuzˇ´ıvajıćı´ postupneˇ zı´skane´ informace o diagnostikovane´m zarˇ´ızenı´ mohou podstatneˇ zrychlit diagnosticky´ proces [6]. 3.1

Bayesovske´ sı´teˇ v technicke´ diagnostice

V cˇlańku [10] je popsańo vyuzˇitı´ bayesovske´ sı´teˇ v technicke´ diagnostice. Model bayesovske´ sı´teˇ zachycuje vztahy mezi trˇemi typy velicˇin: poruchami zarˇ´ızenı´ F ∈ F, akcemi A ∈ A, t.j. opravny´mi kroky ktere´ mohou odstranit poruchu a pozorovańı´mi Q ∈ Q kroky ktere´ nemohou odstranit poruchu, ale mohou ji pomoci odhalit. Kazˇde´ akci a pozorovańı´ je prˇirˇazena cena c, ktera´ mu˚zˇe naprˇ´ıklad prˇedstavovat cˇas potrˇebny´ pro provedenı´ dotycˇne´ akce cˇi pozorovańı´, nebo cenu, kterou je trˇeba za provedenı´ akce cˇi pozorovańı´

zaplatit. Pouzˇijeme zjednodusˇeny´ prˇ´ıklad z cˇlańku [24], abychom ilustrovali, jak mu˚zˇe probı´hat technicka´ diagnostika laserove´ tiska´rny. Example 1 (Sveˇtly´ tisk). Prˇedpokla´dejme, zˇe tiska´rna vytiskne strańku, ktera´ je prˇ´ılisˇ sveˇtla´. Tento proble´m mu˚zˇe mı´t mnoho prˇ´ıcˇin. Uvazˇujme zjednodusˇeny´ model obsahujıćı´ pouze 4 mozˇne´ prˇ´ıcˇiny sveˇtle´ho tisku: F1 distribucˇnı´ proble´m toneru, F2 vadny´ toner, F3 narusˇeny´ tok dat, a F4 sˇpatne´ nastavenı´ ovladacˇe. Necht’ akce, ktere´ mohou vyrˇesˇit tento proble´m jsou: A1 “vyjmeˇte toner, zatrˇeste s nı´m a ulozˇte ho zpeˇt” s cenou c1 = 5, A2 “zkuste jiny´ toner” s cenou c2 = 15 a A3 “vypneˇte a zase zapneˇte tiska´rnu” s cenou c3 = 1. Pro kazˇdou akci expert zadal podmıńeˇnou pravdeˇpodobnost P (Ai = yes | Fj ). Naprˇ´ıklad, akce A2 “zkuste jiny´ toner” vyrˇesˇ´ı distribucˇnı´ proble´m toneru a vadny´ toner s pravdeˇpodobnostı´ 0.9, t.j. P (A2 = yes | Fi ) = 0.9, i = 1, 2, ale nevyrˇesˇ´ı sˇpatne´ nastavenı´ ovladacˇe, t.j. P (A2 = yes | F4 ) = 0. Cˇasto je vy´hodne´ polozˇit beˇhem diagnostiky neˇkolik ota´zek o stavu zarˇ´ızenı´. Odpoveˇdi mohou pomoci identifikovat prˇ´ıcˇinu proble´mu zarˇ´ızenı´. Naprˇ´ıklad, jestlizˇe odpoveˇd’ na ota´zku Q1 “Je konfiguracˇnı´ strańka vytisˇteˇna sveˇtle?” je negativnı´ pak prˇ´ıcˇiny F1 distribucˇnı´ proble´m toneru a F2 vadny´ toner je mozˇne´ vyloucˇit. Pro kazˇdou ota´zku Qi a kazˇdou prˇ´ıcˇinu Fj expert definuje podmıńeˇnou pravdeˇpodobnost P (Qi = yes | Fj ). U veˇtsˇiny technickyćh zarˇ´ızenı´ je mozˇne´ prˇedpokla´dat, zˇe akce a ota´zky jsou navza´jem podmıńeˇneˇ neza´visle´ je-li zna´ma prˇ´ıcˇina. T.j. pro kazˇde´ Ai ∈ A, Qk ∈ Q P (Ai |F) = P (Ai |F, V) pro kazˇde´ V ⊆ (A ∪ Q) \ {Ai } P (Qk |F) = P (Qk |F, U) pro kazˇde´ U ⊆ (A ∪ Q) \ {Qk } . Da´le je cˇasto mozˇne´ prˇedpokla´dat, zˇe v jednom okamzˇiku zpu˚sobuje sˇpatnou funkci zarˇ´ızenı´ pouze jedna prˇ´ıcˇina. Bayesovska´ sı´t’na obra´zku 5 zachycuje oba prˇedpoklady. Actions Faults

A1

F1 A2 Problem

F2 A3

F F3 F4

Questions Q1

Obra´zek 5. Bayesovska´ sı´t’pro zjednodusˇeny´ proble´m sveˇtle´ho tisku

3.2

Diagnosticka´ strategie

Kazˇda´ diagnosticka´ strategie mu˚zˇe skoncˇit dveˇma zpu˚soby, bud’ u´speˇsˇny´m vyrˇesˇenı´m proble´mu nebo neu´speˇsˇneˇ - proble´m zu˚stane nevyrˇesˇen. Proto definujeme dva typy termina´lnıćh uzlu˚: (1) u´speˇsˇne´ termina´lnı´ uzly odpovı´dajı´ vyrˇesˇenı´ proble´mu, (2) neu´speˇsˇne´ termina´lnı´ uzly odpovı´dajı´ situaci, kdy diagnostika skoncˇ´ı drˇ´ıve, nezˇ je proble´m vyrˇesˇen. ´ speˇsˇne´ termina´lnı´ uzly jsou sˇede´, Obra´zek 6 zobrazuje prˇ´ıklad diagnosticke´ strategie. U zatı´mco neu´speˇsˇne´ termina´lnı´ uzly jsou sveˇtle´.

A1 = yes Q1 = no

A1

Q1 = yes

A2

A1 = no

A2 = yes

A2

A2 = no

Q1 A2 = no

A2 = yes

A1

A1 = no

A1 = yes

Obra´zek 6. Diagnosticka´ strategie

Definujeme hodnotıćı´ funkci CR(e` ), ktera´ odpovı´da´ ceneˇ opravy zarˇ´ızenı´. Skla´da´ se ze dvou slozˇek. Prvnı´ slozˇka t(e` ) je celkova´ cena provedenyćh akcı´ a polozˇenyćh ota´zek, ktere´ jsou na cesteˇ do stavu e` odpovı´dajıćı´mu uzlu ` ve stromu strategie s. Druha´ slozˇka je penalizacˇnı´ funkce c(e` ), ktera´ se aplikuje v kazˇde´m termina´lnı´m uzlu. Jestlizˇe je proble´m u´speˇsˇneˇ vyrˇesˇen (v u´speˇsˇne´m termina´lnı´m uzlu), pak penalizacˇnı´ funkce je rovna nule. V neu´speˇsˇne´m termina´lnı´m uzlu ma´ penalizacˇnı´ funkce kladnou hodnotu, ktera´ mu˚zˇe by´t naprˇ´ıklad interpretovańa jako cena za zavolańı´ servisnıćh techniku˚, kterˇ´ı zarˇ´ızenı´ zarucˇeneˇ opravı´ (naprˇ´ıklad tı´m, zˇe ho cele´ vymeˇnı´). Takzˇe CR(e` ) = t(e` ) + c(e` ). Provedeme-li substituci f (e` ) = CR(e` ) do vzorce 1 zı´ska´me krite´rium nazy´vane´ ocˇeka´vana´ cena opravy. X ECR (s) = P (e` ) · ( t(e` ) + c(e` ) ) . (3) `∈L(s)

Za´kladnı´ u´lohou technicke´ diagnostiky je najı´t diagnostickou strategii s ∈ S minimalizujıćı´ ECR (s).

Rˇesˇenı´ je mozˇne´ snadno najı´t v prˇ´ıpadeˇ, kdyzˇ (1) kazˇda´ akce mu˚zˇe odstranit pra´veˇ jednu prˇ´ıcˇinu, kdyzˇ (2) vsˇechny akce jsou navza´jem neza´visle´, (3) v jednom okamzˇiku zpu˚sobuje sˇpatnou funkci zarˇ´ızenı´ pouze jedna prˇ´ıcˇina a (4) nenı´ mozˇne´ pouzˇ´ıt zˇa´dne´ ota´zky. V takove´m prˇ´ıpadeˇ, postacˇuje serˇadit ota´zky sestupneˇ podle pomeˇru P (A = yes)/cA , viz [12]. V praći [24] bylo uka´zańo, zˇe kdyzˇ neˇktere´ akce mohou odstranit vıće nezˇ dveˇ prˇ´ıcˇiny, u´loha nalezenı´ optima´lnı´ diagnosticke´ strategie se sta´va´ N P -teˇzˇkou. Proto je trˇeba pouzˇ´ıt metody, ktere´ naleznou dostatecˇneˇ dobre´ (ikdyzˇ neoptima´lnı´) diagnosticke´ strategie v polynomia´lnı´m cˇase. 3.3

Vy´sledky

Diagnosticky´ syste´m vyvinuty´ v ra´mci projektu SACSO vyuzˇ´ıva´ bayesovskou sı´t’ pro reprezentaci diagnosticke´ho proble´mu. Protozˇe struktura modelu je jednoducha´ (odpovı´da´ tzv. naivnı´mu bayesovske´mu modelu), je mozˇne´ prˇi vy´beˇru dalsˇ´ıho kroku strategie prove´st velky´ pocˇet vy´pocˇtu˚ podmıńeˇnyćh pravdeˇpodobnostı´. Prˇ´ıstup pouzˇity´ v projektu SACSO je zalozˇeny´ na heuristikaćh vyuzˇ´ıvajıćıćh pomeˇr P (A = yes)/cA a za´rovenˇ rozsˇirˇuje prˇ´ıstup popsany´ v [6], v ra´mci ktere´ho je mozˇne´ vybı´rat i ota´zky. V cˇlańku [10] jsou diagnosticke´ strategie zı´skane´ pomocı´ prˇ´ıstupu projektu SACSO porovnańy s optima´lnı´mi strategiemi zı´skany´mi vy´pocˇetneˇ na´rocˇny´m prohleda´vańı´m stavove´ho prostoru vsˇech mozˇnyćh strategiı´. Hodnoty ECR strategiı´ zı´skanyćh diagnosticky´m syste´mem SACSO byly velmi blı´zko optima´lnı´m hodnota´m, pru˚meˇrna´ odchylka byla meńeˇ nezˇ 2%. Tento diagnosticky´ syste´m je nynı´ komercˇneˇ nabı´zen pod jmeńem DezisionWorks dańskou spolecˇnostı´ Dezide. Vıće informacı´ o syste´mu je mozˇne´ nale´zt na webovske´ strańce spolecˇnosti: http://www.dezide.com/.

Reference 1. Russell G. Almond and Robert J. Mislevy. Graphical models and computerized adaptive testing. Applied Psychological Measurement, 23(3):223–237, 1999. 2. S. Andreassen, F. V. Jensen, S. K. Andersen, B. Falck, U. Kjærulff, M. Woldbye, A. R. Sørensen, A. Rosenfalck, and F. Jensen. MUNIN — an expert EMG assistant. In John E. Desmedt, editor, Computer-Aided Electromyography and Expert Systems, chapter 21. Elsevier Science Publishers, Amsterdam, 1989. 3. Moshe Ben-Bassat. Myopic policies in sequential classification. IEEE Transactions on Computers, 27(2):170–174, 1978. 4. Cristina Conati, Abigail S. Gertner, Kurt VanLehn, and Marek J. Druzdzel. On-line student modeling for coached problem solving using Bayesian networks. In Anthony Jameson, Cecile Paris, and Carlo Tasso, editors, Proc. of the Sixth Int. Conf. on User Modeling (UM97), Chia Laguna, Sardinia, Italy. Springer Verlag, 1997. 5. Robert G. Cowell, A. Philip Dawid, Steffen L. Lauritzen, and David J. Spiegelhalter. Probabilistic Networks and Expert Systems. Statistics for Engineering and Information Science. Springer Verlag, 1999. 6. D. Heckerman, J. S. Breese, and K. Rommelse. Decision-theoretic troubleshooting. Communications of the ACM, 38(3):49–57, 1995. 7. David Heckerman, E. Horwitz, and B. Nathwani. Towards normative expert systems: Part I, the Pathfinder project. Methods of Information in Medicine, 31:90–105, 1992. 8. Hugin Explorer, ver. 6.0. Computer software, 2002. http://www.hugin.com.

9. Finn V. Jensen. Bayesian networks and decision graphs. Statistics for Engineering and Infromation Science. Springer Verlag, New York, Berlin, Heidelberg, 2001. 10. Finn V. Jensen, Uffe Kjærulff, Brian Kristiansen, Helge Langseth, Claus Skaanning, Jirˇ´ı Vomlel, and Marta Vomlelova´. The SACSO methodology for troubleshooting complex systems. Artificial Intelligence for Engineering Design, Analysis and Manufacturing, 15:321–333, 2001. 11. Finn V. Jensen, Steffen L. Lauritzen, and Kristian G. Olesen. Bayesian updating in recursive graphical models by local computation. Computational Statistics Quarterly, 4:269–282, 1990. 12. J. Kalagnanam and M. Henrion. A comparison of decision analysis and expert rules for sequential analysis. In P. Besnard and S. Hanks, editors, The Fourth Conference on Uncertainty in Artificial Intelligence, pages 271–281, New York, 1988. 13. Steffen L. Lauritzen. The EM-algorithm for graphical association models with missing data. Computational Statistics and Data Analysis, 1:191–201, 1995. 14. Steffen L. Lauritzen and David J. Spiegelhalter. Local computations with probabilities on graphical structures and their application to expert systems (with discussion). Journal of the Royal Statistical Society, Series B, 50:157–224, 1988. 15. Wim J. Van Der Linden and Cees A. W. Glas, editors. Computerized Adaptive Testing: Theory and Practice. Kluwer Academic Publishers, 2000. 16. F. M. Lord. A theory of test scores. Number 7 in Psychometric Monographs. Psychometric Society, 1952. 17. Eva Millań and Jose´ Luis Pe´rez-de-la-Cruz. A Bayesian diagnostic algorithm for student modeling and its evaluation. User modeling and User-Adapted Interaction, 12(2–3):281–330, 2002. 18. Judea Pearl. Reverend Bayes on inference engines: a distributed hierarchical approach. In Proceedings, AAAI National Conference on AI,Pittsburgh, PA, pages 133–136, August 1982. 19. Judea Pearl. Fusion, propagation and structuring in belief networks. Artificial Intelligence, 29(3):241– 288, 1986. 20. G. Rasch. Probabilistic models for some intelligence and attainment tests. Technical report, Danish Institute for Educational Research, Copenhagen, 1960. 21. D. J. Spiegelhalter and R. P. Knill-Jones. Statistical and knowledge-based approaches to clinical decision-support systems. Journal of the Royal Statistical Society, Series A, (147):35–77, 1984. 22. Peter Spirtes, Clark Glymour, and Richard Scheines. Causation, Prediction, and Search. Number 81 in Lecture Notes in Statistics. Springer Verlag, 1993. 23. Jirˇ´ı Vomlel. Bayesian networks in educational testing. In Proceedings of First European Workshop on Probabilistic Graphical Models (PGM’02), Cuenca, Spain, November 6-8 2002. 24. Marta Vomlelova´ and Jirˇ´ı Vomlel. Troubleshooting: NP-hardness and solution methods. Soft Computing Journal, 7(5):357–368, April 2003. 25. Howard Wainer, David Thissen, and Robert J. Mislevy. Computerized adaptive testing : a primer. Mahwah, N.J. : Lawrence Erlbaum Associates, second edition, 2000.

Laboratoř inteligentních systemů, Praha a technickou diagnostiku (angl. troubleshooting). Nejprve stručně shrneme teoretické

Recommend Documents