Orvosi Leletezı Program Orvosi leletezést segítı középszótáras beszédfelismerı rendszer
Felhasználói kézikönyv
Budapesti Mőszaki és Gazdaságtudományi Egyetem, Távközlési és Médiainformatikai Tanszék, Beszédakusztikai Kutatólaboratórium
A kutatás és fejlesztés az OTKA T 046487 ELE, és az IKTA 00056 pályázatok keretében történt.
2006
1. Röviden az orvosi leletezı programról Az orvosi leletezı alkalmazás rejtett Markov modelles beszédfelismerésen alapul, amely jelen állapotában két orvosi tématerületen, gasztroszkópia, illetve és hasi és kismedencei ultrahang vizsgálatok leletezéshez ad segítséget. A rendszer mőködése során egyrészt az emberi beszédhangokat modellezi, másrészt magát
a nyelvet
is
leírja
az
egyes
szavak
és
szószekvenciák
elıfordulási
szabályszerőségeire támaszkodva. A program elsı indításakor az alapértelmezett nyelvi és akusztikai beállításokkal indul el. A továbbiakban azonban az egyes felhasználókra szabottan lehetıség van programban e két fıbb változó finomítására is, így minden felhasználó saját akusztikai profiljára, szókincsére, nyelvezetére adaptálhatja a rendszert a használat során. Jóllehet ez a használat megkezdésekor a felhasználó aktív közremőködését és türelmét igényli, reméljük, hogy e kezdeti nagyobb energiabefektetés megtérül a késıbbi egyszerőbb és gördülékenyebb használat révén. 2. Telepítés A beszédfelismerés igen nagy mőveletigényő folyamat, emiatt a program telepítéséhez a számítógéppel szemben támasztott követelmények az alábbiak: •
Legalább 2 GHz-es processzor;
•
Legalább 512 MB RAM, de ajánlott az 1 GB-os memória használata;
•
A megfelelı mőködéshez jó minıségő felvételt biztosító hangkártya szükséges, amely lehetıség szerint a PC-hez USB porton keresztül csatlakozó külsı hangkártya a PC belsı zajából származó zavarok kiküszöbölésére;
•
Windows XP operációs rendszer.
A fenti feltételek teljesítése esetén a program az általánosan megszokott módon telepíthetı a setup.exe fájl elindításával. A szoftvertelepítı automatikusan ellenırzi, hogy a számítógép a processzorteljesítény és a fizikai memória (RAM) tekintetében teljesíti-e a fenti minimumkövetelményeket, és csak akkor történik meg a telepítés, ha ezek a feltételek teljesülnek. Figyelem! A program több külön modulból áll, amelyek egymást argumentumlistákkal hívják meg, ezért ne telepítsük a programot olyan könyvtárba, amelynek elérési útjában szóköz karakter szerepel, mert a nyelvi tanítás (lásd 5.4 pontban) nem fog mőködni!
2
3. Audio hardver konfiguráció A fentiekben már utaltunk rá, hogy a program megfelelı hangminıséget biztosító eszközök használata esetén mőködik hatékonyan. Ennek fényében az általunk ajánlott hardver konfiguráció a következık szerint alakul: •
Jó minıségő jelátalakító (mikrofon). Ajánlott típus: Monacor ECM-100 kondenzátor mikrofon. Megjegyzés: a kondenzátor mikrofonok használatához külsı feszültségforrás – ceruzaelem – szükséges, ez adja a mikrofon mőködéséhez szükséges elıfeszítı feszültséget. Emiatt a mikrofont használat után kapcsoljuk ki az oldalán elhelyezett kapcsoló segítségével, illetve huzamosabb használat után (néhány hónap) az elem felülvizsgálata és szükség esetén cseréje indokolt.
•
Lehetıleg külsı, megfelelı minıségő hangkártya. Ajánlott típus: Creative Audigy2NX. Más típus használata esetén a hangkártyának biztosítania kell a 16 kHz-es, 16 bites kódolású mintavételezést legalább 20-25 dB jel-zaj viszony mellett.
•
Normál PC/Notebook Windows XP operációs rendszerrel.
A rendszer optimális hardver összeállítása eszerint a következı:
3
4. Szoftverbeállítások Az orvosi leletezı program elindításakor az alábbi képernyı jelenik meg:
A továbblépéshez nyomjuk meg az OK gombot. 4.1 Felhasználó felvétele
Felhasználó felvételéhez kattintsunk az Új felhasználó gombra. (Már létezı felhasználót a legördülı menübıl választhatunk ki.)
Az ekkor megjelenı ablakban adjunk meg a felhasználó nevét, jelöljük be azt, hogy
4
mely tématerületen (gasztroszkópia vagy hasi-kismedencei UH) kívánjuk használni a rendszert, és adjuk meg a felhasználó nemét. Fordítsunk figyelmet ez utóbbi két lépésre, mert a leletezı rendszer csak akkor mőködik helyesen, ha a megfelelı szótármodult tölti be (endoszkópia ill. UH), valamint ha a felhasználó nemének megfelelı beszédhang-modellekkel dolgozik. Ha készen vagyunk, nyomjuk meg a Rendben gombot. Ekkor ismét a bejelentkezı ablakba kerülünk, ahonnan a megfelelı felhasználónevet kiválasztva a Belépés gombbal kezdhetjük meg a rendszer használatát.
Megjegyzés: amennyiben egy személy mind az ultrahangos, mind az endoszkópos leletezıt használni kívánja, akkor ehhez két felhasználót kell megadnia, egyet az ultrahangos, egyet pedig a gasztroszkópos leletezéshez. 4.2 Hangbeállítások A belépést követıen a hangerı beállítása következik. Kapcsoljuk be a mikrofont! A mikrofon hangerejét úgy kell beállítani, hogy a megjelenı ablakban csönd esetén a zöld, normál beszéd esetén pedig a sárga tartományba essen a jelszintet megjelenítı görbe:
5
Ha ez teljesül, nyomjuk le a Rendben gombot. Ha nem, akkor állítani kell a mikrofon hangerejét. Ennek során az alábbiak szerint célszerő eljárni: •
Külsı hangkártya esetén állítsuk be a potméterrel a mikrofon érzékenységét (Creative Audigy2NX esetén ez a fedlapon balra elhelyezkedı, „MIC” feliratú szabályozógomb)
•
Ha ez kevés, nyissuk meg a Start menü > Vezérlıpult > Hangok, Beszéd és Audioeszközök > Hangok és Audioeszközök panelt! Válasszuk ki az Audio fület, és ellenırizzük, hogy a Hangrögzítés alatt alapértelmezésként a megfelelı hangkártya szerepel-e. Ha nem, válasszuk ki a legördülı menübıl a kívánt eszközt. A hangerı beállítása a Hangerı… gomb lenyomásával lehetséges, a megjelenı ablakban a megfelelı hangerı csúszkát állítsuk feljebb, és ügyeljünk arra, hogy a jelölınégyzettel ki legyen választva (zöld pipa az alsó fehér kockában):
6
Kilépve nyomjuk meg az Alkalmaz, majd az OK gombot. •
Amennyiben ezek után sem mőködik megfelelıen a mikrofon, akkor ellenırizzük az összeköttetéseket, hogy a mikrofont bekapcsoltuk-e, illetve hogy az elem nem merült-e le.
5. Leletezés Ha teljesítettük a mikrofonnal kapcsolatos beállításokat, megjelenik a program fıablaka, amelyben a diktálást el lehet végezni. Az ablak bal oldalán található egy két oszlopból álló hangerı-szabályozó. A bal oldali oszlop kék színő kitöltöttséggel jelzi az aktuális hangerıt, míg a jobb oldalival beállíthatjuk a kívánt küszöbértéket. Ennek hatására csak azon hangok fognak a felismerı bemenetére jutni, melyeknek hangereje meghaladja a küszöbértéket. Így zajos környezetben feljebb, csendes környezet esetén pedig lejjebb érdemes a csúszkát mozgatni (ha szükséges). 5.1 Lelet diktálása A lelet diktálásához nyomjuk le a Lelet indul gombot! Megkezdhetjük a diktálást,
7
eközben folyamatosan megjelenik a képernyın a felismert szöveg. Fontos tudnivaló, hogy az ablakban egy-egy szó csak akkor jelenik meg, ha az azt követı szó már elhangzott. Emiatt mondatok végén elıfordulhat, hogy az utolsó szó csak akkor jelenik meg, ha a következı mondatba már belekezdtünk. (Ha ez a lelet végén történne meg, próbálkozzunk az utolsó szó megismétlésével!)
A felsı gombsor környezetében található egy színes (zöld, vagy piros) téglalap. A téglalap zöld színe jelzi, hogy a felismerı kapott hanginformációt, míg a piros szín arra utal, hogy a rendszer – kellı hangerı hiányában – nem dolgozik. Ebbıl az is következik, hogy ha a diktálásban szünetet akarunk tartani, akkor minden további nélkül megtehetjük, addig a rendszer várakozik. Ha hosszabb szünetet kívánunk tartani, illetve a szünet alatt bármilyen zaj lép fel, vagy máshoz beszélünk (pl. kolléga, telefon), akkor tanácsos a Szünet gombot is megnyomni. Ekkor a rendszer áll, de késıbb a Szünet gomb ismételt lenyomásával a diktálás folytatható. (Mint láttuk, nem feltétlenül szükséges a Szünet gomb használata, rövid gondolkodásra bármikor meg lehet állni a diktálással, de eközben beszélni, egyéb zajos tevékenységet végezni nem szabad, mert ez esetben a beszéd vagy zaj a felismerı bementére kerül, ami felismerési hibához vezethet.) A diktálás végén nyomjuk le a Lelet vége gombot. Ezután szóbeli diktálásra már nincs 8
lehetıség, kézzel javítható és szerkeszthetı az ablakban megjelent szöveg. Figyelem! A Lelet indul gomb ismételt lenyomására az ablak tartalma törlıdik! 5.2 Lelet ellenırzése A Lelet vége gomb megnyomása után lehetıség van a lelet kijavítására is. A mai technológiai szinten tökéletesen, hiba nélkül dolgozó beszédfelismerıt megvalósítani nem lehet, ezért az utólagos kézi javítás semmiképpen nem hagyható el! Mivel olyan orvosi dokumentumokról van szó, amelyekben minden egyes szó számít, a felhasználó felelıssége a lelet utólagos ellenırzése és szükség esetén az elhangzott diagnózis szerinti kijavítása. Ha a javítás megtörtént, a Mentés gombbal a szöveg tetszıleges helyre elmenthetı, illetve a Vágólapra gomb lenyomásakor a teljes szöveg a vágólapra kerül, ahonnan más alkalmazásba (pl. a MedSol rendszerbe) Ctrl-V billentyőkombinációval, vagy egérrel jobb klikk > Beillesztés parancsokkal beilleszthetı. Megjegyzés: a mentett leletekrıl a program belsı másolatot is készít, amelyet a Nyelvi tanítás során felhasznál, ezért javítatlan leletek elmentése nem ajánlott, mivel ez a felismerı gyengébb hatásfokú mőködését eredményezi! 5.3 Kilépés a programból A
használat
végeztével
a
programból
bármikor
kiléphetünk
azt
Alt+F4
billentyőkombináció, vagy a bezáró gomb segítségével. Végleges kilépéshez a fıablakban válasszuk a Kilépés gombot. 6
Nyelvi tanítás Az elmentett szövegekbıl lehetıség van a bennük lévı nyelvtani elemek megtanítására. Ennek célja az, hogy a rendszer rátanuljon az egyes felhasználók nyelvi fordulataira, illetve hogy az esetlegesen a szótárban nem szereplı, vagy ismételten helytelenül felismert szavak felismerése javuljon. Nyelvi tanításkor elindul a nyelvtani adaptáló program, és a szükséges kérdések megválaszolása után a rendszert frissíti. 6.1 A nyelvi tanítás menete A nyelvi tanítás a Nyelvi tanítás gomb megnyomásával indítható el. A gomb nem aktív, ha nem mentettünk el leletet az elızı tanítás vagy az elsı használat óta. A nyelvi tanítás megkezdésekor az alábbi ablak nyílik meg:
9
A felugró ablakban a rendszer rákérdez a számára ismeretlen szavakra. Könnyítésképpen egy lista is megjelenik, amelyben ellenırizhetjük, szerepel-e már benne esetleg a kívánt szó. Elıfordulhat, hogy a szó kisbetővel írva, esetleg vesszıs vagy pontos alakban szerepel már a listában, ekkor egyszerően a megfelelı szóalakra egyszer rákattintva a következı ismeretlen szóra ugrik a rendszer. (Például a fenti ábrán a „Zsák” szó kisbetővel már szerepel a listában, ezért a „zsák”-ra kattintunk.) Ha az új szó nem szerepel a listában, akkor válasszuk a szólista elején található, „Nincs benne a listában, vegyük fel most!” nevő sort, és kattintsunk erre. Ekkor az alábbi ablak jelenik meg:
10
Itt az üres helyen meg kell adnunk az új szó ortofonetikus átiratát. Ez alatt az értendı, hogy gépeljük be, hogyan ejtjük ki az adott szót. Erre azért van szükség, mert a rendszer a kiejtett alakhoz fogja a leírt alakot hozzárendelni, hiszen a kiejtett alakot ismeri fel. Például a choledocholithiasis kifejezéshez a koledokholitiázis kiejtésalakot kellene megadnunk. Ha a zsák szó nem lenne benne a listában, akkor a megfelelı kiejtésalak a zsák lenne (hiszen ez az írásképpel egyezik). 6.1 A nyelvi tanítás befejezése Ha az összes új szó kiejtésalakját megadtuk, a program legenerálja a nyelvi modellt. Ekkor ismét lépjünk ki a diktáló ablakból és jelentkezzünk be újra, mivel az új nyelvi beállítások csak ekkor lesznek aktívak. Bejelentkezés után folytatható a diktálás, már az új, frissített nyelvi modelleket használva. Ha elıbb szeretnénk befejezni a tanítást, kattintsunk a Tanítás befejezése gombra. Ekkor a program megkérdezi, megtartsa-e a tanítóanyagot késıbbre, illetve törölje azt. 11
Ha a Nem gombra kattintunk, akkor a tanítást késıbb újrakezdhetjük, míg az Igen gombbal töröljük a teljes tanítóanyagot. Mint láttuk, a program minden mentett leletrıl belsı másolatot készít, amelyet a nyelvi tanítás során használ fel. A tanítóanyag törlésével a belsı másolatok is törlıdnek, ez azonban nem befolyásolja a felhasználó által külön könyvtárba elmentett leleteket, ezek továbbra is elérhetıek lesznek. 6.2 A nyelvi tanítás (adaptáció) elvetése Elıfordulhat, hogy a nyelvi tanítás során valamit elrontunk, például nem megfelelıen írjuk át az új szavakat az ortofonetikus alakra. Amennyiben a tanítás során sok hiba kerül a rendszerbe, a felismerés nem javul, sıt romolhat is. Így, ha biztosak vagyunk benne, hogy valamit eltévesztettünk, vagy a tanítás után a felismerés biztonsága nem nıtt, visszatérhetünk az alapértelmezett nyelvi beállítások használatára az Alapértelmezett nyelvi beállítások gomb megnyomásával. Figyelem! Ekkor a felhasználó valamennyi, a legelsı használattól kezdıdıen végrehajtott adaptációja törlıdik, így ezzel a funkcióval igen óvatosan bánjunk! 7. Milyen szavakat ismer fel a rendszer? A program megalkotásakor igyekeztünk a hasi ultrahang, illetve a gasztroszkópos szakterületen végzett leletezéskor leggyakrabban használt szavak beillesztésére. Ügyeljünk arra, hogy a megfelelı szakterületet válasszuk a program elsı használata elıtt (lásd a 4.1 pontban). A szótár bıvítésérıl a nyelvi tanítás alatt már esett szó, így ha egy szót a rendszer következetesen rosszul ismer fel, akkor próbálkozhatunk a betanításával a 6. pontban ismertetett módon. Mindemellett néhány rövidítést is elfogad a felismerı az alábbiak szerint: A felismert szó (vagy karakter) ( ) ? ! AD BPD BPH cc ccm ct ERCP FL
Diktálandó kulcsszó (ortofonetikus alak) zárójel zárójel_bezárva kérdıjel felkiáltójel ádé bépédé bépéhá cécé cécéem cété éercépé efel
12
Megjegyzés
UH UH UH UH UH
UH
FNH HCC IBD iu iud kb. kp l.d. l.s. l.u. LGL met mpx MR npl PCO PCV PSC RF TBC tu UH VCI vs „S”-alakban „U”-alakban „Z”-alakban
efenhá hácécé íbédé íú íúdé kábé kápé eldé eles elú elgéel met multiplex emer enpéel pécéó pécévé péescé eref tébécé téú úhá vécéí véesz esalakban úalakban zéalakban
UH gasztro gasztro UH UH
UH UH UH
UH UH UH UH UH UH UH
13