WIKT 2015
Identifikace poruchy osobnosti z psan´ eho textu ˇ Adam Ondrejka, Petr Saloun, and Radka Cepl´akov´a ˇ ˇ VSB-Technick´ a univerzita Ostrava, 17. listopadu 15, 708 33 Ostrava, Cesk´ a republika
[email protected] [email protected] [email protected] http://www.vsb.cz
Abstrakt Popisujeme souˇcasn´e poznatky pˇri rozpozn´ av´ an´ı moˇzn´ ych poruch osobnost´ı pomoc´ı tzv. sebe esej´ı pacienta. Pˇredstavujeme pˇr´ıstup zaloˇzen´ y na anal´ yze textu pomoc´ı technik NLP a n´ asledn´e kategorizace do jedn´e ze tˇr´ı z´ akladn´ıch skupin poruch osobnosti – strachu, prokrastinace a netolerance nejistoty. Vyuˇz´ıv´ ame support vector machine a prvn´ı experimenty, zaloˇzeny na re´ aln´ ych datech konzultovan´ ych se specialisty, ukazuj´ı slibn´e v´ ysledky. Poruchy osobnosti jsou d´ıky stresov´emu a ˇcasovˇe vypjat´emu zp˚ usobu ˇzivota dnes docela ˇcast´e. V pˇr´ıpadˇe omezen´ı ˇci komplikac´ı v ˇzivotˇe trp´ıc´ıho jedince je vˇcasn´ a identifikace a ˇreˇsen´ı probl´emu v´ıce neˇz ˇz´ adouc´ı. Nˇekteˇr´ı lid´e ale n´ avˇstˇevu specialisty povaˇzuj´ı za osobn´ı selh´ an´ı a d´ıky studu probl´em neˇreˇs´ı, i kdyˇz o nˇem sami tuˇs´ı. Psychologov´e a psychiatˇri na druhou stranu dnes pouˇz´ıvaj´ı nˇekolik metod k rozpozn´ an´ı poruch osobnosti, at’ jiˇz pozorov´ an´ım pˇri rozhovoru, dotazn´ıkem ˇci z textov´eho popisu vlastn´ı osoby. Keywords: zpracov´ an´ı pˇrirozen´eho jazyka, dolov´ an´ı dat, ment´ aln´ı porucha
1
´ Uvod a stav pozn´ an´ı
Nejrozˇs´ıˇrenˇejˇs´ı a nejpˇresnˇejˇs´ı metodou dneˇsn´ı doby k rozpozn´an´ı poruch osobnosti je samozˇrejmˇe osobn´ı vyˇsetˇren´ı l´ekaˇrsk´ ym specialistou. Dalˇs´ım moˇzn´ ym, ale m´enˇe pˇresn´ ym, zp˚ usobem jak identifikovat poruchu osobnosti m˚ uˇze b´ yt nepˇr´ımo z odpovˇed´ı psychologick´ ych dotazn´ık˚ u, pˇr´ıpadnˇe anal´ yzou specialisty psan´eho textu pacientem. Soustˇred´ıme se pr´avˇe na posledn´ı nepˇr´ım´ y zp˚ usob identifikace poruch, a sice strojovˇe analyzujeme a odhadujeme poruchy osobnosti z tzv. sebeesej´ı pacienta. Sebe-eseje jsou texty psan´e v strojovˇe ˇciteln´e podobˇe pˇr´ımo pacientem, ve kter´ ych popisuje sv´e n´alady, pocity a celkovˇe jeho osobu a osobnost. V t´eto pr´ aci rozliˇsujeme tˇri z´akladn´ı skupiny poruch osobnost´ı: strach a u ´zkost, prokrastinace a tolerance nejistoty. Nepˇr´ımo navazujeme na n´aˇs pˇredchoz´ı v´ yzkum [7] a [6]. V sebe-esej´ıch zjiˇst’ujeme polaritu text˚ u, kter´a vych´az´ı z myˇslenek anal´ yzy n´ alad, neporovn´ av´ ame tedy pouze v´ yskyty a ˇcetnost slov v jednotliv´ ych textech. Texty kategorizujeme do skupin poruch osobnost´ı podle vybran´ ych metod strojov´eho uˇcen´ı pomoc´ı extrakce kl´ıˇcov´ ych vlastnosti z textu a porovn´av´an´ı s texty referenˇcn´ımi.
71
ISBN 978-80-553-2271-1
Jedno moˇzn´ ych ˇreˇsen´ı naˇseho probl´emu je pouˇzit´ı metod pro klasifikace a ˇ adn´a se pˇr´ımo kategorizace text˚ u, na kter´e jiˇz byla vyd´ano spousta publikac´ı. Z´ nezab´ yv´ a hled´ an´ım poruch osobnosti ˇci podobn´ ych nemoc´ı z textu. Quiang v [4] extrahuje vlastnosti z dokument˚ u pomoc´ı tzv. Categorical Term Frequency Probability, kter´ a definuje charakteristiky hlavn´ıch term˚ u dokumentu pro kaˇzdou kategorii. Pouˇzit´ım klasifik´ atoru Support Vector Machine uk´azal, ˇze jeho metoda dosahuje lepˇs´ı FI-Metriky. Qing Li v [3] pˇredstavuje dalˇs´ı moˇzn´ y pˇr´ıstup ke klasifikaci textu pomoc´ı zpˇetnˇe propagovan´ ych neuronov´ ych s´ıt´ı, kter´e dle proveden´ ych experiment˚ u, ˇreˇs´ı probl´em pomalosti v porovn´an´ı s obyˇcejn´ ymi neuronov´ ymi s´ıtˇemi.
2
Indukce poruchy osobnosti
Pˇred klasifikac´ı samotn´ ych sebe-esej´ı je potˇreba podniknout dva kroky. Za prv´e mus´ıme zjistit polaritu textu, coˇz je v podstatˇe identick´e sanal´ yzou n´alad, jen za pouˇzit´ı jin´eho slovn´ıku a pravidel. A v druh´em kroku z´ıskat vlastnosti pro n´ aslednou klasifikaci. Pro upˇresnˇen´ı charakteru sebe-eseje, tedy zda analyzovan´ y text je negativn´ı, coˇz by mˇelo, na z´ akladˇe konzultacemi se specialisty, reflektovat s poruchou osobnosti, jsme se rozhodli zjiˇst’ovat polaritu - sentiment textu. Pˇri zjiˇst’ov´an´ı polarity sebe-eseje navazujeme a m´ırnˇe modifikujeme n´aˇs pˇredchoz´ı v´ yzkum [6]. Protoˇze v ˇcesk´em jazyce (a mnoha jin´ ych slovansk´ ych jazyc´ıch) pˇri skladbˇe vˇet nar´ aˇz´ıme na probl´emy v podobˇe dvoj´ıch negac´ıch a dalˇs´ıch, kter´e n´aslednou anal´ yzu komplikuj´ı, vyuˇz´ıv´ ame slovn´ıkov´eho pˇr´ıstupu v kombinaci s anal´ yzou vˇet. Pro metodu popsanou v pr´aci pouˇz´ıv´ame jen m´ırnˇe upraven´ y slovn´ık pro u ´ˇcely rozezn´ an´ı poruchy osobnost´ı. Pro zm´ınˇen´e hlavn´ı kategorie poruch osobnost´ı jsme ve spolupr´aci se specialisty vytvoˇrili z´ akladn´ı modely – ty se skl´adaj´ı z kl´ıˇcov´ ych slov, fr´az´ı a referenˇcn´ıho textu. Kl´ıˇcov´ a slova jsou slova nebo slovn´ı spojen´ı, kter´a silnˇe ukazuj´ı na nˇekterou z moˇzn´ ych poruch osobnosti. Jsou negativn´ıho charakteru a ˇcasto ve v´ yznamu, kter´ y shazuje vlastn´ı j´a dan´eho ˇclovˇeka. Mohou to b´ yt napˇr´ıklad slova osamˇelost, ztracenost nebo uzavˇrenost. Fr´ aze jsou obecnˇejˇs´ıho charakteru. Nemaj´ı takov´ y siln´ y v´ yznam jako kl´ıˇcov´a slova, ale upˇresˇ nuj´ı, zda osoba m´a nebo nem´ a psychologick´e probl´emy, napˇr. nechte mˇe na pokoji, ˇzivot za nic nestoj´ı, apod. Posledn´ı, referenˇcn´ı texty, jsou vytvoˇren´e za u ´ˇcelem zn´azornˇen´ı, jak by dan´ a sebe-esej mˇela vypadat. Model vlastnost´ı pro klasifik´atory vytv´aˇr´ıme na z´akladˇe podobnosti mezi skupinami dle Diceova koeficientu[5]. Zn´azornˇen je v tabulce 1. Vlastnosti 1–3 jsou hodnoty podobnosti mezi porovn´avanou sebe-esej´ı a kl´ıˇcov´ ymi slovy kaˇzd´eho referenˇcn´ıho modelu. Vlastnosti 4–6 opˇet podobnosti fr´az´ı a 7–9 podobnosti referenˇcn´ıch text˚ u mezi sebe-esej´ı a referenˇcn´ımi modely. Posledn´ı 10. vlastnost urˇcuje polaritu analyzovan´e sebe-eseje podle postupu zm´ınˇen´eho v´ yˇse. K nalezen´ı tˇechto vlastnost´ı jsme pouˇzili knihovnu NLTK pro programovac´ı jazyk Python a ˇcesk´ y parser textu Morphodita [8]. Bliˇzˇs´ı popis je v pr´aci [6].
72
WIKT 2015
Tabulka 1. Model vlastnost´ı pouˇzit´ ych pro klasifikaci # vlastnosti 1–3 4–6 7–9 10
3
Popis Podobnost kl´ıˇcov´ ych slov Podobnost fr´ az´ı Podobnost referenˇcn´ıch text˚ u Polarita
Experiment
V rann´e f´ azi v´ yzkumu jsme pro testovac´ı u ´ˇcely jsme ruˇcnˇe roztˇr´ıdili 90 pˇr´ıspˇevk˚ u ze serveru ulekare.cz1 , z poradny, kde lid´e popisuj´ı sv´e probl´emy. Prvn´ı skupina 60 pˇr´ıspˇevk˚ u byly texty, kter´e specialist´e oznaˇcili za pˇr´ıspˇevky s moˇznou poruchou osobnosti. Druh´ a skupina o zbyl´ ych 30 pˇr´ıspˇevc´ıch obsahovala sebe-eseje, kter´e byly pozitivn´ıho charakteru, bez poruchy osobnosti. Tr´enovac´ı mnoˇzina obsahovala 30 pˇr´ıspˇevk˚ u z´ıskan´ ych z poradny a dalˇs´ıch 10 obdrˇzen´ ych od specialisty. Zjiˇst’ovali jsme, jestli navrˇzen´ y postup dok´aˇze spr´ avnˇe rozliˇsit sebe-esej zdrav´eho a nemocn´eho ˇclovˇeka a v pˇr´ıpadˇe sebe-eseje nemocn´eho ˇclovˇeka odhadnout poruchu osobnosti ze spr´avn´e kategorie. Jako klasifik´ atory jsme vybrali Support-Vector machine [2], K-Nearest Neighbors [10], Naive Bayes [9] a Decision trees [1]. V´ ysledky jsou v tabulce 2. Tabulka 2. Ovˇeˇren´ı klasifikace oruchy osobnosti ze sebe-esej´ı pacienta. Klasifik´ ator Spr´ avnˇe SVN KNN NB DT
zdrav´e Spr´ avnˇe nemocn´e F-Sk´ ore 21/30 34/60 72.4 % 20/30 31/60 67.7 % 20/30 32/60 69.1 % 17/30 27/60 54.8 %
Prvn´ı sloupec popisuje pouˇzit´ y klasifik´ator. Druh´ y sloupec vyjadˇruje poˇcet spr´ avnˇe rozpoznan´ ych sebe-esej´ı pro dan´ y klasifik´ator pro pˇr´ıpad zdrav´ ych sebeesej´ı. Tˇret´ı sloupec urˇcuje poˇcet spr´avnˇe rozpoznan´ ych nemocn´ ych sebe-esej´ı vˇcetnˇe spr´ avn´eho zaˇrazen´ı do kategorie poruchy osobnosti. Posledn´ı sloupec vyjadˇruje u ´spˇeˇsnost klasifik´atoru dle F-Sk´ore. Jak je z tabulky patrn´e, nejlepˇs´ıho v´ ysledku dos´ ahl klasifik´ator Multi-Class Support Vector machine s fsk´ ore 72,4 %. Nejh˚ uˇre naopak dopadl Decision Tree s pouh´ ymi 54,8 %.
4
Z´ avˇ er
Hlavn´ım c´ılem t´eto pr´ ace bylo vytvoˇrit metodu k identifikaci poruchy osobnosti z psan´ ych sebe-esej´ı, tedy text˚ u popisuj´ıc´ı n´aladu, myˇslenky pacienta. Pro prvotn´ı 1
http://www.ulekare.cz/poradna-lekare
73
ISBN 978-80-553-2271-1
v´ yzkum jsme zvolili cestu za pouˇzit´ı zn´am´ ych klasifik´ator˚ u text˚ u. Pro extrakci vlastnost´ı text˚ u jsme zvolili podobnost mezi referenˇcn´ımi modely a olaritu - sentiment textu. Samotn´ a identifikace pak prob´ıh´a za pomoci klasifik´ator˚ u: MultiClass Support Vector Machine, K-Nearest Neighbors, Naive Bayer a Decision Tree. Metoda byla otestov´ ana na 90-ti re´aln´ ych pˇr´ıspˇevc´ıch z online poradny. ´ eˇsnost rozpozn´ Uspˇ an´ı poruchy osobnosti se pohybovala mezi 54.8 - 72.4 % dle pouˇzit´eho klasifik´ atoru, nejlepˇs´ıch v´ ysledk˚ u dosahoval Multi-Class Support Vector Machine. Dalˇs´ı v´ yzkum bude zamˇeˇren pˇredevˇs´ım na nav´ yˇsen´ı tr´enovac´ı a testovac´ı mnoˇziny sebe-esej´ı, na zlepˇsen´ı u ´spˇeˇsnosti rozpozn´av´an´ı poruch osobnost a sofistikovanˇejˇs´ı anal´ yzu n´ alad pro ˇcesky psan´e texty.
Acknowledgment ˇ e republiky – V´ yzkum byl podporov´ an projekty Technologick´e agentury Cesk´ ˇ ˇ TACR-TF01000091, a grantem SGS ˇc. SP2015/142, VSB-Technck´e univerzity Ostrava.
Reference 1. A. Abdelhalim and I. Traore. A new method for learning decision trees from rules. In Machine Learning and Applications, 2009. ICMLA ’09. International Conference on, pages 693–698, Dec 2009. 2. Corinna Cortes and Vladimir Vapnik. Support-vector networks. Mach. Learn., 20(3):273–297, September 1995. 3. Cheng Hua Li, Wei Song, and Soon Cheol Park. An automatically constructed thesaurus for neural network based document categorization. Expert Syst. Appl., 36(8):10969–10975, October 2009. 4. Qiang Li, Liang He, and Xin Lin. Categorical term frequency probability based feature selection for document categorization. In Soft Computing and Pattern Recognition (SoCPaR), 2013 International Conference of, pages 66–71, Dec 2013. 5. N. Oco, L. Romeritch Syliongka, R.E. Roxas, and J. Ilao. Dice’s coefficient on trigram profiles as metric for language similarity. In Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013 International Conference, pages 1–4, Nov 2013. 6. P. Saloun, M. Hruzik, and I. Zelinka. Sentiment analysis - e-bussines and e-learning common issue. In Emerging eLearning Technologies and Applications (ICETA), 2013 IEEE 11th International Conference on, pages 339–343, Oct 2013. 7. Petr Saloun, Adam Ondrejka, and Ivan Zelinka. Similarity of authors’ profiles and its usage for reviewers’ recommendation. In 9th International Workshop on Semantic and Social Media Adaptation and Personalization, SMAP 2014, Corfu, Greece, November 6-7, 2014, pages 3–8, 2014. 8. Jana Strakov´ a, Milan Straka, and Jan Hajiˇc. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13–18, Baltimore, Maryland, June 2014. Association for Computational Linguistics.
74
WIKT 2015
9. Harry Zhang. The optimality of naive bayes. In Valerie Barr and Zdravko Markov, editors, Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004). AAAI Press, 2004. 10. Juan Zhang, Yi Niu, and Huabei Nie. Web document classification based on fuzzy k-nn algorithm. In Computational Intelligence and Security, 2009. CIS ’09. International Conference on, volume 1, pages 193–196, Dec 2009.
75