Milan Meloun Jiøí Militký Martin Hill
Poèítaèová analýza vícerozmìrných dat v pøíkladech v oborech pøírodních, technických i spoleèenských vìd
ACADEMIA 2005
O autorech Prof. RNDr. MILAN M ELOUN, DrSc., (*1943) vystudoval pøírodovìdeckou fakultu Univerzity J. E. Purkynì (dnešní Masarykova) v Brnì 1965. Je profesorem analytické chemie a chemometrie na katedøe analytické chemie Chemickotechnologické fakulty Univerzity v Pardubicích. Vyuèoval statistické metody a analytickou chemii na Bagdádské univerzitì v Iráku a na Královské technice The Royal Institute of Technology ve Stockholmu. Je autorem a spoluautorem více než 150 originálních sdìlení, 15 monografií a 11 vysokoškolských uèebnic, 8 patentù a zlepšovacích návrhù a na konferencích pøednesl více než 200 pøednášek. Byl víc jak 10 let èlenem redakèních rad zahranièních odborných èasopisù Talanta a Analytica Chimica Acta a je pøedsedou sekce chemometrie pøi Èeské spoleènosti chemické. Vìtšina jeho publikací se týká poèítaèovì orientované analýzy instrumentálních dat pøi studiu rovnováh v roztocích a urèování reakèního produktu. Knižnì se uvedl dvoudílnou monografií Computation of Solution Equilibria, Folia UJEP Brno 1984 (spoluautor Josef Havel), která pak doplnìná o extrakèní rovnováhy (spoluautor Erik Högfeldt) vyšla v roce 1988 v anglickém nakladatelství Ellis Horwood, Chichester. K této problematice se spolu s Josefem Havlem vrátil ve dvou obsáhlých kapitolách monografie Computational Methods for the Determination of Formation Constants, Plenum Press, New York 1985, jejímž editorem byl David Leggett. Ve vìdecké práci prof. Melouna pøedstavuje poèítaè spojovací èlánek mezi statistikou a analytickou chemií. Výsledkem je analytická chemometrie, pøedmìt, který pøednáší na Univerzitì v Pardubicích od roku 1978. Dokladem je øada uèebních textù, napø. Chemometrie, VŠCHT Pardubice 1985. V zahranièí pøednášel dle textù svých uèebnic, a to pøi dvouletém pobytu na univerzitì v Bagdádu Data Analysis by Statistical and Computing Technique, University Baghdad Press, Baghdad 1980. Pøi hostování na Královské univerzitì ve Stockholmu používal svou sbírku pøíkladù Introduction to Chemometrics, která je postavena na interaktivní analýze pomocí statistického systému STATGRAPHICS. Vlastní pøístup k analýze experimentálních dat se promítá i do kapitoly Chemometrics in the Instrumental Laboratory v monografii, vydané editorem Jaroslavem Churáèkem: Advanced Instrumental Methods of Chemical Analysis, Academia, Praha 1993, nebo kapitoly Hodnocení analytických výsledkù ve Vláèilovì sbírce Pøíklady z chemické a instrumentální analýzy, SNTL, Praha 1983. Obsáhlá rešerše a zkušenosti spoluautora Jiøího M ilitkého pøinesly øadu novìjších postupù ze statistické analýzy dat, prùzkumové analýzy a pøedevším interaktivní pøístup k analýze dat na osobním poèítaèi. Spoleènì tak vzniklo první vydání uèebnice Chemometrie – Zpracování experimentálních dat na IBM PC. Text byl pøeložen do angliètiny a po doplnìní o kapitoly vícerozmìrné statistiky Michelem Forinou vyšel postupnì jako dvoudílná uèebnice u nakladatelství Ellis Horwood, Chichester 1991, s názvem Chemometrics for Analytical Chemistry – Volume I. PCAided Statistical Data Analysis, Volume II. Regression Model Building and Testing. Na Univerzitì v Pardubicích pøednáší v øádném studiu chemometrii, organizuje postgraduální a dvouleté licenèní studium chemometrie a i krátkodobé intenzivní kurzy chemometrie pro aplikaci v prùmyslu. V tìchto formách studia chemometrie jsou užívány pøedevším 2 uèebnice Milan M eloun a Jiøí M ilitký: Statistické zpracování experimentálních dat, Finish, Pardubice 1992, PLUS, Praha 1994 a East Publishing 1998, Academia, Praha 2004 a M ilan M eloun, Jiøí Militký: Kompendium statistického zpracování dat, Academia Praha 2002.
4
O A U T O R EC H
Prof. Ing. JIØÍ MILITKÝ, Csc., EURING, (*1949) ukonèil fakultu textilní, specializaci textilní chemie, na VŠST v Liberci roku 1973 s vyznamenáním. V letech 1974 až 1976 pracoval ve Státním výzkumném ústavu textilním v Liberci, v oddìlení matematického modelování textilních struktur. V letech 1976 až 1989 pracoval ve Výzkumném ústavu zušlechovacím ve Dvoøe Králové nad Labem, kde se vìnoval pøevážnì zpracování experimentálních dat s využitím výpoèetní techniky. Od roku 1990 je vedoucím katedry textilních materiálù na Technické univerzitì v Liberci. V roce 1982 obhájil kandidátskou disertaèní práci z oblasti fyziky textilních vláken. V roce 1989 byl jmenován docentem a v roce 1992 se habilitoval. V prosinci 1993 byl jmenován øádným profesorem. Od 1.2.1994 do r. 1999 zastával funkci dìkana fakulty textilní TUL. Od roku 1999–2003 zastával funkci prorektora pro vìdu, výzkum a zahranièní spolupráci a od r. 2003 je opìt dìkanem fakulty textilní. V roce 1995 byl jmenován akademikem Ukrajinské akademie inženýrských vìd a v r. 1996 obdržel titul EURING. Je èlenem nìkolika vìdeckých spoleèností (The Textile Institute, JÈMF) a pracuje ve výboru sekce chemometrie pøi Èeské spoleènosti chemické. Jeho publikaèní èinnost zahrnuje oblasti textilního inženýrství, modelování kinetických procesù v pevné fázi a zpracování experimentálních dat. Je autorem nebo spoluautorem 606 vìdeckých pøíspìvkù (publikací, monografií, referátù a èlánkù). Jeho první kniha Modifikovaná PES vlákna (spoluautoøi Jiøí Kryštùfek, Jiøí Vaníèek a Oldøich Hartych) vyšla v SNTL v roce 1984. Zcela pøepracované a rozšíøení vydání bylo publikováno nakladatelstvím Elsevier v roce 1991. S Jiøím Kryštùfkem zpracoval knihu Barvení akrylových vláken a smìsí, která vyšla v Praze v nakl. SNTL v roce 1987. Ve spolupráci s Milanem Melounem publikoval uèebnice a monografie z oblasti využití interaktivních statistických metod v chemometrii. Jiøí Militký publikoval celkem 10 knih, z nichž tøi jsou zamìøeny do oblasti zpracování experimentálních dat s využitím výpoèetní techniky. Moderní metody interaktivní statistické analýzy dat zpracoval do rozsáhlého seriálu pøíruèek Statistické metody v textilní praxi I – IV, vydaného v letech 1982 až 1985 v Domì techniky Pardubice. Pøehled metod regrese a matematického modelování publikoval v seriálu skript Tvorba matematických modelù I – IV, vydaných v letech 1983 až 1989 v Domì techniky Ostrava. Vytvoøil systém programù pro zpracování experimentálních dat v jazyce HPL. Tyto programy jsou charakteristické tím, že, kromì stránky s t a t i s t i c k é , vycházejí vždy nejdøíve z ovìøování pøedpokladù o modelech, datech a použité metodì a využívají také progresivních n u m e r i c k ý c h postupù (zejména v oblasti lineární a nelineární regrese). Tyto algoritmy se pozdìji staly jádrem originálního programového systému ADSTAT. Pøednášel na odborných akcích v USA, Kanadì, Japonsku, Tchaj-wanu, Austrálii, Hongkongu, Vietnamu, Egyptì, Maroku a v øadì zemí Evropy. Je aktivnì zapojen do èinnosti v øadì odborných spoleèností. Je èlenem výboru „International Textile Academy“, èeské poboèky „The Textile Institute“ a pøedsedou èeského monitorovacího výboru FEANI. Je èlenem výboru Èeské statistické spoleènosti a Èeské chemické spoleènosti.
Ing. M artin Hill, DrSc. (1962). V roce 1986 absolvoval VŠCHT v Praze, obor chemické a energetické zpracování paliv. V letech 1987 až 1992 byl vìdeckým aspirantem v Ústavu geotechniky v Praze. V roce 1992 obhájil hodnost kandidát technických vìd za práci v oblasti kinetiky zplynování tuhých paliv. Je autorem nebo spoluautorem pøes 150 odborných prací pøevážnì v mezinárodních impaktovaných èasopisech. Vìtšina z tìchto prací je postavena na využití pokroèilých metod statistického zpracování vícerozmìrných lékaøských a biochemických dat.V roce 1996 absolvoval stáž v Conservatoire National des Arts et Métiers v Paøíži, kde se zabýval antiglukokortikoidními úèinky derivátù DHEA a pregnenolonu. Od roku byl nebo je hlavním øešitelem sedmi grantových projektù z nichž vìtšina byla zaøazena do soutìže o cenu ministra zdravotnictví a spoluøešitelem øady dalších z nichž jeden se umístil na prvním místì v uvedené soutìži. Za sérii metodických prací v oblasti analýzy ménì bìžných steroidù získal v roce 1998 Cenu Endokrinologické spoleènosti. V roce 1999 absolvoval dvouleté licenèní studium chemometrie na Univerzitì Pardubice, které uzavøel prací na téma vícerozmìrné statistické metody v analýze dat s negaussovským rozdìlením. V roce 2001 obhájil na základì práce „Steroid analysis and data treatment for physiological and diagnostic conclusions“ vìdeckou hodnost „Doktor chemických vìd“ v oboru Analytická chemie. Má zkušenosti v oblasti kapalinové a plynové chromatografie, hmotové spektrometie, imunoanalýzy, chemometrie a statistiky, které uplatòuje jako vìdecký pracovník v Oddìlení steroidních hormonù Endokrinologického ústavu, kde je zamìstnán od r. 1992. V souèasnosti se zabývá vývojem nových metod analýzy steroidù ve speciální steroidní diagnostice a aplikací moderních metod statistické analýzy pøi zpracování biochemických dat.
6
O A U T O R EC H
Obsah O autorech ................................................................................................................................................................... 05 O bsah ........................................................................................................................................................................... 09 Pøedmluva .................................................................................................................................................................... 13 1 C harakter vícerozm ìrných dat ............................................................................................................................ 1.1 N epøímá pozorování a korelace ................................................................................................................... 1.2 Zdrojová matice dat ..................................................................................................................................... 1.3 D ruhy dat ..................................................................................................................................................... 1.3.1 N estrukturovaná data ...................................................................................................................... 1.3.2 Strukturovaná data ! jedna skupina závisle promìnných .............................................................. 1.3.3 Strukturovaná data ! více skupin závisle promìnných ................................................................. 1.4 O dhady parametrù polohy, rozptýlení a tvaru ............................................................................................. 1.5 V yboèující body ..........................................................................................................................................
15 15 16 17 17 18 18 19 22
2
31 31 35 36 36 37 38 42
Pøedúprava vícerozm ìrných dat .................................................................................................................... 2.1 Form y standardizace dat .......................................................................................................................... 2.2 U žití statistických vah ................................................................................................................................. 2.3 Prùzkum ová analýza vícerozmìrných dat ............................................................................................... 2.3.1 Zobrazení vícerozmìrných dat ...................................................................................................... 1. Zobecnìné rozptylové grafy ...................................................................................................... 2. Symbolové grafy ....................................................................................................................... 2.3.2 O vìøení norm ality ..........................................................................................................................
3 M etody k odhalení struktury ve znacích a objektech ......................................................................................... 49 4 A nalýza hlavních kom ponent (PC A ) .................................................................................................................... 4.1 Zamìøení metody PC A ................................................................................................................................ 4.2 Podstata metody PC A .................................................................................................................................. 4.3 C íl metody hlavních komponent PC A ........................................................................................................ 4.4 G rafické pomùcky analýzy hlavních komponent ........................................................................................ 4.4.1 C attelùv indexový graf úpatí vlastních èísel (Scree Plot) ............................................................. 4.4.2 G raf komponentních vah, zátìží (Plot C omponents W eights) ....................................................... 4.4.3 R ozptylový diagram komponentního skóre (Scatterplot) .............................................................. 4.4.4 D vojný graf (B iplot) ....................................................................................................................... 4.4.5 G raf reziduí jednotlivých objektù .................................................................................................. 4.4.6 G raf celkového reziduálového rozptylu všech objektù .................................................................. 4.5 D iagnostika metody hlavních komponent ................................................................................................... 4.6 Ø ešení èastých problémù v PC A .................................................................................................................
61 61 62 62 66 66 68 68 69 70 70 70 71
5 Faktorová analýza (FA ) ......................................................................................................................................... 99 5.1 Zamìøení metody FA ................................................................................................................................... 99 5.2 Podstata metody faktorové analýzy FA .................................................................................................... 101 5.3 G rafické pomùcky faktorové analýzy FA ................................................................................................. 105 5.4 D iagnostikování metodou FA ................................................................................................................... 105 1. C íle faktorové analýzy ....................................................................................................................... 106 2. Form ulace úlohy faktorové analýzy .................................................................................................. 106 3. Pøedpoklady faktorové analýzy ......................................................................................................... 107 4. N alezené øešení a dosažená tìsnost proložení ................................................................................... 108 5. Interpretace výsledkù ........................................................................................................................ 111 6. O vìøení výsledkù ............................................................................................................................... 114 7. V yužití výsledkù faktorové analýzy .................................................................................................. 114
8. D iagnostikování problémù faktorové analýzy .................................................................................. 117 6 K anonická korelaèní analýza C C A ..................................................................................................................... 6.1 Zamìøení metody C C A .............................................................................................................................. 6.2 Podstata metody C C A ............................................................................................................................... 6.2.1. Test významnosti kanonických korelací .................................................................................... 6.2.2. V ysvìtlení kanonických promìnných ........................................................................................ 6.2.3. A nalýza redundance ................................................................................................................... 6.2.4. G rafické pomùcky ...................................................................................................................... 6.3 Postup diagnostikování C C A .................................................................................................................... 1. Cíle kanonické korelaèní analýzy ..................................................................................................... 2. Formulace úlohy kanonické korelaèní analýzy ................................................................................. 3. Pøedpoklady kanonické korelaèní analýzy ........................................................................................ 4. N alezené øešení a dosažená tìsnost proložení ................................................................................... 5. Interpretace výsledkù ........................................................................................................................ 6. O vìøení výsledkù ............................................................................................................................... 7. D iagnostikování problémù kanonické korelaèní analýzy .................................................................
145 145 145 148 148 148 149 149 149 149 150 150 151 152 152
7 Diskrim inaèní analýza (D A ) ................................................................................................................................ 7.1 Zamìøení metody D A ................................................................................................................................ 7.2 Zaøazovací pravidla D A ............................................................................................................................ 7.3 Lineární (LD A ) a kvadratická (Q D A ) diskriminaèní funkce .................................................................... 1. Lineární diskriminaèní funkce LD A ................................................................................................. 2. K vadratická diskriminaèní funkce Q D A .......................................................................................... 7.4 U žití kanonické korelace v diskriminaèní analýze ............................................................................... 7.5 Ú prava prahového bodu ........................................................................................................................... 7.6 V olba znakù, diskriminátorù .................................................................................................................... 7.7 K valita zaøazení objektù do tøíd ............................................................................................................... 7.8 Logistická diskriminace ............................................................................................................................. 7.9 Prùbìh diagnostikování D A ...................................................................................................................... 1. C íle diskriminaèní analýzy ................................................................................................................ 2. Formulace úlohy a volba diskriminátorù .......................................................................................... 3. Pøedpoklady diskriminaèní analýzy .................................................................................................. 4. N alezené øešení a dosažená tìsnost proložení ................................................................................... 5. Interpretace výsledkù ........................................................................................................................ 6. O vìøení výsledkù ...............................................................................................................................
179 181 182 183 184 189 192 193 193 197 198 200 200 201 202 203 209 211
11 K orespondenèní analýza (C A ) .......................................................................................................................... 11.1 Zamìøení metody C A .............................................................................................................................. 11.2 Podstata metody C A ................................................................................................................................ 11.3 Postup korespondenèní analýzy .............................................................................................................. 1. C íle korespondenèní analýzy ............................................................................................................ 2. Formulace úlohy korespondenèní analýzy ........................................................................................ 3. Pøedpoklady korespondenèní analýzy ............................................................................................... 4. N alezené øešení a dosažená tìsnost proložení ................................................................................... 5. Interpretace výsledkù ........................................................................................................................ 6. O vìøení výsledkù ..............................................................................................................................
397 397 398 400 400 401 401 401 401 402
L iteratura ................................................................................................................................................................. 425 H odnocení ........................................................................................................................................................ Proè právì STA TISTIC A ? .............................................................................................................................. Produkty STA TISTIC A ................................................................................................................................... STA TISTIC A N euronové sítì C z ..................................................................................... STA TISTIC A A nalýza síly testu ...................................................................................... Prùmyslová øešení a nástroje Six Sigma ...............................................................................................
430 430 432 433 433 434
8
O A U T O R EC H STA TISTIC A D iagramy pro øízení jakosti C z ................................................................. ST A TIST IC A A nalýza procesù C z ................................................................................... STA TISTIC A N avrhování experimentù C z ...................................................................... Podnikové systémy ............................................................................................................................... STA TISTIC A D ata M iner ................................................................................................. STA TISTIC A Text M iner ................................................................................................. STA TISTIC A Q C M iner ................................................................................................... ST A TIST IC A V ícerozmìrné statistické øízení procesù .................................................... W ebSTA TISTIC A Server ................................................................................................. STA TISTIC A D ocument M anagement System ................................................................ W ebSTA TISTIC A D ata W arehouse .................................................................................
434 434 434 434 434 434 435 435 436 436 436
Pøedmluva Zpracování vícerozmìrných dat v technické praxi využívá poznatkù pøírodních vìd, matematické statistiky a informatiky v kombinaci se speciálními poèítaèovì orientovanými postupy. Souèasné výkonné osobní poèítaèe umožòují interaktivnost pøi zpracování vícerozmìrných dat a interpretaci získaných výsledkù. To klade stále vìtší nároky na znalosti pracovníkù, kteøí data zpracovávají a analyzují. Nabídka a možnosti poèítaèovì orientovaného statistického zpracování dat nutí ke komplexnìjší analýze problémù, což vede vìtšinou i k radikální zmìnì pohledu na metodiku jejich zkoumání. Pøi zpracování reálných vícerozmìrných dat se bìžnì naráží na øadu problémù a omezení: (a) rozsahy zpracovávaných dat nejsou vzhledem k rozmìrnosti problémù obyèejnì dostateènì velké, (b) v datech se vyskytují výrazné nelinearity, neaditivity a vzájemné vazby, které je tøeba identifikovat a popsat, (c) rozdìlení dat jen zøídka odpovídá normálnímu bìžnì pøedpokládanému ve standardní statistické analýze, (d) v datech se vyskytují podezøelá a odlehlá mìøení a rùzné heterogenity, (e) statistické modely se èasto tvoøí na základì pøedbìžných informací z dat (datovì orientované pøístupy), (f) existuje jistá neurèitost pøi výbìru modelu, popisujícího chování dat. To vše klade zvýšené nároky na techniky umožòující snižování rozmìrnosti, hledání vnitøních skrytých vazeb v datech respektive vhodné zobrazení vícerozmìrných dat. Pro tyto úèely existuje celé spektrum ménì èi více dokonalých komplexních programù a programových systémù. Nìkteré jsou budovány jako univerzálnì použitelné a nìkteré jsou zamìøené na specifické oblasti (chemometrie, biometrie, ekonometrie, medicínská statistika, obchodní statistika, statistika pro sociology, psychology, atd.). Jejich úèinné využití není možné bez znalostí alespoò základù pøíslušných metod, které jsou základem pro interpretaci výsledkù. Vlastní interpretace má obyèejnì jak statistickou stránku tak i stránku související
s daným oborem. Kniha je výsledkem snahy autorù pøeklenout rozdíl mezi pokrokem ve vývoji softwarových balíkù obsahujících metody statistického zpracování vícerozmìrných dat na jedné stranì a v praxi stále nedostateènì využívanými možnostmi jejich užiteèné aplikace na stranì druhé. Pøesto, že manipulace s daty je u moderních pøístrojù a systémù snadná, vlastní výpoèet je zpravidla otázkou sekund, poèítaèové výstupy z pøíslušného programu bývají pøehledné a jejich interpretace ve vìtšinì pøípadù nevyžaduje detailní matematickou znalost metodiky. Mezi odbornou, nematematicky zamìøenou veøejností stále pøetrvávají obavy z využívání vícerozmìrné statistické analýzy dat. Problémy èiní pøedevším vlastní formulace úlohy a dostateèná interpretace výsledkù. Specifickým problémem bývá také nepochopení výsledkù a interpretace výstupù statistické vícerozmìrné analýzy dat u èásti odborné veøejnosti. Pøesto, že výsledky jsou pro èlovìka by jen s povrchní znalostí uvedených metodik zcela zøejmé, stává se, že odborníci v daném oboru nejsou z dùvodù vlastní neznalosti schopni tìchto informací využít. Pøitom efektivita využití informací z dat pøi použití vícerozmìrných statistických technik je podstatnì vìtší než u jednorozmìrných dat. Cílem této knihy je zpøístupnit vícerozmìrné statistické techniky, které jsou dnes již bìžnou souèástí statistických softwarových balíkù široké nematematické pøírodovìdné a technické veøejnosti a zejména studentùm. Zvláštní dùraz je kladen na sestavení úlohy a na interpretaci výsledkù. Proto jsou tìžištìm knihy návody s podrobnými postupy a komentované pøíklady s množstvím grafických výstupù umožòujících kromì diagnostiky kvality vstupních dat také snadnou interpretaci výsledkù. Kromì sestavení úlohy bývá, zvláštì u dat z oblasti biochemie a medicíny, problémem jejich nesymetrie rozdìlení, nekonstantní rozptýlení a výskyt nehomogenit. Z tìchto dùvodù byla pozornost vìnována i kvalitì vstupních dat a možnostem jejich transformace aby tak byly splnìny základní pøedpoklady správného provedení vícerozmìrné statistické analýzy. Pøíklady jsou voleny ze širokého spektra pøírodních a technických vìd, èasto z oblasti biochemie ale také z klinické praxe. Je na nich demonstrován zejména praktický pøínos vícerozmìrných statistických technik a zpravidla také jejich nezastupitelnost jednoduššími metodikami. Kniha vychází a velmi úzce souvisí s nedávno zveøejnìnou publikací Meloun M., Militký J.: Statistická analýza experimentálních dat, Academia Praha 2004, která obsahuje výklad jednotlivých vícerozmìrných metod do vìtší hloubky ale s menším zamìøením na poèítaèovì orientovanou analýzu resp. výsledky jednotlivých programù. Pøedpokládáme, že se kniha stane základem zpøístupnìní vícerozmìrného statistického zpracování dat širokému okruhu ètenáøù, pracovníkùm pøírodovìdných a technických oborù, studentùm, lékaøùm resp. dalším specialistùm, kteøí zpracovávají vícerozmìrná statistická data. Na závìr je naší milou povinností podìkovat všem spolupracovníkùm, studentùm a doktorandùm, které není možné ani všechny jmenovat a kteøí nám pomáhali èi pøispìli praktickými úlohami, radami èi konstruktivní kritikou. Vdìk patøí také všem pedagogùm a studentùm øádného i licenèního studia, kteøí nám poskytli cenné dotazy, podnìty a pøipomínky k øešeným pøíkladùm.
Milan M eloun, Jiøí Militký a Martin Hill Pardubice, Liberec a Praha, leden 2005