Variační analýza, reprezentativní vzorek (repräsentative Probe), faktorová Analysa
Miloslav Toman: STATISTIKA Německé shrnutí a zejména český překlad výběru tří částí z knihy Deutsche Zusammenfassung und tschechische Übersetzung der Auswahl der drei Teilen aus dem Buch
Miloslav Toman: Nachricht über einigen Forschungen und Erwägungen aus den Bereichen Historie, Botanik und Astronomie
erscheint in Edition Nove beim Novum Verlag GmbH, Rathausgasse 73, A- 7311 Neckenmarkt, Österreich (www.novumverlag.com;
[email protected]) Ladenpreis inkl. MWSt Euro 23,90.
( Anschrift des Verfassers : RNDr. Miloslav Toman, CSc., Kpt. Nálepky 7, CZ400 01 Ústí nad Labem, Tschechische Republik) Přehled všech částí knihy: Übersicht aller Teilen des Buches: A. Kartographische Identifikationder geographischen Angaben auf der sog. Karte des großen Germaniens von C. Ptolemaios aus dem 1. Jahrhundert B. Die uralten Siedlungsregionen in Böhmen und andere ungelöste Probleme der Chronik von Kosmas wie auch die Problematik des Ursprungs der Schwarzerden und benachbarten Böden und die Problematik der Entwicklung der tschechischen pseudoxermen Vegetation C. Die Weise der genetischen Überlieferung der quantitativen Merkmalen, Computertheorie der Vererbung und die Theorie über eine mögliche Art des Ursprungs des Lebens auf den verschiedenen Planeten D. Variabilität und Gliederung der Sektion Festuca der Gattung Festuca in Böhmen E. Drei statistischen Gesetzmäßigkeiten bei der Bearbeitung des Materials aus den böhmischen Populationen der Gattung Festuca Sekt. Festuca festgestellt F. Einige astronomische Erwägungen G. Bemerkungen zu den Informationen über Atlantis bei Platon Als Nachtrag noch das Kapitel H. Künstliche Auspflanzungen im Gelände
Deutsche Zusammenfassung- Německý souhrn Tři statistické zákonitosti zjištěné při zpracovávání materiálu českých populací rodu Festuca Sect. Festuca
Drei statistischen Gesetzmäßigkeiten bei der Bearbeitung des Materials aus den böhmischen Populationen der Gattung Festuca Sekt. Festuca festgesttellt
Als Fortsetzung der Studie von M. Toman (1990) ist in der Arbeit die Bewertung einiger Aspekte der statistischen Methoden durchgeführt worden. Es wurde ihre Anwendung bei der Populationsanalyse, namentlich bei balancierter, wie auch bei der unbalancierter Form der Varianzanalyse, bewertet. Die Aufmerksamkeit wurde vor allem der Auswahl der repräsentativen Probe der Populationen gewidmet. Wir haben in der Arbeit weiter begründet, dass bei der Varianzanalyse es notwendig ist, bei Errechnen der Mittleren Quadraten (MQT, MQZ und MQI) die Summen der Quadraten (SQT, SQZ und SQI) nicht mit der Anzahl der Freiheitsgrade, sondern mit der Anzahl der Fälle dividiert, dass bei der Varianzanalyse der Rest ist nur ein Ergebnis der Methode und dass es notwendig ist, bei der unbalancierten Form der Varianzanalyse die unbalancierte Variante in die balancierte überführen. So ist es möglich, den Rest gänzlich abseitigen. Das ist notwendig mit der Hilfe der repräsentativen Kollektionen der Populationen machen. Die fünfte Kapitel der Arbeit begründet, dass man muß bei der Faktorenanalyse die Korrelationskoeffiziente nicht für Vektoren, sondern für die Winkelfunktionen halten. Mit der Hilfe dieser Voraussetzung bei der Faktorenanalyse, es war möglich, neue Begründung der quantitativen Vererbung (siehe Abteilung C dieser Arbeit) definieren.
Český překlad- Tschechische Übersetzung Tři statistické zákonitosti zjištěné při zpracovávání materiálu českých populací rodu Festuca Sect. Festuca Na základě bohatého herbářovaného materiálu českých populací rodu Festuca Sectio Festuca (dnes ve sbírkách vídeňské university) statisticky i taxonomicky zpracovaného (viz oddíl D tohoto souboru) byly vypracovány některé dosud neznámé metodické postupy. Předně byl vypracován nový postup faktorové analýzy, který na základě revidovaných podkladů odstraňuje běžně deklarované nedostatky
dosud používané formy tohoto rozboru. Dále byla věnována pozornost objektivnímu výběru reprezentativního vzorku. Konečně bylo zjištěno, že tzv. Rest (zbytek), který se uvádí ve statistických rozborech a učebnicích existuje nikoli jako hodnota reálných poměrů mezi entitami objektivní reality, ale toliko jako důsledek metodického zpracování podkladů. Byla navržena metodika k odstranění tohoto balastního údaje při statistických zpracování.
1. Nová forma faktorové analýzy
Podle Überly (1974) se ve faktorové analýze používají jako vektory korelační koeficienty. Korelační koeficienty však nejsou vektory, nýbrž funkce úhlu. To vyplývá ze skutečnosti, že korelační koeficienty jsou (Hrubý 1961 : 105) geometrickým středem dvou regresních koeficientů, jež jsou totožné s tangentou úhlu, kterou svírá regresní přímka s osou x. Je tedy korelační koeficient identický s funkcí sinus, což ostatně potvrzuje i skutečnost, že u korelačního koeficientu právě tak jako u funkce sinus jsou mezními hodnotami +1 a –1. Dále bylo zjišťováno, jaký je vztah mezi korelačními koeficienty jakožto funkcemi sinus a mezi oběma vektory v rovnoběžníku sil, jestliže má tento rovnoběžník sil vyjadřovat vztahy mezi dvěma znaky zpracovávané kolekce. 0
0
Úhel v průsečíku obou vektorů (β na obr. C1) se pohybuje mezi 0 a 180 . Při totožnosti obou vektorů je úhel 0
0 . Jeho sinus je tedy 0. Korelační koeficient mezi totožnými znaky je však +1. Při vektorech protikladných 0. směrů je úhel 180 Sinus je tedy 0, avšak korelační koeficient je opět odlišný, = -1. Mezi těmito dvěma extrémy 0 0 0 se pohybuje sinus tohoto úhlu od 0 (0 ) přes +1 (90 ) opět k 0 (180 ), zatímco korelační koeficient vykazuje hodnoty 1+ , 0, -1. Sinus úhlu v průsečíku obou vektorů v rovnoběžníku sil (β) není tudíž identický s korelačním koeficientem. Na vrcholu obou vektorů leží úhel γ, který varíruje mezi 180 při jejich identitě a 0 při jejich protikladnosti. Sinus je tedy v obou případech 0. Korelační koeficienty mají však hodnoty +1 a -1. Ani tento úhel není tedy totožný s korelačním koeficientem. 0
0
S korelačním koeficientem totožné hodnoty má ale sinus úhlu, který je na obr. C1 označen jako δ. Jeho 00 0 0 velikost je 90 - β. Při identitě obou vektorů je β = 0, sin (90 β) = sin (90 - 0 ) = sin 90 = 1+, což odpovídá 0 0 0 0 0 korelačnímu koeficientu. Je-li β = 180 , potom je sin (90 - β) = (90 – 180 ) = sin (-90 ) = -1. I tehdy odpovídá 0 0 0 0 0 tato hodnota korelačnímu koeficientu. Je-li β = 90 , potom je sin (90 - β) = sin (90 – 90 ) = sin 0 = 0. Korelační koeficient je rovněž 0. Sinus tohoto úhlu δ = 90 - β je samozřejmě totožný s kosinem úhlu β. Odpovídá tedy korelační koeficient (r) 0 sinu δ, sinu (90 - β) jakož i kosinu β. Zde definovaná závislost, totiž, že korelační koeficient se rovná kosinu β, neboli že 0
r = cos β
bude použita při dalších analýzách.
Na tomto podkladě budiž zde navržena metoda k výpočtu faktorů (vektorů v rovnoběžníku sil(parallelogramm of forces)), která vyjadřuje zákonitosti vztahů všech kombinací znaků. Jedná se tedy o novou formu faktorové analýzy. Výpočet je možno provést na komputeru s cyklickým programem v tab. C9 (řeč QBASIC). S programem lze vypočíst nejen velikost vektorů (= faktorů), nýbrž i jejich směrodatnou odchylku a rozdíl těchto hodnot od hodnot předchozího cyklu.
Na počátku práce jsou tabelárně zpracované hodnoty zaneseny do řádků 1000 a následujících (vodorovně znaky, svisle populace). Řádky 15, 18 a 21 je nutno upravit podle typu rozboru. Po naprogramovaném výpočtu korelačních koeficientů (řádky 10 až 72) jsou pro jednotlivé znaky dosazeny jako velikost vektorů provizorní hodnoty (řádek 120). Jejich pomocí a z korelačních koeficientů jako funkcí úhlů jsou pro všechny kombinace vypočteny nové velikosti vektorů (řádky 250 – 280). Ze všech v našem případě 222 vypočtených vektorů je stanovena průměrná hodnota pro každý znak (řádky 290 až 310). Těmi jsou nahrazeny provizorní hodnoty vektorů (řádek 320). Tento postup je tak dlouho opakován, až je velikost vektorů téměř stabilizována. Empiricky bylo zjištěno, že výsledky jsou totožné, jestliže do řádku 120 dosadíme jako provizorní jakékoli hodnoty. Tyto hodnoty mohou být jak pro všechny znaky stejné, tak odlišné. Průběh se liší toliko nutným počtem cyklů. My jsme dosazovali jako všechny provizorní hodnoty 1 (jedna). Po třiceti cyklech byly vypočtené hodnoty nejméně na šest desetinných míst stabilizovány (řádky 200 a následující). Navržená forma faktorové analýzy také odstraňuje nedostatky dosavadního klasického postupu. Není zde problém kommunalit (cf. Überla 1974 : 137). Popsaná jednoznačnost bez ohledu na dosazené provizorní hodnoty odstraňuje tzv. problém rotace (Überla 1974 : 144). Současně je vysvětleno, proč korelační koeficienty jako totožné s hodnotami kosinus nikdy nepřekročí hodnoty od –1 do +1. Použití korelačních koeficientů jako funkcí úhlů je plně teoreticky zdůvodněno, což při použití korelačních koeficientů jakožto vektorů není možno konstatovat.
Přílohy
Program faktorové analýzy 10CLS 15 KL=70:REM Anzahl der Populationen 18 CU=22:REM Anzahl der Merkmale 21 CR=50: REM Zur Analyse bestimmte Anzahl der Populationen DIM AA (CU,KL),BB (CU,CR), CC (CU),DD (CU,CR), FF (CU, CU), PN (CU), L (CU)
DIM A(CU,CU), B(CU), U(50), ZZ(50) RESTORE 1000 : FOR I=1 TO CU : FOR J=1 TO KL : READ AA (I,J): NEXT:NEXT FOR I=1 TO CU: FOR J=1 TO CR : BB (I,J) = AA(I,J) : NEXT : NEXT FOR I=1 TO CU: FOR J=1 TO CR : CC(I)= CC (I) + BB(I,J) : NEXT CC(I)= CC(I)/CR : NEXT FOR I=1 TO CU : FOR J=1 TO CR : DD(I,J)=BB(I.J)-CC(I) PN(I)=PN(I) + (DD(I,J)^2) : NEXT : NEXT 51 ZK=0 : MU=MU + 1 IF MU>CU THEN 66 57 ZK=ZK+1 : PRINT MU; ZK IF ZK>CU THEN 51 FOR I=1 TO CR : FF(MU,ZK)=FF(MU,ZK) + (DD(MU,I) * (ZK,I) : NEXT : GOTO 57 72 FOR I=1 TO CU : FOR J=1 TO CU : A(I,J)=FF(I,J) / SQR (PN(I) * PN(J)) NEXT : NEXT 120 FOR I=1 TO CU : L(I)=1 :NEXT 160 CLS : PRINT „CYKLUS :“ P :PRINT : PRINT „Faktoren sind“; FOR I=1 TO CU : PRINT L(I); : NEXT IF P=0 THEN 250 200 PRINT : PRINT „Durchschn. Abw. von vorgehenden Zyklen bei Faktoren :“; IF P>6 THEN 400 PRINT : FOR I=1 TO P : PRINT U(I); : NEXT 250 PRINT : P=P + 1 : FOR I=1 TO CU : FOR J=1 TO CU B(I,J)=SQR(ABS(L(I)^2)+(L(J)^2-(2*L(I)*L(J)*(-A(I,J))))) 280 M(I)=M(I) + B(I;J) 290 NEXT : K=K + M(I) : NEXT 300 K=K/CU 310 FOR I=1 TO CU : M(I) =M(I)/K : U(P)=U(P) + ABS(M(I)-L(I))
320 L(I)=M(I) : M(I)=0 : NEXT : K=0 U(P)=U(P)/CU GOTO 160 400 FOR I=1 TO CU : Z=Z + L(I) : NEXT R=Z/CU : Z=0
410 FOR I=1 TO CU : K(1=K1 + ((L(I)-R)^2) : NEXT ZZ(P)=SQR(K1/(CU-1)) : K1=0 PRINT : FOR I=(P-4) TO P : PRINT U(I); : NEXT PRINT : PRINT : „Mittlere Abweichung der Faktoren :“ ; FOR I=(P-4) TO P : PRINT ZZ(I); : NEXT : GOTO 250 1000 DATA.........
Vztahy mezi dvěma vektory (v1 a v2) v rovnoběžníku sil pro zdůvodnění nové formy faktorové analýzy a jako potvrzení skutečnosti, že u kvantitativních znaků dědičnosti platí vztah r = sin (90°-β) = sin δ = cos β .
2. Výběr reprezentativního vzorku Ea1.Úvod Tato část studie navazuje na publikaci M. Tomana, Ein weiterer Beitrag zur Kenntnis der Populationsstruktur und zur Taxonomie von Festuca Sekt. Festuca in Böhmen (ČSSR) (Feddes Repertorium 101, 1-40, 1990). Byla vypracována v létech 1995-1997 v Podniku výpočetní techniky. Řediteli této organizace, panu ing. Hrubcovi, děkujeme za umožnění této práce.
Ea2. Materiál Jako podklad pro zpracování sloužily hodnoty z 290 populací, které byly totožné se základními materiály výše citovaných prací. U každé populace bylo statisticky proměřeno 22 kvantitativních znaků (přehled je v tab. Ea1). V citovaných pracích jsme vycházeli především z populací následujících druhů a souborných druhů : F. valesiaca (70 populací), F. rupicola (70 populací), F. ovina (60 populací), F. pallens (50 populací), F. x psammophila (20 populací) a F. filiformis (20 populací). Při výpočtech jsme často vycházeli i z jiného počtu populací . Ty měly představovat populace representativní. Jejich výběr je hlavní částí této srudie.
Ea3. Metodika výběru reprezentativních kolekcí (typových populací) druhů. Cíl této práce byl vybrat ze základnáho materiálu druhů rodu Festuca 5, 10, 15, nebo 20 nebo ještě více populací které měly sloužit jako typové kolekce (reprezentativní populace). Ty byly zjišťovány tak, aby jejich průměrné koeficienty odchylnosti zaujímaly např. při pěti populacích vždy po pětině, při 10 populacích vždy po desetině atd. plochy pod normální křivkou. Byly tudíž např. při 20 hodnotách vypočteny následující hodnoty : průměry z oborů 0 - 5% ( tedy 2,5%), 5 - 10% (7,5%) atd. až 95-100% (97,5%) plochy pod normálou. Potom byly podle Webrové (1972, v dodatku v tab. 2 a 2a) vyhledány na souřadnici p vzdálenosti, odpovídající příslušným plochám, tedy např. při.20 hodnotách vzdálenosti -1,96, -1,44, -1,15, -0,94, -076, -0,60, -0,46, 0.32, -0,19,, -0.06, +0,06, +0,19, +0,32, +0,46, +0,60, +0,76, +0,94, +1,15, +1,44 a +1,96 směrodatné odchylky od průměru. Teoretické hodnoty reprezentativního vzorku jsme obdrželi, jestliže jsme znásobili zjištěnými čísly (tedy v našem případě –1,96, -1,44, -1,15 atd.)směrodatnou odchylku průměrného koeficientu odchylnosti (viz také oddíl D této souborné práce) a výsledek jsme připočetli k hodnotám aritmetického průměru. Typové populace jsou potom ony, které se nejvíce přibližují k vypočteným teoretickým hodnotám. Koeficient odchylnosti definujeme (viz Toman 1988, str. 217 nebo 1990 str. 2) jako vztah průměrných hodnot jednoho znaku populace k celkové variabilitě onoho znaku v populaci. Tato definice provádí srovnání odchylky průměrných hodnot u populace s maximálně možnou teoretickou diferencí hodnot v populaci. Ta, jak známo, je dá dána vzorcem
x ± 3s Bylo počítáno v procentech z maximálně možných odchylek od průměru. K výpočtu koeficientů odchylnosti byla použita následující formule :
f =
100( x1 − x x ) 3s x
Průměrný koeficient odchylnosti je průměrem z koeficientů odchylnosti všech proměřovaných znaků populace, tedy : n
∑f x f = 1n
K tomu je ještě nutno poznamenat, že teoretická amplituda průměrného koeficientu odchylnosti nikdy nedosahuje od –100 do +100, ale že její rozsah je výrazně menší. Kromě toho je nutno počítat i s tím, že se teoretické hodnoty koeficientu odchylnosti od konkrétních hodnot populací poněkud odlišují. Proto je nutno průměr a směrodatnou odchylku cyklickým opakováním analýzy znovu a znovu upravovat až se dosáhne kýženého výsledku. Cyklický program je nutno koncipovat.v následujícím smyslu. Nejprve je nutno ze základní kolekce populací druhu (v našem případě z 20 až 70 populací) vypočíst pro každý znak a každou populaci vypočíst aritmetický průměr a směrodatnou odchylku. Poté je nutno pro každou populaci souboru vypočíst průměrný koeficient odchylnosti.
xf V následnosti pak jejich aritmetický průměr
xx f a jejich směrodatnou odchylku
sx f Tyto základní hodnoty mají být tedy nejprve vypočteny ze všech průměrných koeficientů odchylnosti populace nebo druhu. Pomocí výše udávaných hodnot, podle Weberové (1972) značených jako p, je pak nutno vybrat určené množství populací, u nichž se koeficienty odchylnosti nejvíce blíží teoreticky vypočteným hodnotám
Z těchto vybraných populací (tedy již ne ze všech populací souboru) se vypočte nový aritmetický průměr a nová směrodatná odchylka koeficientu odchylnosti. Ty nahradí ekvivalentní hodnoty v původní kolekci. Na jejich základě má být proveden nový výběr. To se cyklicky opakuje. Nově vybrané kolekce populací kolekce populací a při cyklickém opakování procesu také všechny další soubory populací mají pochopitelně menší počet populací. Tedy např. z původních sedmdesáti populací vznikne jen dvacet. Ty však svým rozložením lépe vystihují teoretickou normální křivku, než jak tomu bylo u původního souboru sedmdesáti populací. Původně byl předpoklad, že po určitém počtu opakování dojde ke stabilizaci vypočítávaných hodnot. Že takto vznikne požadovaná kolekce populací, které budou nejlépe vystihovat normální rozložení. Že vznikne representativní soubor populací, který bude lépe vystihovat celkovou variabilitu druhu než tomu bylo u neutříděného ale početnějšího souboru původního. Bylo však zjištěno, že stabilně vzniklá representativní kolekce populací je jen vzácným zjevem. Ze 32 případů, které jsme prověřili (viz tab. Ea1) vznikl tento výsledek jen jednou, a to u F. valesiaca agg. při výběru 30 populací ze 70. Častěji dochází k cyklickému opakování výběru, někdy v menších, jindy ve větších cyklech. Tab. Ea1 také dokumentuje, že velikost těchto cyklů závisí i na počtu populací v základním materiálu. U výběru z 20 populací dochází k cyklickému opakování pravidelně již při méně než při 20 cyklech. Jestliže však byl zpracováván celkový materiál, došlo k cyklickému opakování výsledků při méně než při 20% případů. Při cyklickém opakování výsledků, jakož i v dalších případech určujeme soubor typových populací pomocí chi-kvadrát testu. Za reprezentativní kolekci považujeme ten soubor populací, při kterém výsledky chi- kvadrát testu vykazují nejmenší hodnoty. Při výpočtech používáme následující vzorec (viz Weber 1972 str 501 et sq..) :
χ
2
n
=∑ 1
(
z1 − ϕ
)
2
1
ϕ1
Ve kterém fi- jedna znamená vypočtené, z- jedna reálné hodnoty.
Literatura Toman, M. (1990) : Ein weiterer Beitrag zur Kenntnis der Populationsstruktur und zur Taxonomie von Festuca Sect. Festuca in Böhmen. -Feddes Repert., Berlin, 102, 1-40. -
- - (1991) : Nachtrag zu den Analyse der Gattung Festuca Sect. Festuca in Böhmen. Feddes Repert., Berlin, 102, 571-578. - - - (1993) : Modellierung der Beziehungen zwischen den quantitativen Merkmalen bei Populationen der Gattung Festuca Sect. Festuca in Böhmen und ihre Bedeutung für die genetische Theorie. -Feddes Repert., Berlin, 104, 73-80. Weber, E. (1972) : Grundriß der biologischen Statistik. Ed. 7. -Jena.
Příloha
Stabilizace ( ++ ) a cyklické opakování ( + ) reprezentativních kolekcí ve dvacátém cyklu rozboru
Anzahl der ausgewählten Populationen valesiaca rupicola ovina pallens
Auswahl aus den 20 Populationen
Auswahl aus den bearbeiteten Populationen von vier Arten (val-70, rup-70, ovi-60, cin-50)
5
10
5
10
15
20
25
30
+ + + +
+ + + +
+ -
-
+ -
+ + + -
-
++ -
3. Rest (zbytek) při analýze variance
V Tomanově (1990) práci bylo zjištěno, že po dělení Summe Quadrate total (SQT), Summe Quadrate innerhalb (SQI) a Summe Quadrate zwischen (SQZ) u analýzy variance stupnémi volnosti jak je definuje Weber (1972 str. 243, tab. 33.2), tedy n-1 pro SQT, s-1 pro SQZ a n-s pro SQZ, dostaneme mimo středních čtverců (MQT, MQI a MQZ) také zbytek (Rest), který je průměrně 12,70% MQT veliký. Jestliže však dělíme SQT, SQI a SQZ počtem případů, dostaneme pravidelně zbytek řádově 10-5 % veliký, což je prakticky nula. Tuto skutečnost jsme dokumentovali v tab.21 (Toman l.c.). Tabulku nyní přetiskujeme jako tabulku Eb1. V předkládané práci jsme použili k podrobné analýze této zákonitosti materuál rodu Festuca, charakterizovaný i v jiných studiích tohoto komplexu článků. . Z 50 populací F. valesiaca, F. rupicola agg., F. ovina a F. pallens jsme podle metodiky, která byla popsána na jiném místě naší studie vybrali representativní vzorky 5, 10, 15 a 20 populací a vypočetli jsme absolutní hodnoty zbytku. Při identickém počtu populací všech čtyř druhů a při dělení počtem případů jsme u všech znaků vždy obdrželi absolutní hodnoty zbytku, který byl vždy téměř totožný s nulou (tab. Eb 3). Při dělení počtem stupňů volnosti ve smyslu Werera (l.c.) , byl vždy zbytek výrazně od nuly odlišný, a to jak při stejném počtu populací všech druhů (balancierte Form der Analyse - vybalancovaná forma analýzy : viz tab. Eb1), tak i při rozmanitém počtu populací (unbalanzierte Form der Analyse – nevybalancovaná forma analýzy, tab. Eb4, předposlední sloupec). Hrubý (1961 str. 118) doporučuje při analýze variance, stejně jako Weberová, dělit SQT, SQZ a SQI počtem stupňů volnosti. Ty však mají podle něho vždy velikost o jeden stupeň nižší než je počet případů.. Při tomto postupu je absolutní hodnota zbytku poněkud bližší nule, ale stále ještě veliká (tab. Eb4, poslední sloupec). Při nevybalancované formě analýzy je průměrná absolutní hodnota zbytku výrazně odlišná od nuly i tehdy, jestliže vypočteme střední čtverce dělením SQT, SQZ a SQI počtem případů. Velikost zbytku souvisí v tomto případě s průměrným počtem zpracovávaných populací a se směrodatnou odchylkou populací zpracovávaných druhů. To dokumentujeme na tab. Eb5 výpočtem korelačních koeficientů. Ten je tam vypočten jednak z absolutních hodnot zbytku (sloupce oooo) , jednak z hodnoty, kterou jsem označil jako c. Tato hodnota c (uváděná tam ve sloucích oo) je při tom směrodatná odchylka z počtu zpracovávaných populací (s) dělená průměrem z počtu zpracovávaných populací , tedy
c = xs V sériích, uváděných v tab. Eb5 přesahuje vždy korelační koeficient hodnotu 0,90, někdy dokonce 0.99. Průměrný korelační koeficient sérií 1 až 6 je 0,9550. Jako základní podklady pro tento rozbor sloužily opět druhy F. valesiaca, F. rupicola, F. ovina a F. pallens. Populace byly vybrány způsobem, který popsal Toman (1990 a zde v oddílu Ea). Při základní analýze (prvá série hodnot) souhlasí počet populací s údaji v prvých čtyřech sloupcích tabulky. V dalších čtyřech sériích (série 2 až 5) je vždy počet populací jednoho druhu maximálním počtem populací zpracovávaných (70 u F. valesiaca, 70 u F. rupicola, 60 u F. ovina a 50 u F. pallens). U poslední (šesté) série jsou populace základního rozboru doplněny 20 populacemi F. filiformis a 20 populacemi F. psammohila. Pro téměř absolutní korelaci zbytku s počtem populací a směrodatnou odchylkou vypočtenou z tohoto počtu je možno předpokládat, že při nevybalancované formě analýze variance závisí zbytek téměř výhradně na těchto dvou metodických ukazatelích, totiž těch, které vytvářejí hodnotu c, tedy na počtu populací a směrodatné odchylce z tohoto počtu. Výše bylo zjištěno, že u vybalancované formy při dělení počtem případů nevzniká zbytek. Při analýze variance nevybalancované formy, jestliže bylo děleno toliko počtem případů, závisí zbytek ještě na hodnotě c, což ale je
opět metodický ukazatel. Je tedy nutno uzavřít, že zbytek u analýzy variance nevzniká v důsledku reálně zjistěných hodnot, ale v důsledku metodiky zpracování. Dodatečně byl rovněž vypočten korelační koeficient ze všech hodnot tab. Eb5. Vzhledem ke skutečnosti že je výrazně menší (jen 0,8499) předpokládáme specifičnosti jednotlivých souborů. Nepatrné odchylky od ideálních hodnot 1,00 u jednotlivých souborů v tab. Eb5 pak vysvětlujeme tak, že jsou způsobeny nevelkými odchylkami skutečných hodnot od teoretických hodnot reprezentativních kolekcí. Totéž způsobuje u vybalancované formy analýzy výše zmíněných nepatrných odchylek tzv. zbytku od hodnot absolutní nuly (tab. Eb 3). Z uváděných skutečností vyplývá, že jen hodnoty, získané z vybalancované formy rozborů lze pokládat za signifikantní pro realitu. Zbytek a ostatní statistické údaje, zjištěné při nevybalancované formě analýzy nejsou podmíněny materiálem. Jsou dány toliko matematickými vztahy v počtu zpracovávaných populací jednotlivých entit. Při různém počtu populací jsou i při identickém materiálu výsledky velmi různé. Proto je nutné při analýze variance provádět u nevybalancované formy analýzy její převod na formu vybalancovanou. Při pokusu o tento převod jsme se pokusili nejprve použít vážený aritmetický průměr. K tomu nám sloužila formule Weberové (1972 str. 86) :
( . ) +(. . ) +( . )+KKK+(nk . xk ) x = n1 x1 n2 x2 nn3 x3 Při pokusu o tento převod jsme vycházeli z rozmanitého počtu populací a z následujících typů výpočtů : z podkladů Summe Quadrate SQT a SQI (prvý případ) z podkladů Mittlere Quadrate, MQT, MQI a MQZ (druhý případ). Pokusili jsme se, zapojit do analýzy i všech těchto pět hodnot (třetí případ). Do výpočtů jsme použili materiál ze všech druhů : 70 populací F. valesiaca, 70 populací F. rupicola, 60 populací F. ovina a 50 populací F. pallens a po 20 populacích F. filiformis a F. psammophila. Výsledky přináší tab. Eb6. Vždy je z nich zřetelné, že zbytek je vždy výrazně větší než nula. V případech 1 a 3 přichází v úvahu dokonce nepoměřitelné vztahy mezi MQZ a MQI. Tento pokus o převod nevybalancované formy ve vybalancovanou se tedy ukázal jako neúspěšný. Jiný případ možného převodu nevybalancované formy ve vybalancovanou je ten, který jsme popsali již dříve (Toman 1990 str. 10 – 12 a zde jako práce Ea). Jedná se o výběr reprezentativního vzorku populací o totožném počtu členů. Obecně je možno konstatovat, také vzhledem k tabulkám Eb1 a Eb3, že tato metoda je použitelná.
Literatur Hrubý, K. (1961) : Genetika. -Praha. Toman, M. (1990) : Ein weiterer Beitrag zur Kenntnis der Populationsstruktur und zur Taxonomie von Festuca Sect. Festuca in Böhmen. -Feddes Repert., Berlin, 102, 1-40. -
- - (1991) : Nachtrag zu den Analyse der Gattung Festuca Sect. Festuca in Böhmen. Feddes Repert., Berlin, 102, 571-578. - - - (1993) : Modellierung der Beziehungen zwischen den quantitativen Merkmalen bei Populationen der Gattung Festuca Sect. Festuca in Böhmen und ihre Bedeutung für die genetische Theorie. -Feddes Repert., Berlin, 104, 73-80. Weber, E. (1972) : Grundriß der biologischen Statistik. Ed. 7. -Jena.
Přílohy
Tab. E1. Analýza variance průměrných hodnot populací rodu Festuca sekce Festuca, jestliže byl součet čtverců dělen jednask stupni volnosti (Tab. E1 A), jednak počtem případů (Tab. E1 B)(sec.TOMAN 1990 Tab. 21). Pořadí znaků jako v odd. D (Festuca)
Tab. E1 A dividiert durch die Freiheitsgrade
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
gesamte Variabilität MQT (%) 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100
zwischen den Arten MQZ (%) 37,32 33,22 26,27 55,96 27,50 69,07 62,51 81,42 64,34 80,45 65,47 68,32 66,84 29,23 98,69 102,79 98,53 106,19 111,63 59,71 50,49 26,02
innerhalb der Arten MQI (%) 71,65 75,24 81,34 55,30 81,21 43,76 49,48 40,45 47,95 33,81 46,95 44,45 45,75 78,74 17,81 14,21 17,95 11,23 6,46 52,01 60,09 81,55
Rest (%) -8,97 -8,46 -7,61 -11,26 -8,71 -12,83 -11,99 -21,87 -12,29 -14,26 -12,42 -12,77 -12,58 -7,97 -16,50 -17,00 -16,48 -17,42 -18,09 -11,72 -10,58 -7,58
Tab. E1 B dividiert durch die Anzahl der Fälle
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22.
gesamte Variabilität MQT (%) 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100
zwischen den Arten MQZ (%) 31,37 27,94 22,08 47,02 22,91 58,03 52,52 68,41 54,06 67,61 55,02 57,42 56,17 24,56 82,93 86,38 82,80 89,24 93,81 50,18 42,43 21,87
innerhalb der Arten MQI (%) 68,63 72,16 77,92 52,98 77,09 41,97 47,48 31,59 45,93 32,39 44,98 42,58 43,83 75,44 17,07 13,62 17,20 10,76 6,19 49,82 57,57 78,13
Rest (%) 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
Tab.E2. Stabilizace ( ++ ) a cyklické opakování ( + ) reprezentativních kolekcí ve dvacátém cyklu rozboru
Anzahl der ausgewählten Populationen valesiaca rupicola ovina pallens
Auswahl aus den 20 Populationen
Auswahl aus den bearbeiteten Populationen von vier Arten (val-70, rup-70, ovi-60, cin-50)
5
10
5
10
15
20
25
30
+ + + +
+ + + +
+ -
-
+ -
+ + + -
-
++ -
Tab. E3. Velikost průměrů z absolutních hodnot zbytku u vybalancované formy variační analýzy a při dělení počtem případů
Anzahl der Populationen val rupi ovi pal 5
5
5
5
10
10
10
10
15
15
15
15
20
20
20
20
Durchschnitte des Restes abgerundet genaue Werte (%) (%) -5 0,00 1,204 . 10 -6 9,68 . 10 0,00 -5 1,83 . 10 0,00 -5 1,66 . 10 0,00
Tab. E4. Velikost průměrných hodnot z absolutních hodnot zbytku při vybalancované a nevybalancované formě analýzy variance a při počtu volnosti, jak je definován u WEBEROVÉ (1972), případně u HRUBÉHO (1961).
A. Podklady
Anzahl der Populationen valesiaca rupicola balancierte Form 5 5 10 10 15 15 20 20 unbalancierte Form 10 5 15 5 20 5 20 10 20 15 20 20 20 20 20 20 20 20 20 20 20 20
ovina
pallens
5 10 15 20
5 10 15 20
5 5 5 5 5 5 10 15 20 20 20
5 5 5 5 5 5 5 5 5 10 15
B. Výsledky
Durchschnitt des Restes Freiheitsgrade nach WEBER (1972) HRUBÝ (1961) (%) (%) 21,82 16,37 14,34 13,41
10,37 11,33 10,85 10,81
26,24 30,59 34,64 32,92 33,58 34,33 29,74 25,42 24,06 17,84 14,07
16,59 22,58 27,82 27,26 28,94 30,36 25,94 21,86 20,77 14,83 11,25
Tab. E5. Závislost poměrů mezi směrodatnou odchylkou z počtu populací a počtem populací na jedné straně (sloupce oo) a průměrným počtem z absolutních hodnot zbytku na straně druhé (sloupce oooo). Při nevybalancovaném modelu jsou SQT, SQZ a SQI děleny počtem případů Anzahl der Populationen der grundlegenden Analyse val rup ovi cin 5 5 5 5 10 5 5 5 15 5 5 5 20 5 5 5 20 10 5 5 20 15 5 5 20 20 5 5 20 20 10 5 20 20 15 5 20 20 20 5 20 20 20 10 20 20 20 15 20 20 20 20
Grundlegende Analyse oo -*0,400 0,667 0,857 0,707 0,667 0,693 0,544 0,471 0,462 0,285 0,131 -*KorKoef
oooo -*6,314 10,880 15,178 14,595 15,601 17,350 13,789 11,171 10,477 4,706 1,391 -*0.91072
Abweichungen von der grundlegenden Analyse valesiaca immer rupicola immer ovina immer 70 Populationen 70 Populationen 60 Populationen oo oooo oo oooo oo oooo 1,529 46,932 1,529 42,318 1,467 25,120 -*-*1,411 39,325 1,339 22,491 -*-*1,313 39,438 1,235 26,582 1,233 -*-*36,297 1,155 25,650 1,411 42,756 -*-*1,051 19,972 1,314 40,735 -*-*0,966 16,581 1,233 38,713 -*-*0,898 13,991 1,136 34,294 1,136 28,431 -*-*1,055 28,540 1,055 22,302 -*-*0,988 25,180 0,988 19,200 -*-*0,903 19,231 0,903 14,523 0,806 7,939 0,830 14,430 0,830 10,644 0,729 5,185 0,769 13,215 0,769 10,173 0,667 5,500 KorKoef 0.98534 KorKoef 0,97925 KorKoef 0,92101
pallens immer 50 Populationen
plus filiformis und psammophila je 20 Populationen oo oooo oo oooo 1,385 21,733 0,746 18,533 1,245 18,104 0,679 16,853 1,139 15,610 0,645 15,358 1,061 15,308 0,657 16,208 0,949 13,975 0,565 13,595 0,869 14,279 0,520 11,987 0,794 14,183 0,517 11,039 0,693 9,440 0,420 10,273 0,510 5,106 0,363 9,294 0,545 3,465 0,350 8,801 -*-*0,223 4,748 -*-*0,106 1,927 -*-*-*-*Korkoef 0,94050 KorKoef 0,99323
Tab. E6. Použití vzorce pro vážený průměr při analýza variance
Bearbeitete Werte
Ergebnisse MQZ MQI Durch- Durchschnitt schnitt (%) (%)
1.SQI und SQT 101,60 2. MQZ, MQI UND MQT 46,70 3. SQI, SQT, MQZ, MQI und MQT 85,05
5,73 61,15 6,04
Rest Durch- Durchschnitt schnitt (%) absol. Werten (%) -7,32 9,36 -7,86 8,79 +8,91 9,14