National Centre for Biomolecular Research Masaryk University Experimenty v IT – jak na ně? Radka Svobodová Vařeková
Obsah
•
Definice experimentu
•
Motivace (kdy se bez experimentu neobejdeme)
•
Měření – součást experimentu •
Definice měření
•
Typy měřících metod
•
Jednotky
•
Chyby měření
•
Odhad absolutní chyby
•
Zpracování výsledků vícenásobného měření
•
Příklad
•
Zápis výsledku měření
•
Hodnocení přesnosti nepřímého měření
•
Fáze experimentu
•
Návrh experimentu
•
Zpracování dat
•
Matematický model a regresní metody
•
Kritéria kvality modelu
•
Vizualizace výsledků
•
Příklad IT experimentu
2
05.11.10
Experiment
Experiment (pokus) je soubor jednání a pozorování, jehož cílem je ověřit nebo vyvrátit určitou hypotézu.
Experiment lze využít pro: • Ověření existujících teorií nebo nových hypotéz za účelem jejich potvrzení nebo vyvrácení. • Zodpovězení otázky nebo zkoumání problému.
Experiment nemůže nikdy dokázat hypotézu, může jí pouze podpořit nebo vyvrátit.
3
05.11.10
Experiment
Příklady: • Vede pití kapucina hodinu před zkouškou k lepším výsledkům? • Při jaké teplotě se sůl ve vodě nejlépe rozpouští? • Jaký je vliv počtu počítačů v PVM na dobu výpočtu? • Reaguje zinek s kyselinou sírovou? • Jak dlouho trvá vyhledání záznamu X v databázi? • Je rychlost působení Ibuprofenu závislá na množství alkoholu v krvi? • Jak se změní charakteristiky sítě po spuštění videokonference?
4
05.11.10
Experiment v IT - motivace
Informatika má k dispozici silné nástroje pro zjišťování faktů: • Důkazy • Výpočty
Proč tedy experimenty?
Některé informace neumíme získat výpočtem Některé hypotézy nelze ověřit důkazem
Ale naštěstí máme možnost experimentovat :-)
5
05.11.10
Měření
Nezbytná technika pro většinu experimentů. Poznámka: V některých experimentech se využívá pouze pozorování nebo výpočty.
Měření je proces, jehož cílem je stanovení hodnoty měřené veličiny případně více veličin.
6
05.11.10
Typy měřících metod
Subjektivní X objektivní metody: • Subjektivní: Působení bezprostředně na lidské smysly • Objektivní: Působení na měřící zařízení
Přímé X nepřímé metody: • Přímé: Hodnota měřené veličiny se zjišťuje přímým srovnáním se známou hodnotou téže veličiny. Příklady: Měření délky různými délkovými měřidly, měření teploty kapalinovým tepoměrem, měření doby běhu programu stopkami nebo pomocí vhodné funkce, zpoždění nebo obousměrné zpoždění pomocí vhodného software, ... • Nepřímé: Hodnota měřené veličiny se stanoví na základě jiných veličin, pomocí nichž lze měřenou veličinu vypočítat. Příklady: Měření hustoty látky pomocí hmotnosti a objemu látky, měření propustnosti na základě množství dat a času jejich přenosu, ...
7
05.11.10
Typy měřících metod II
Absolutní X relativní metody: • Absolutní: Poskytuje hodnotu měřené veličiny vyjádřenou přímo v příslušné jednotce. Příklady: Čas v sekundách, elektrický proud v ampérech, ... • Relativní: Hodnoty měřené veličiny se porovnávají se známou hodnotou veličiny téhož druhu (standardem, normálem). Příklady standardů: závaží, délková měřidla, normály elektrického odporu, kapacity, indukčnosti, svítivosti, ...
Statické X dynamické: • Statické: Hodnotu měřené veličiny určujeme z klidového stavu přístroje. • Dynamické: Hodnotu měřené veličiny stanovujeme na základě pohybu měřícího systému. Příklad: Rychlost pohybu tělesa na základě času, za který tělesu urazilo určitou vzdálenost.
8
05.11.10
Typy měřících metod III
Metoda substituční: Při substituční metodě nahrazujeme měřený objekt normálem o známých hodonotách, až dosáhneme na indikačním zařízení stejného efektu jako od samotného měřeného objektu. Příklad: Rezistor, jehož odpor určujeme, nahradíme v elektrickém obvodu takovým známým odporem na odporové dekádě, až je proud v obvodu stejný (nebo přibližně stejný) jako v případě zapojení rezistoru.
Metoda komparační: Při této metodě vyrovnáváme efekt měřeného objektu stejně velkým efektem opačného znaménka pomocí normálu veličiny stejného druhu. Příklad: Vážení, elektrická a magnetická měření atd.
Další metody: Interpolační metoda, metda postupných měření, ...
9
05.11.10
Výsledek měření
x = ( µ x ± σ x ) [x] Hodnota veličiny
Jednotka
Absolutní chyba (nejistota)
10
05.11.10
Soustava jednotek SI
Je mezinárodně domluvená soustava jednotek, která se skládá ze základních jednotek, odvozených jednotek, předpon a vedlejších jednotek. Základní jednotky:
FYZIKÁLNÍ VELIČINA
ZNAČKA VELIČINY
ZÁKLADNÍ JEDNOTKA
ZNAČKA JEDNOTKY
délka
l
metr
m
hmotnost
m
kilogram
kg
čas
t
sekunda
s
elektrický proud
I
ampér
A
termodynamická teplota
T
kelvin
K
látkové množství
n
mol
mol
svítivost
I
kandela
cd
11
05.11.10
Soustava jednotek SI II
Definice základních jednotek: Metr je délka trajektorie, kterou proběhne světlo ve vakuu za 1/299 792 458 sekundy. Kilogram je hmotnost mezinárodního prototypu kilogramu uloženého v Mezinárodním úřadě pro míry a váhy v Sèvres. Sekunda je doba rovnající se 9 192 631 770 periodám záření, které odpovídá přechodu mezi dvěma hladinami velmi jemné struktury základního stavu atomu cesia 133. Ampér je stálý elektrický proud, který při průtoku dvěma rovnoběžnými přímými a nekonečně dlouhými vodiči zanedbatelného kruhového průřezu, umístěnými ve vakuu ve vzájemné vzdálenosti 1 metru, vyvolá mezi nimi stálou sílu o velikosti 2∙10-7 Newtonu na 1 metr délky. Kelvin je 1/273,16 část termodynamické teploty trojného bodu vody. Mol je látkové množství soustavy, která obsahuje právě tolik elementárních jedinců (entit), kolik je atomů v nuklidu uhlíku 126C o hmotnosti 0,012 kg. Kandela je svítivost zdroje, který v daném směru vysílá monofrekvenční záření o kmitočtu 540∙1012 hertzů a jehož zářivost v tomto směru je 1/683 watu na steradián (W. sr-1)
12
05.11.10
Soustava jednotek SI III
Odvozené jednotky:
13
05.11.10
Výsledek měření
x = ( µ x ± σ x ) [x] Hodnota veličiny
Jednotka
Absolutní chyba (nejistota)
14
05.11.10
Výsledky měření a chyba měření
Hodnota x veličiny zjištěná měřením se vždy o něco liší od její skutečné hodnoty x0 (bohužel neznámé). Rozdíl hodnoty naměřené a skutečné se nazývá skutečná chyba ε (také se označuje absolutní chyba měření): ε = x – x0 Pokud bychom chybu měření přesně znali, mohli bychom určit skutečnou hodnotu měřené veličiny. To však z principu není možné. Proto se budeme snažit určit alespoň nejpravděpodobnější hodnotu měřené veličiny a její pravděpodobnou chybu. Tato chyba charakterizuje velikost intervalu, v němž můžeme s vysokou pravděpodobností očekávat, že bude skutečná hodnota ležet. 15
05.11.10
Typy chyb
• Soustavné (systematické) • Statistické (náhodné) • Hrubé
16
05.11.10
Soustavné chyby
Popis: • Ovlivňují výsledek měření zcela určitým způsobem, s jistou pravidelností. • Měřené hodnoty veličiny jsou buď trvale větší nebo menší než je hodnota skutečná. • Tyto odchylky lze odhadnout, a tak jejich vliv v podstatě vyloučit. • Soustavné chyby mohou mít původ v použité metodě, v přístrojích a nebo i v pozorovateli. Příčiny: • Metoda měření vypracovaná na základě zjednodušujících předpokladů. Např. při vážení na vzduchu vzniká soustavná chyba v důsledku různého vztlaku, má-li předmět jinou hustotu než závaží. • Měřicí přístroje a měřicí etalony. Lze je vyloučit cejchováním, užitím korekčních křivek přístrojů, atd. • Pozorovatel může svými osobními vlastnostmi (nedokonalostmi). Např. doba opožděné reakce na vnější podněty při změnách veličin (opožděné spuštění stopek). Odstranění: • Jejich vliv na výsledek měření se se zvětšujícím se počtem opakovaných měření nezmenšuje. • Lze je nalézt např. porovnáním výsledků s výsledky jiné měřící metody. • Pokud známe zdroje těchto chyb, můžeme provést jejich korekci a výrazně omezit jejich vliv na výsledek měření.
17
05.11.10
Náhodné chyby
Popis: • Působením velmi rozmanitých přesně nedefinovatelných vlivů se hodnoty určité veličiny, naměřené přibližně za stejných podmínek měření, poněkud liší. Příčiny: • Specifické pro měřenou veličinu, například: •
Náhodná změna polohy oka, určitá malá změna teploty, tlaku.
•
Nedodržení určitého tlaku měřicího šroubu u mikrometru.
•
Nedokonalost předpokládaných tvarů při výrobě (např. různý průměr drátu v různých místech).
Odstranění: • Měření fyzikálních veličin představuje v důsledku působení náhodných chyb statistický proces s náhodnou proměnnou. • Pravděpodobnou hodnotu měřené fyzikální veličiny a její chyby tak lze určit statistickými metodami. • Vliv náhodných chyb na výsledek měření klesá s počtem opakovaných měření.
18
05.11.10
Hrubé chyby
Popis: • Vznikají hrubým zásahem do procesu měření. • Jejich velikost významně převyšuje rozptyl chyby statistické. Příčiny: • Poruchy přístrojů • Chyby v postupu měření (např. vlivem nepozornosti). • Znečištění vzorku Odstranění: • Při větším počtu měření nebo měření trendu jsou partné (velký rozdíl od ostatních dat). • Před zpracováním dat je nutno naměřené hodnoty zatížené hrubou chybou nalézt a odstranit.
19
05.11.10
Chyby měření
20
05.11.10
Chyby měření II
21
05.11.10
Chyby měření III
22
05.11.10
Chyby měření IV
23
05.11.10
Chyby měření V
Přesnost X Správnost Případ A: •puška je nevychýlená •střelec je přesný Případ B: •puška je vychýlená •střelec je přesný Případ C: •puška je nevychýlená •střelec je nepřesný Případ D: •puška je vychýlená •střelec je nepřesný
24
05.11.10
Chyby měření VI
1,2 1
y
0,8
hrubá chyba
0,6 0,4 0,2 0 0
2
4
6 x
25
05.11.10
8
10
12
Chyby měření VII
0,2
0,19
Po odstranění hrubých chyb
y
0,18
0,17
0,16
0,15 0
2
4
6 x
26
05.11.10
8
10
12
Výsledek měření
x = ( µ x ± σ x ) [x] Hodnota veličiny
Jednotka
Absolutní chyba (nejistota)
27
05.11.10
Výsledky měření a chyba měření
Hodnota x fyzikální veličiny zjištěná měřením se vždy o něco liší od její skutečné hodnoty x0 (bohužel neznámé). Rozdíl hodnoty naměřené a skutečné se nazývá skutečná chyba ε (také se označuje absolutní chyba měření): ε = x – x0 Pokud bychom chybu měření přesně znali, mohli bychom určit skutečnou hodnotu měřené veličiny. To však z principu není možné. Proto se budeme snažit určit alespoň nejpravděpodobnější hodnotu měřené veličiny a její pravděpodobnou chybu. Tato chyba charakterizuje velikost intervalu, v němž můžeme s vysokou pravděpodobností očekávat, že bude skutečná hodnota ležet. 28
05.11.10
Výsledky měření a chyba měření II
Veličinu měříme vícekrát (např. 5x, ideálně 10x): Kdy se využívá: • Když je tato hodnota konstantou, která je nezbytná pro více výpočtů. • Když si nejsme jisti přesností použité metody. Jak vypočítáme hodnotu veličiny a její absolutní chyby?: • Pomocí statistických metod
Veličinu měříme 1x: Kdy se využívá: • Když provádíme sérii měření a analyzujeme trendy závislosti měřené veličiny na změně dalších veličin. Jak vypočítáme hodnotu veličiny a její absolutní chyby?: • Pracujeme přímo s naměřenou veličinou • Nepřesnost určujeme na základě charakteristik přístroje
29
05.11.10
Odhad absolutní chyby měřících přístrojů
• třída přesnosti:
P=
∆ i ,max 100% R
R – rozsah stupnice
• příklad: Rozsah ampérmetru je R = 3 A, třída přesnosti P = 1.5 Absolutní chyba (nejistota) měření proudu na tomto rozsahu je:
uB =
P R − 2 1.5 × 3 − 2 10 = 10 A = 0.026 A 3 3
• dělení měřících přístrojů podle třídy přesnosti:
30
05.11.10
p
Kategorie
0.1
etalony, normály
0.2
cejchovní
0.5
laboratorní
1
laboratorní
1.5
provozní
2.5
provozní
Odhad absolutní chyby měřících přístrojů II
• Příklad: Při měření posuvným měřidlem je ∆ = 0.1 mm. Chybu měření pak odhadneme jako
31
05.11.10
uB =
∆ 0.1 = mm≅ 0.05mm 3 3
Odhad absolutní chyby měřících přístrojů III
32
05.11.10
Zpracování výsledků vícenásobného měření Nejčastější distribuce chyb Normální (Gaussova) distribuce:
P( X = x ) =
( x − µ )2 1 exp − 2 2 σ σ 2π
Binomiální distribuce: P( X = x ) = ( nx ) p x (1 − p ) n − x
33
05.11.10
Poissonova distribuce:
P( X = x ) =
λx exp( −λ ) x!
Zpracování výsledků vícenásobného měření
Na následujících slidech předpokládáme, že pracujeme s normální distribucí chyb.
34
05.11.10
Zpracování výsledků vícenásobného měření
Výpočet hodnoty veličiny: Nejčastěji se využívá aritmetický průměr
x1 + x2 + ... + x N 1 x= = N N
N
∑x i =1
i
Absolutní odchylka:
∆xi = xi − x Relativní odchylka:
∆xi xi − x δxi = .100% = .100% x x 35
05.11.10
Zpracování výsledků vícenásobného měření II
Směrodatná odchylka jednoho měření: N
s=
∑ ∆ xi i =1
N
2
N −1
=
2 ( x − x ∑ i ) i =1
N −1 N
Poznámka: Hodnota s je blízká odmocnině průměrné hodnoty čtverce absolutní odchylky: s′ =
∑∆ x 2
i
i =1
N
Hodnotu s´ bychom mohli využít jako absolutní odchylku v případě velkého počtu měření. Tuto hodnotu lze odvodit přímo na základě teorie náhodných chyb. Proč využíváme s? Zjednodušeně lze říci, že jedno číslo z řady N je odebráno na výpočet aritmetického průměru (tímto úkonem odebereme jeden stupeň volnosti). 36
05.11.10
Zpracování výsledků vícenásobného měření III
Směrodatná odchylka aritmetického průměru: N
s s( x ) = = N
∑ ∆ xi i =1
N
2
N .( N − 1)
=
2 ( x − x ∑ i ) i =1
N .( N − 1)
Souvislost mezi směrodatnou odchylkou aritmetického průměru a směrodatnou odchylkou jednoho měření: Směrodatná odchylka aritmetického průměru klesá s počtem měření: N =5 N =10 N = 20 N =100
37
05.11.10
s = 0,45.s 5 s s( x ) = = 0,32.s 10 s s( x ) = = 0,22.s 20 s s( x ) = = 0,10.s 100
s( x ) =
Zpracování výsledků vícenásobného měření IV
s ( x ) / s na počtu měření N: Závislost poměru
Je zřejmé, že uskutečňovat veliké počty měření je málo efektivní. Na druhé straně volíme N > 5, nejlépe zpravidla 10. 38
05.11.10
Zpracování výsledků vícenásobného měření III
Směrodatná odchylka aritmetického průměru je tou absolutní chybou σx, kterou hledáme ve vztahu:
x = ( µ x ± σ x ) [x] Výsledek vícenásobného měření získáme tedy takto:
x = ( x ± s ( x ) ) [x] kde:
N
1 x= N 39
N
∑ xi i =1
05.11.10
s( x ) =
2 ∑ ( xi − x ) i =1
N .( N − 1)
Zápis výsledku měření
• Absolutní chybu uvádíme nejvýše na 2 platné číslice • Výsledek zaokrouhlíme v řádu poslední platné číslice směrodatné odchylky • Platné číslice – všechny číslice s vyjímkou nul před první nenulovou číslicí, příklad: 0,00152 → 3 platné číslice 0,010040 → 5 platných číslic 10,10000300 → 10 platných číslic • Příklad zápisu výsledků měření: v = (1,63 ± 0,02) ms-1 I = (0,10 ± 0,01) × 10-3 A P = (10,05 ± 0,12) GPa Poznámka: Pokud se chyba měření ve výsledku neudává, předpokládá se implicitně, že je menší než polovina řádu za poslední platnou číslicí výsledku: v = 1,5 ms-1 ⇒ 1,45 ms-1 < v < 1,55 ms-1
40
05.11.10
Příklad
Zpracování dat měření délky:
41
05.11.10
Příklad
Zpracování dat měření délky:
42
05.11.10
Příklad
Výpočet směrodatné odchylky aritmetického průměru:
Výsledek měření:
43
05.11.10
Hodnocení přesnosti nepřímého měření
Často je určována veličina u, která je vázaná s měřenými veličinami x, y, z, … vztahem u = f (x, y, z,…). Předpokládáme, že měření veličin x, y, z, … je zatíženo převážně náhodnými chybami a že známe směrodatné odchylky těchto měřených veličin. Tvar funkce f
x± y
Směrodatná odchylka aritmetického průměru
s ( x) + s ( y) 2
x.y
s( x ) s( y ) .x. y + x y
x/y
s( x ) s( y ) x . + x y y
2
2
2
k .x x
n
44
2
05.11.10
2
s( x ) x
n.( x )
n −1
.s ( x )
Experiment
Experiment (pokus ) je soubor jednání a pozorování, jehož cílem je ověřit nebo vyvrátit určitou hypotézu.
Experiment lze využít pro: • Ověření existujících teorií nebo nových hypotéz za účelem jejich potvrzení nebo vyvrácení. • Zodpovězení otázky nebo zkoumání problému.
Experiment nemůže nikdy dokázat hypotézu, může jí pouze podpořit nebo vyvrátit.
45
05.11.10
Fáze experimentu
46
05.11.10
Návrh experimentu
• Přesná formulace otázky (studované hypotézy) • Volba závislých a nezávislých proměnných • Nalezení externích proměnných a proměnných subjektu • Výběr levelů nezávislých proměnných • Výběr kombinací nezávislých proměnných • Volba počtu měření
47
05.11.10
Návrh experimentu – výběr závislých a nezáviských proměnných
Nezávislé proměnné: • Proměnné, které měníme v průběhu experimentu. • Každá z nich má minimálně 2 hodnoty a může mít i více. Tyto hodnoty jsou nazývány levely. Závislé proměnné: • Proměnné, které se mění v závislosti na změně závislých proměnných. • Tyto proměnné měříme během experimentu. Příklad: Otázka: Má alkohol vliv na reakční dobu? Nezávislá proměnná: Alkohol. Výzkumník navrhne, kdo a kolik bude pít. Závislá proměnná: Reakční doba. 48
05.11.10
Návrh experimentu – nalezení externích proměnných a proměnných subjektu Proměnné subjektu: • Vlastnosti subjektu, které nemohou být změněny experimentátorem. • Například věk, pohlaví a IQ osob; technické parametry počítačů, síťových kabelů,...; 3D struktura molekul. Externí (kontrolované) proměnné: • Proměnné, které nejsou v rámci experimentu studovány, ale musí být pod kontrolou, protože jejich změna může ovlivnit průběh experimentu. • Příklady: • Měříte jak je látka rozpustná ve vodě, ale pokaždé máte jinou teplotu vody. • Měříte vliv antidepresiv, ale některých osob se ptáte před víkendem a některých až poté. • Měříte průchodnost sítě, ale pokaždé v jiné denní době • Porovnáváte rychlost dvou notebooků, ale jeden je v klimatizované serverovně a druhý v kanceláři 49
05.11.10
Návrh experimentu – výběr závislých a nezáviských proměnných – příklad
Otázka: Má alkohol vliv na reakční dobu? Nezávislá proměnná: Alkohol. Levely nezávislé proměnné: • 2 skupiny: pijící a nepijící • 3 skupiny: žádný alkohol, 2 drinky, 4 drinky • 6 skupin: žádný alkohol, 1 dl, 2 dl, ..., 5 dl
50
05.11.10
Návrh experimentu – výběr kombinací nezávislých proměnných Má smysl kromě postupné změny jedné nebo druhé nezávislé proměnné měnit i obě tyto proměnné zároveň? Pokud ano, pro které dvojice (n-tice) proměnných?
Otázka: Mají alkohol a vepřo-knedlo-zelo vliv na reakční dobu? Nezávislé proměnná: Alkohol. Vepřo-knedlo-zelo. Levely: 4 skupiny: nic, alkohol, vepřo-knedlo-zelo, alkohol + vepřo-knedlo-zelo
51
05.11.10
Návrh experimentu – volba počtu měření
Zvolit pro každý level pouze jedno měření není vhodné. (Obtížně se odstraňují hrubé chyby.) Minimální počet měření pro odhalení hrubé chyby je 3. V případě problémů s přesností metody je vhodné použít více měření.
Před vlastním experimentem je vhodné si měření vyzkoušet a zjistit jeho absolutní chybu. Například pro 1 hodnotu nezávislé proměnné (případně i pro více hodnot) provést opakované měření závislé proměnné (5 - 10) hodnot a vypočítat absolutní chybu. Poté rozhodnout, jestli je tato absolutní chyba akceptovatelná pro daný experiment. 52
05.11.10
Zpracování dat
0,2
0,19
?
y
0,18
0,17
0,16
0,15 0
2
4
6 x
53
05.11.10
8
10
12
Matematický model
Naměřená data si můžeme představit jako dvojice: (ti, yi),
i = 1, ..., m
kde: ti ∈ Rk
bod měření (například čas nebo místo měření
yi
05.11.10
nebo obojí) hodnota, naměřená v ti
Matematický model II
Dále pak máme nějaký matematický model M: Rk+n -> R, který je závislý na n volných parametrech x1, x2, ..., xn a pro který požadujeme, aby: M(ti, x) ≈ yi kde: x = (x1, ..., xn) i = 1, ..., m (m je tedy počet naměřených bodů, se kterými budeme pracovat) 05.11.10
Matematický model III
V úlohách tohoto typu tedy pro mprvkovou množinu naměřených bodů (ti, yi) hledáme parametry x1,..., xn modelu M tak, aby daný model co možná nejlépe popisoval tuto množinu. => Minimalizujeme odchylku modelu od naměřených dat. 05.11.10
Matematický model IV
Ohmův zákon Data: ((Ui), Ii) kde Ui je napětí na svorkách rezistoru a Ii je proud, který prochází rezistorem Model: Obecně: M(ti, x) pro data (ti, yi) Ui M( ( U i ), (R ) ) = Konkrétně: R Parametry modelu: x = (R), kde R je odpor rezistoru. 05.11.10
Matematický model V
Radioaktivní rozpad Data: ((ti), Ni) kde ti je čas od počátku měření a Ni je počet atomů v čase ti Model: Obecně: M(ti, x) pro data (ti, yi)
M( ( t i ), ( N 0 , T ) ) = N 0 .e
−
ti T . ln 2
Konkrétně: Parametry modelu: x = (N0, T), kde N0 je počet atomù v čase 0 a T je poločas rozpadu. 05.11.10
Parametrizace modelu
Chceme minimalizovat odchylku modelu od naměřených dat => Chceme tedy, aby hodnoty rozdílů ri(x) = M(ti, x) - yi byly v absolutní hodnotě co nejmenší. To se dá interpretovat jako minimalizace normy vektoru: r(x) = (r1(x), ..., rm(x))T 05.11.10
Parametrizace modelu – metoda nejmenších čtverců
Nejčastěji se používá euklidovská (L2) norma, pro kterou dostáváme následující funkci k minimalizaci: m
f (x) = r (x) r (x) = ∑ ri (x) T
2
i =1
Namísto L2 normy je také možno použít normu L1 (součet absolutních hodnot ri) nebo L∞ (maximum z absolutních hodnot ri). Tyto normy mají svoje opodstatnění: například L1 norma lépe eliminuje body měření, které „uletěly“, tj. jsou výrazně mimo průběh zadaný ostatními body, často v dùsledku chyby při měření. 05.11.10
Lineární model a metoda nejmenších čtverců
V tomto případě je model lineární vzhledem k aproximovaným parametrům: M(ti, x) = φ1(ti).x1 + ... + φ n(ti).xn Pro odchylku modelu od reálného výsledku měření platí: => ri(x) = M(ti, x) - yi = φ 1(ti).x1 + ... + φ n(ti).xn - yi Funkce, kterou budeme v rámci metody minimalizovat, má tedy tvar: m m
f (x) = ∑ ri (x) = ∑ [ φ 1 ( t i ). x 1 +...+ φ n ( t i ). x n − y i ] 2
i =1
05.11.10
i =1
2
Lineární model a metoda nejmenších čtverců II
Budeme tedy minimalizovat funkci: m
2 [ ] f (x) = ∑ φ1 ( t i ).x1 + ... + φ n ( t i ).x n − y i i =1
V minimu musí pro všechny parametry x1, ..., xn modelu platit: ∂f =0 ∂x j Po odderivování tedy platí: m ∂f = ∑ 2. φ j ( t i ).[ φ 1 ( t i ). x 1 +...+ φ n ( t i ). x n − y i ] = 0 ∂x j i = 1
05.11.10
Lineární model a metoda nejmenších čtverců III
Rovnici: m
∑ 2.φ (t ).[ φ (t ).x j
i =1
i
1
i
1
+ ... + φ n ( t i ).x n − y i ] = 0
budeme dále upravovat: m
m
∑ y .φ (t ) = ∑ [ φ (t ).x i =1
i
j
i
m
i =1
1
i
1
+ ... + φ n ( t i ).x n ].φ j ( t i ) = m
= x1.∑ φ1 ( t i ).φ j ( t i ) + ... + x n .∑ φ n ( t i ).φ j ( t i ) i =1
i =1
Soustavu rovnice v tomto tvaru můžeme zapsat pomocí matice: A.x = b 05.11.10
Lineární model a metoda nejmenších čtverců IV
Soustavu rovnic: m
m
m
∑ y .φ (t ) =x .∑ φ (t ).φ (t ) + ... + x .∑ φ i =1
i
j
i
1
i =1
1
i
j
i
n
i =1
n
( t i ).φ j ( t i )
lze zapsat ve tvaru A.x = b následovně: m
a kj = ∑ φ k ( t i ).φ j ( t i ) i =1
m
b k = ∑ y i .φ j ( t i ) i =1
kde k, j ∈{1, …, n} Můžeme tedy obejít náročný proces minimalizace a získat minimum přímo řešením této soustavy. 05.11.10
Lineární model – lineární regrese
V praxi se velmi často setkáváme s tímto typem úloh: Máte zadáno m bodů (ti, yi), proložte těmito body přímku. = nalezněte koeficienty k a q v rovnici y = k.t + q. V tomto případě lze obecnou soustavu rovnic A.x = b m m a kj = ∑ φ k ( t i ).φ j ( t i ) b k = ∑ y i .φ j ( t i ) kde k, j ∈{1, …, n} i =1
i =1
Přepsat do tvaru:
m 2 ∑ ti i =1 m ∑ ti i =1
m ti ∑ y i .t i ∑ k i =1 . = i =1 m q m ∑ yi i =1 05.11.10 m
Kvadratický model
Naměřenými body tedy chceme proložit rovnici: y = a.t2 + b.t + c Analogicky jako v lineárním případě lze i v kvadratickém případě tuto speciální úlohu zapsat pomocí soustavy rovnic A.x = b, a to následovně: m 4 ∑t i i m=1 3 t ∑ i im=1 ∑ t 2 i =1 i
m
∑t i =1 m
3 i
2 t ∑i i =1 m
∑t i =1
i
05.11.10
m 2 ti ∑ t i yi ∑ i =1 a i m=1 m t . b = t y ∑ ∑ i i i i =1 c i =m1 ∑ y cm i i =1 m
2
Kvadratický model - příklad
Metodou nejmenších čtverců najděte polynom 2.stupně, který je nejblíže bodům: [1,1], [2,3], [4,6]. Řešíme tedy soustavu rovnic: m 4 ∑t i i m=1 3 t ∑ i i =1 m ∑ t 2 i =1 i
m
∑t i =1 m
∑t i =1 m
∑t i =1
05.11.10
3 i
2 i
i
m 2 2 t t y ∑ i i ∑ i i =1 a i m=1 m t . b = t y ∑ ∑ i i i i =1 c i =m1 ∑ y m i i =1 m
Kvadratický model – příklad II
=> soustava:
Výsledek je: a = -1/6, b = 5/2, c = -4/3. y=
−1 2 5 4 t + t− 6 2 3 05.11.10
273a + 73b + 21c = 109 73a + 21b + 7c = 31 21a + 7b + 3c = 10
Kritéria kvality modelu
Pearsonův korelační koeficient:
Vyjadřuje lineární závislost dvou veličin X a Y a nabývá hodnot z intervalu <-1,1> Nejčastěji se využívá jeho druhá mocnina R2. Čím více se její hodnota blíží jedné, tím lépe veličiny korelují.
Hodnota RMSD:
je často používaným měřítkem odchylek mezi hodnotami získanými modelem a originálními hodnotami.
69
05.11.10
Vizualizace výsledků XY grafy 14 12
pKa experimental
10 8 6 4 2 0 0,45
0,455
0,46
0,465
0,47
0,475
H charge [e]
70
05.11.10
0,48
0,485
0,49
0,495
Vizualizace výsledků Jednorozměrné grafy HF, MPA, 6-31G*
1
HF, NPA, 6-31G* B3LYP, NPA, 6-311G
0,9
B3LYP, NPA, 6-31G* BLYP, NPA, 6-311G HF, NPA, 6-311G
Correlation of a charge and pKa
0,8
BLYP, NPA, 6-31G* BMK, MPA, 6-31G*
0,7
B3LYP, MPA, 6-31G* BLYP, MPA, 6-31G* HF, MPA, 6-311G
0,6
B3LYP, MPA, 6-311G Semiempirika 1, am1
0,5
BLYP, MPA, 6-311G HF, MPA, STO-3G HF, NPA, STO-3G
0,4
B3LYP, MPA, STO-3G Semiempirika 2, pm3 B3LYP, NPA, STO-3G
0,3
BLYP, MPA, STO-3G BLYP, NPA, STO-3G
0,2
HF, MK, STO-3G B3LYP, MK, STO-3G BLYP, MK, STO-3G
0,1
BLYP, MK, 6-311G BLYP, MK, 6-31G*
0
B3LYP, MK, 6-31G*
R(H)
R(O)
R(C1)
R(C 2+6) Atom
71
05.11.10
R(C 3+5)
R(C4)
B3LYP, MK, 6-311G HF, MK, 6-31G* HF, MK, 6-311G
Vizualizace výsledků Histogramy
Neefektivní siRNA
72
05.11.10
Efektivní siRNA
Vizualizace výsledků
Best practices : Popisovat osy (včetně jednotek) Rozumná měřítka na obou osách Změřit dostatečný počet bodů Rozumné barvy a tvary bodů Vkládat trendy, nevkládat spojnice
7 6
y = 0,5x + 2
5 v [m/s]
• • • • •
4 3 2 1 0 0
0,5
1
1,5
2 t [s]
73
05.11.10
2,5
3
3,5
Příklad IT experimentu
Otázka: Jaký je vliv počtu počítačů v rámci kompaktního, heterogenního a homogenního PVM na rychlost běhu EEM výpočtů?
Volba nezávislých proměnných: • Typ PVM • Počet počítačů zapojených v PVM • Velikost vstupních dat pro EEM výpočty
Závislé proměnné: • Doba běhu výpočtu
74
05.11.10
Příklad IT experimentu II
Externí proměnné: • Technické parametry počítačů a sítě • Paralelní úlohy
Proměnné subjektu: • Typ vstupních dat (molekuly proteinů) • Parametry metody EEM
75
05.11.10
Příklad IT experimentu III
Levely nezávislých proměnných: • Typ PVM: 2 kompaktní PVM, 2 homogenní PVM, 2 heterogenní PVM • Počet počítačů zapojených v PVM: 1 až 25 • Velikost vstupních dat pro EEM výpočty: 10 molekul o velikosti 334 až 3002 atomů Kombinace nezávislých proměnných: • Všechny kombinace s těmito vyjímkami: U homogeních a heterogenních PVM bylo použito pouze 5 molekul; v homogením PVM bylo zapojeno maximálně 15 počítačů Volba počtu měření: • Každý čas výpočtu byl měřen třikrát, pro zpracování dat byla použita průměrná hodnota
76
05.11.10
Příklad IT experimentu – hypotéza
Doba běhu programu t(p) na PVM je v ideálním případě popsána rovnicí: t(p) = t(1) / p kde t(1) je doba běhu programu na jednom procesoru a p je počet procesorů v PVM. Složitost sériové verze je θ(N3), kde N je počet atomů Složitost výpočtů na PVM je (N3/p), složitost komunikace (N2*p). Se vzrůstajícím počtem procesorů začíná nárůst času stráveného komunikací převažovat nad zkrácením času nutného pro výpočet.
77
05.11.10
Příklad IT experimentu – výsledky
Kompaktní PVM: Čím větší molekula, tím výraznější zrychlení Při jistém počtu procesorů ale čas strávený komunikací převýší čas ušetřený rozdělením výpočtů
78
05.11.10
Příklad IT experimentu – výsledky II
Homogenní a heterogenní PVM: Výrazně menší zrychlení než u kompaktního PVM Ke zrychlení dochází jen pro velké molekuly
79
05.11.10
Děkuji za pozornost :-).
80
05.11.10