National Centre for Biomolecular Research Masaryk University Experimenty v IT jak na ně?

National Centre for Biomolecular Research Masaryk University Experimenty v IT – jak na ně? Radka Svobodová Vařeková

Obsah

•

Definice experimentu

•

Motivace (kdy se bez experimentu neobejdeme)

•

Měření – součást experimentu •

Definice měření

•

Typy měřících metod

•

Jednotky

•

Chyby měření

•

Odhad absolutní chyby

•

Zpracování výsledků vícenásobného měření

•

Příklad

•

Zápis výsledku měření

•

Hodnocení přesnosti nepřímého měření

•

Fáze experimentu

•

Návrh experimentu

•

Zpracování dat

•

Matematický model a regresní metody

•

Kritéria kvality modelu

•

Vizualizace výsledků

•

Příklad IT experimentu

2

05.11.10

Experiment

Experiment (pokus) je soubor jednání a pozorování, jehož cílem je ověřit nebo vyvrátit určitou hypotézu.

Experiment lze využít pro: • Ověření existujících teorií nebo nových hypotéz za účelem jejich potvrzení nebo vyvrácení. • Zodpovězení otázky nebo zkoumání problému.

Experiment nemůže nikdy dokázat hypotézu, může jí pouze podpořit nebo vyvrátit.

3

05.11.10

Experiment

Příklady: • Vede pití kapucina hodinu před zkouškou k lepším výsledkům? • Při jaké teplotě se sůl ve vodě nejlépe rozpouští? • Jaký je vliv počtu počítačů v PVM na dobu výpočtu? • Reaguje zinek s kyselinou sírovou? • Jak dlouho trvá vyhledání záznamu X v databázi? • Je rychlost působení Ibuprofenu závislá na množství alkoholu v krvi? • Jak se změní charakteristiky sítě po spuštění videokonference?

4

05.11.10

Experiment v IT - motivace

Informatika má k dispozici silné nástroje pro zjišťování faktů: • Důkazy • Výpočty

Proč tedy experimenty?

Některé informace neumíme získat výpočtem Některé hypotézy nelze ověřit důkazem

Ale naštěstí máme možnost experimentovat :-)

5

05.11.10

Měření

Nezbytná technika pro většinu experimentů. Poznámka: V některých experimentech se využívá pouze pozorování nebo výpočty.

Měření je proces, jehož cílem je stanovení hodnoty měřené veličiny případně více veličin.

6

05.11.10

Typy měřících metod

Subjektivní X objektivní metody: • Subjektivní: Působení bezprostředně na lidské smysly • Objektivní: Působení na měřící zařízení

Přímé X nepřímé metody: • Přímé: Hodnota měřené veličiny se zjišťuje přímým srovnáním se známou hodnotou téže veličiny. Příklady: Měření délky různými délkovými měřidly, měření teploty kapalinovým tepoměrem, měření doby běhu programu stopkami nebo pomocí vhodné funkce, zpoždění nebo obousměrné zpoždění pomocí vhodného software, ... • Nepřímé: Hodnota měřené veličiny se stanoví na základě jiných veličin, pomocí nichž lze měřenou veličinu vypočítat. Příklady: Měření hustoty látky pomocí hmotnosti a objemu látky, měření propustnosti na základě množství dat a času jejich přenosu, ...

7

05.11.10

Typy měřících metod II

Absolutní X relativní metody: • Absolutní: Poskytuje hodnotu měřené veličiny vyjádřenou přímo v příslušné jednotce. Příklady: Čas v sekundách, elektrický proud v ampérech, ... • Relativní: Hodnoty měřené veličiny se porovnávají se známou hodnotou veličiny téhož druhu (standardem, normálem). Příklady standardů: závaží, délková měřidla, normály elektrického odporu, kapacity, indukčnosti, svítivosti, ...

Statické X dynamické: • Statické: Hodnotu měřené veličiny určujeme z klidového stavu přístroje. • Dynamické: Hodnotu měřené veličiny stanovujeme na základě pohybu měřícího systému. Příklad: Rychlost pohybu tělesa na základě času, za který tělesu urazilo určitou vzdálenost.

8

05.11.10

Typy měřících metod III

Metoda substituční: Při substituční metodě nahrazujeme měřený objekt normálem o známých hodonotách, až dosáhneme na indikačním zařízení stejného efektu jako od samotného měřeného objektu. Příklad: Rezistor, jehož odpor určujeme, nahradíme v elektrickém obvodu takovým známým odporem na odporové dekádě, až je proud v obvodu stejný (nebo přibližně stejný) jako v případě zapojení rezistoru.

Metoda komparační: Při této metodě vyrovnáváme efekt měřeného objektu stejně velkým efektem opačného znaménka pomocí normálu veličiny stejného druhu. Příklad: Vážení, elektrická a magnetická měření atd.

Další metody: Interpolační metoda, metda postupných měření, ...

9

05.11.10

Výsledek měření

x = ( µ x ± σ x ) [x] Hodnota veličiny

Jednotka

Absolutní chyba (nejistota)

10

05.11.10

Soustava jednotek SI

Je mezinárodně domluvená soustava jednotek, která se skládá ze základních jednotek, odvozených jednotek, předpon a vedlejších jednotek. Základní jednotky:

FYZIKÁLNÍ VELIČINA

ZNAČKA VELIČINY

ZÁKLADNÍ JEDNOTKA

ZNAČKA JEDNOTKY

délka

l

metr

m

hmotnost

m

kilogram

kg

čas

t

sekunda

s

elektrický proud

I

ampér

A

termodynamická teplota

T

kelvin

K

látkové množství

n

mol

mol

svítivost

I

kandela

cd

11

05.11.10

Soustava jednotek SI II

Definice základních jednotek: Metr je délka trajektorie, kterou proběhne světlo ve vakuu za 1/299 792 458 sekundy. Kilogram je hmotnost mezinárodního prototypu kilogramu uloženého v Mezinárodním úřadě pro míry a váhy v Sèvres. Sekunda je doba rovnající se 9 192 631 770 periodám záření, které odpovídá přechodu mezi dvěma hladinami velmi jemné struktury základního stavu atomu cesia 133. Ampér je stálý elektrický proud, který při průtoku dvěma rovnoběžnými přímými a nekonečně dlouhými vodiči zanedbatelného kruhového průřezu, umístěnými ve vakuu ve vzájemné vzdálenosti 1 metru, vyvolá mezi nimi stálou sílu o velikosti 2∙10-7 Newtonu na 1 metr délky. Kelvin je 1/273,16 část termodynamické teploty trojného bodu vody. Mol je látkové množství soustavy, která obsahuje právě tolik elementárních jedinců (entit), kolik je atomů v nuklidu uhlíku 126C o hmotnosti 0,012 kg. Kandela je svítivost zdroje, který v daném směru vysílá monofrekvenční záření o kmitočtu 540∙1012 hertzů a jehož zářivost v tomto směru je 1/683 watu na steradián (W. sr-1)

12

05.11.10

Soustava jednotek SI III

Odvozené jednotky:

13

05.11.10

Výsledek měření


Jednotka


14

05.11.10

Výsledky měření a chyba měření

Hodnota x veličiny zjištěná měřením se vždy o něco liší od její skutečné hodnoty x0 (bohužel neznámé). Rozdíl hodnoty naměřené a skutečné se nazývá skutečná chyba ε (také se označuje absolutní chyba měření): ε = x – x0 Pokud bychom chybu měření přesně znali, mohli bychom určit skutečnou hodnotu měřené veličiny. To však z principu není možné. Proto se budeme snažit určit alespoň nejpravděpodobnější hodnotu měřené veličiny a její pravděpodobnou chybu. Tato chyba charakterizuje velikost intervalu, v němž můžeme s vysokou pravděpodobností očekávat, že bude skutečná hodnota ležet. 15

05.11.10

Typy chyb

• Soustavné (systematické) • Statistické (náhodné) • Hrubé

16

05.11.10

Soustavné chyby

Popis: • Ovlivňují výsledek měření zcela určitým způsobem, s jistou pravidelností. • Měřené hodnoty veličiny jsou buď trvale větší nebo menší než je hodnota skutečná. • Tyto odchylky lze odhadnout, a tak jejich vliv v podstatě vyloučit. • Soustavné chyby mohou mít původ v použité metodě, v přístrojích a nebo i v pozorovateli. Příčiny: • Metoda měření vypracovaná na základě zjednodušujících předpokladů. Např. při vážení na vzduchu vzniká soustavná chyba v důsledku různého vztlaku, má-li předmět jinou hustotu než závaží. • Měřicí přístroje a měřicí etalony. Lze je vyloučit cejchováním, užitím korekčních křivek přístrojů, atd. • Pozorovatel může svými osobními vlastnostmi (nedokonalostmi). Např. doba opožděné reakce na vnější podněty při změnách veličin (opožděné spuštění stopek). Odstranění: • Jejich vliv na výsledek měření se se zvětšujícím se počtem opakovaných měření nezmenšuje. • Lze je nalézt např. porovnáním výsledků s výsledky jiné měřící metody. • Pokud známe zdroje těchto chyb, můžeme provést jejich korekci a výrazně omezit jejich vliv na výsledek měření.

17

05.11.10

Náhodné chyby

Popis: • Působením velmi rozmanitých přesně nedefinovatelných vlivů se hodnoty určité veličiny, naměřené přibližně za stejných podmínek měření, poněkud liší. Příčiny: • Specifické pro měřenou veličinu, například: •

Náhodná změna polohy oka, určitá malá změna teploty, tlaku.

•

Nedodržení určitého tlaku měřicího šroubu u mikrometru.

•

Nedokonalost předpokládaných tvarů při výrobě (např. různý průměr drátu v různých místech).

Odstranění: • Měření fyzikálních veličin představuje v důsledku působení náhodných chyb statistický proces s náhodnou proměnnou. • Pravděpodobnou hodnotu měřené fyzikální veličiny a její chyby tak lze určit statistickými metodami. • Vliv náhodných chyb na výsledek měření klesá s počtem opakovaných měření.

18

05.11.10

Hrubé chyby

Popis: • Vznikají hrubým zásahem do procesu měření. • Jejich velikost významně převyšuje rozptyl chyby statistické. Příčiny: • Poruchy přístrojů • Chyby v postupu měření (např. vlivem nepozornosti). • Znečištění vzorku Odstranění: • Při větším počtu měření nebo měření trendu jsou partné (velký rozdíl od ostatních dat). • Před zpracováním dat je nutno naměřené hodnoty zatížené hrubou chybou nalézt a odstranit.

19

05.11.10

Chyby měření

20

05.11.10

Chyby měření II

21

05.11.10

Chyby měření III

22

05.11.10

Chyby měření IV

23

05.11.10

Chyby měření V

Přesnost X Správnost Případ A: •puška je nevychýlená •střelec je přesný Případ B: •puška je vychýlená •střelec je přesný Případ C: •puška je nevychýlená •střelec je nepřesný Případ D: •puška je vychýlená •střelec je nepřesný

24

05.11.10

Chyby měření VI

1,2 1

y

0,8

hrubá chyba

0,6 0,4 0,2 0 0

2

4

6 x

25

05.11.10

8

10

12

Chyby měření VII

0,2

0,19

Po odstranění hrubých chyb

y

0,18

0,17

0,16

0,15 0

2

4

6 x

26

05.11.10

8

10

12

Výsledek měření


Jednotka


27

05.11.10

Výsledky měření a chyba měření

Hodnota x fyzikální veličiny zjištěná měřením se vždy o něco liší od její skutečné hodnoty x0 (bohužel neznámé). Rozdíl hodnoty naměřené a skutečné se nazývá skutečná chyba ε (také se označuje absolutní chyba měření): ε = x – x0 Pokud bychom chybu měření přesně znali, mohli bychom určit skutečnou hodnotu měřené veličiny. To však z principu není možné. Proto se budeme snažit určit alespoň nejpravděpodobnější hodnotu měřené veličiny a její pravděpodobnou chybu. Tato chyba charakterizuje velikost intervalu, v němž můžeme s vysokou pravděpodobností očekávat, že bude skutečná hodnota ležet. 28

05.11.10

Výsledky měření a chyba měření II

Veličinu měříme vícekrát (např. 5x, ideálně 10x): Kdy se využívá: • Když je tato hodnota konstantou, která je nezbytná pro více výpočtů. • Když si nejsme jisti přesností použité metody. Jak vypočítáme hodnotu veličiny a její absolutní chyby?: • Pomocí statistických metod

Veličinu měříme 1x: Kdy se využívá: • Když provádíme sérii měření a analyzujeme trendy závislosti měřené veličiny na změně dalších veličin. Jak vypočítáme hodnotu veličiny a její absolutní chyby?: • Pracujeme přímo s naměřenou veličinou • Nepřesnost určujeme na základě charakteristik přístroje

29

05.11.10

Odhad absolutní chyby měřících přístrojů

• třída přesnosti:

P=

∆ i ,max 100% R

R – rozsah stupnice

• příklad: Rozsah ampérmetru je R = 3 A, třída přesnosti P = 1.5 Absolutní chyba (nejistota) měření proudu na tomto rozsahu je:

uB =

P R − 2 1.5 × 3 − 2 10 = 10 A = 0.026 A 3 3

• dělení měřících přístrojů podle třídy přesnosti:

30

05.11.10

p

Kategorie

0.1

etalony, normály

0.2

cejchovní

0.5

laboratorní

1

laboratorní

1.5

provozní

2.5

provozní

Odhad absolutní chyby měřících přístrojů II

• Příklad: Při měření posuvným měřidlem je ∆ = 0.1 mm. Chybu měření pak odhadneme jako

31

05.11.10

uB =

∆ 0.1 = mm≅ 0.05mm 3 3

Odhad absolutní chyby měřících přístrojů III

32

05.11.10

Zpracování výsledků vícenásobného měření Nejčastější distribuce chyb Normální (Gaussova) distribuce:

P( X = x ) =

 ( x − µ )2  1  exp − 2 2 σ σ 2π  

Binomiální distribuce: P( X = x ) = ( nx ) p x (1 − p ) n − x

33

05.11.10

Poissonova distribuce:

P( X = x ) =

λx exp( −λ ) x!


Na následujících slidech předpokládáme, že pracujeme s normální distribucí chyb.

34

05.11.10


Výpočet hodnoty veličiny: Nejčastěji se využívá aritmetický průměr

x1 + x2 + ... + x N 1 x= = N N

N

∑x i =1

i

Absolutní odchylka:

∆xi = xi − x Relativní odchylka:

 ∆xi xi − x δxi =  .100% =  .100% x x 35

05.11.10

Zpracování výsledků vícenásobného měření II

Směrodatná odchylka jednoho měření: N

s=

∑ ∆ xi i =1

N

2

N −1

=

2 ( x − x ∑ i ) i =1

N −1 N

Poznámka: Hodnota s je blízká odmocnině průměrné hodnoty čtverce absolutní odchylky: s′ =

∑∆ x 2

i

i =1

N

Hodnotu s´ bychom mohli využít jako absolutní odchylku v případě velkého počtu měření. Tuto hodnotu lze odvodit přímo na základě teorie náhodných chyb. Proč využíváme s? Zjednodušeně lze říci, že jedno číslo z řady N je odebráno na výpočet aritmetického průměru (tímto úkonem odebereme jeden stupeň volnosti). 36

05.11.10

Zpracování výsledků vícenásobného měření III

Směrodatná odchylka aritmetického průměru: N

s  s( x ) = = N

∑ ∆ xi i =1

N

2

N .( N − 1)

=

2 ( x − x ∑ i ) i =1

N .( N − 1)

Souvislost mezi směrodatnou odchylkou aritmetického průměru a směrodatnou odchylkou jednoho měření: Směrodatná odchylka aritmetického průměru klesá s počtem měření: N =5 N =10 N = 20 N =100

37

05.11.10

s = 0,45.s 5 s s( x ) = = 0,32.s 10 s s( x ) = = 0,22.s 20 s s( x ) = = 0,10.s 100

s( x ) =

Zpracování výsledků vícenásobného měření IV

 s ( x ) / s na počtu měření N: Závislost poměru

Je zřejmé, že uskutečňovat veliké počty měření je málo efektivní. Na druhé straně volíme N > 5, nejlépe zpravidla 10. 38

05.11.10

Zpracování výsledků vícenásobného měření III

Směrodatná odchylka aritmetického průměru je tou absolutní chybou σx, kterou hledáme ve vztahu:

x = ( µ x ± σ x ) [x] Výsledek vícenásobného měření získáme tedy takto:

 x = ( x ± s ( x ) ) [x] kde:

N

1 x= N 39

N

∑ xi i =1

05.11.10

 s( x ) =

2 ∑ ( xi − x ) i =1

N .( N − 1)

Zápis výsledku měření

• Absolutní chybu uvádíme nejvýše na 2 platné číslice • Výsledek zaokrouhlíme v řádu poslední platné číslice směrodatné odchylky • Platné číslice – všechny číslice s vyjímkou nul před první nenulovou číslicí, příklad: 0,00152 → 3 platné číslice 0,010040 → 5 platných číslic 10,10000300 → 10 platných číslic • Příklad zápisu výsledků měření: v = (1,63 ± 0,02) ms-1 I = (0,10 ± 0,01) × 10-3 A P = (10,05 ± 0,12) GPa Poznámka: Pokud se chyba měření ve výsledku neudává, předpokládá se implicitně, že je menší než polovina řádu za poslední platnou číslicí výsledku: v = 1,5 ms-1 ⇒ 1,45 ms-1 < v < 1,55 ms-1

40

05.11.10

Příklad

Zpracování dat měření délky:

41

05.11.10

Příklad

Zpracování dat měření délky:

42

05.11.10

Příklad

Výpočet směrodatné odchylky aritmetického průměru:

Výsledek měření:

43

05.11.10

Hodnocení přesnosti nepřímého měření

Často je určována veličina u, která je vázaná s měřenými veličinami x, y, z, … vztahem u = f (x, y, z,…). Předpokládáme, že měření veličin x, y, z, … je zatíženo převážně náhodnými chybami a že známe směrodatné odchylky těchto měřených veličin. Tvar funkce f

x± y

Směrodatná odchylka aritmetického průměru

s ( x) + s ( y) 2

x.y

 s( x )   s( y )   .x. y   +   x   y 

x/y

 s( x )   s( y )  x  .   +   x   y  y

2

2

2

k .x x

n

44

2

05.11.10

2

s( x ) x

n.( x )

n −1

.s ( x )

Experiment

Experiment (pokus ) je soubor jednání a pozorování, jehož cílem je ověřit nebo vyvrátit určitou hypotézu.

Experiment lze využít pro: • Ověření existujících teorií nebo nových hypotéz za účelem jejich potvrzení nebo vyvrácení. • Zodpovězení otázky nebo zkoumání problému.

Experiment nemůže nikdy dokázat hypotézu, může jí pouze podpořit nebo vyvrátit.

45

05.11.10

Fáze experimentu

46

05.11.10

Návrh experimentu

• Přesná formulace otázky (studované hypotézy) • Volba závislých a nezávislých proměnných • Nalezení externích proměnných a proměnných subjektu • Výběr levelů nezávislých proměnných • Výběr kombinací nezávislých proměnných • Volba počtu měření

47

05.11.10

Návrh experimentu – výběr závislých a nezáviských proměnných

Nezávislé proměnné: • Proměnné, které měníme v průběhu experimentu. • Každá z nich má minimálně 2 hodnoty a může mít i více. Tyto hodnoty jsou nazývány levely. Závislé proměnné: • Proměnné, které se mění v závislosti na změně závislých proměnných. • Tyto proměnné měříme během experimentu. Příklad: Otázka: Má alkohol vliv na reakční dobu? Nezávislá proměnná: Alkohol. Výzkumník navrhne, kdo a kolik bude pít. Závislá proměnná: Reakční doba. 48

05.11.10

Návrh experimentu – nalezení externích proměnných a proměnných subjektu Proměnné subjektu: • Vlastnosti subjektu, které nemohou být změněny experimentátorem. • Například věk, pohlaví a IQ osob; technické parametry počítačů, síťových kabelů,...; 3D struktura molekul. Externí (kontrolované) proměnné: • Proměnné, které nejsou v rámci experimentu studovány, ale musí být pod kontrolou, protože jejich změna může ovlivnit průběh experimentu. • Příklady: • Měříte jak je látka rozpustná ve vodě, ale pokaždé máte jinou teplotu vody. • Měříte vliv antidepresiv, ale některých osob se ptáte před víkendem a některých až poté. • Měříte průchodnost sítě, ale pokaždé v jiné denní době • Porovnáváte rychlost dvou notebooků, ale jeden je v klimatizované serverovně a druhý v kanceláři 49

05.11.10

Návrh experimentu – výběr závislých a nezáviských proměnných – příklad

Otázka: Má alkohol vliv na reakční dobu? Nezávislá proměnná: Alkohol. Levely nezávislé proměnné: • 2 skupiny: pijící a nepijící • 3 skupiny: žádný alkohol, 2 drinky, 4 drinky • 6 skupin: žádný alkohol, 1 dl, 2 dl, ..., 5 dl

50

05.11.10

Návrh experimentu – výběr kombinací nezávislých proměnných Má smysl kromě postupné změny jedné nebo druhé nezávislé proměnné měnit i obě tyto proměnné zároveň? Pokud ano, pro které dvojice (n-tice) proměnných?

Otázka: Mají alkohol a vepřo-knedlo-zelo vliv na reakční dobu? Nezávislé proměnná: Alkohol. Vepřo-knedlo-zelo. Levely: 4 skupiny: nic, alkohol, vepřo-knedlo-zelo, alkohol + vepřo-knedlo-zelo

51

05.11.10

Návrh experimentu – volba počtu měření

Zvolit pro každý level pouze jedno měření není vhodné. (Obtížně se odstraňují hrubé chyby.) Minimální počet měření pro odhalení hrubé chyby je 3. V případě problémů s přesností metody je vhodné použít více měření.

Před vlastním experimentem je vhodné si měření vyzkoušet a zjistit jeho absolutní chybu. Například pro 1 hodnotu nezávislé proměnné (případně i pro více hodnot) provést opakované měření závislé proměnné (5 - 10) hodnot a vypočítat absolutní chybu. Poté rozhodnout, jestli je tato absolutní chyba akceptovatelná pro daný experiment. 52

05.11.10

Zpracování dat

0,2

0,19

?

y

0,18

0,17

0,16

0,15 0

2

4

6 x

53

05.11.10

8

10

12

Matematický model

Naměřená data si můžeme představit jako dvojice: (ti, yi),

i = 1, ..., m

kde: ti ∈ Rk

bod měření (například čas nebo místo měření

yi

05.11.10

nebo obojí) hodnota, naměřená v ti

Matematický model II

Dále pak máme nějaký matematický model M: Rk+n -> R, který je závislý na n volných parametrech x1, x2, ..., xn a pro který požadujeme, aby: M(ti, x) ≈ yi kde: x = (x1, ..., xn) i = 1, ..., m (m je tedy počet naměřených bodů, se kterými budeme pracovat) 05.11.10

Matematický model III

V úlohách tohoto typu tedy pro mprvkovou množinu naměřených bodů (ti, yi) hledáme parametry x1,..., xn modelu M tak, aby daný model co možná nejlépe popisoval tuto množinu. => Minimalizujeme odchylku modelu od naměřených dat. 05.11.10

Matematický model IV

Ohmův zákon Data: ((Ui), Ii) kde Ui je napětí na svorkách rezistoru a Ii je proud, který prochází rezistorem Model: Obecně: M(ti, x) pro data (ti, yi) Ui M( ( U i ), (R ) ) = Konkrétně: R Parametry modelu: x = (R), kde R je odpor rezistoru. 05.11.10

Matematický model V

Radioaktivní rozpad Data: ((ti), Ni) kde ti je čas od počátku měření a Ni je počet atomů v čase ti Model: Obecně: M(ti, x) pro data (ti, yi)

M( ( t i ), ( N 0 , T ) ) = N 0 .e

−

ti T . ln 2

Konkrétně: Parametry modelu: x = (N0, T), kde N0 je počet atomù v čase 0 a T je poločas rozpadu. 05.11.10

Parametrizace modelu

Chceme minimalizovat odchylku modelu od naměřených dat => Chceme tedy, aby hodnoty rozdílů ri(x) = M(ti, x) - yi byly v absolutní hodnotě co nejmenší. To se dá interpretovat jako minimalizace normy vektoru: r(x) = (r1(x), ..., rm(x))T 05.11.10

Parametrizace modelu – metoda nejmenších čtverců

Nejčastěji se používá euklidovská (L2) norma, pro kterou dostáváme následující funkci k minimalizaci: m

f (x) = r (x) r (x) = ∑ ri (x) T

2

i =1

Namísto L2 normy je také možno použít normu L1 (součet absolutních hodnot ri) nebo L∞ (maximum z absolutních hodnot ri). Tyto normy mají svoje opodstatnění: například L1 norma lépe eliminuje body měření, které „uletěly“, tj. jsou výrazně mimo průběh zadaný ostatními body, často v dùsledku chyby při měření. 05.11.10

Lineární model a metoda nejmenších čtverců

V tomto případě je model lineární vzhledem k aproximovaným parametrům: M(ti, x) = φ1(ti).x1 + ... + φ n(ti).xn Pro odchylku modelu od reálného výsledku měření platí: => ri(x) = M(ti, x) - yi = φ 1(ti).x1 + ... + φ n(ti).xn - yi Funkce, kterou budeme v rámci metody minimalizovat, má tedy tvar: m m

f (x) = ∑ ri (x) = ∑ [ φ 1 ( t i ). x 1 +...+ φ n ( t i ). x n − y i ] 2

i =1

05.11.10

i =1

2

Lineární model a metoda nejmenších čtverců II

Budeme tedy minimalizovat funkci: m

2 [ ] f (x) = ∑ φ1 ( t i ).x1 + ... + φ n ( t i ).x n − y i i =1

V minimu musí pro všechny parametry x1, ..., xn modelu platit: ∂f =0 ∂x j Po odderivování tedy platí: m ∂f = ∑ 2. φ j ( t i ).[ φ 1 ( t i ). x 1 +...+ φ n ( t i ). x n − y i ] = 0 ∂x j i = 1

05.11.10

Lineární model a metoda nejmenších čtverců III

Rovnici: m

∑ 2.φ (t ).[ φ (t ).x j

i =1

i

1

i

1

+ ... + φ n ( t i ).x n − y i ] = 0

budeme dále upravovat: m

m

∑ y .φ (t ) = ∑ [ φ (t ).x i =1

i

j

i

m

i =1

1

i

1

+ ... + φ n ( t i ).x n ].φ j ( t i ) = m

= x1.∑ φ1 ( t i ).φ j ( t i ) + ... + x n .∑ φ n ( t i ).φ j ( t i ) i =1

i =1

Soustavu rovnice v tomto tvaru můžeme zapsat pomocí matice: A.x = b 05.11.10

Lineární model a metoda nejmenších čtverců IV

Soustavu rovnic: m

m

m

∑ y .φ (t ) =x .∑ φ (t ).φ (t ) + ... + x .∑ φ i =1

i

j

i

1

i =1

1

i

j

i

n

i =1

n

( t i ).φ j ( t i )

lze zapsat ve tvaru A.x = b následovně: m

a kj = ∑ φ k ( t i ).φ j ( t i ) i =1

m

b k = ∑ y i .φ j ( t i ) i =1

kde k, j ∈{1, …, n} Můžeme tedy obejít náročný proces minimalizace a získat minimum přímo řešením této soustavy. 05.11.10

Lineární model – lineární regrese

V praxi se velmi často setkáváme s tímto typem úloh: Máte zadáno m bodů (ti, yi), proložte těmito body přímku. = nalezněte koeficienty k a q v rovnici y = k.t + q. V tomto případě lze obecnou soustavu rovnic A.x = b m m a kj = ∑ φ k ( t i ).φ j ( t i ) b k = ∑ y i .φ j ( t i ) kde k, j ∈{1, …, n} i =1

i =1

Přepsat do tvaru:

 m 2  ∑ ti  i =1  m  ∑ ti  i =1

  m  ti   ∑ y i .t i  ∑ k   i =1 .  =  i =1  m   q    m   ∑ yi    i =1  05.11.10 m

Kvadratický model

Naměřenými body tedy chceme proložit rovnici: y = a.t2 + b.t + c Analogicky jako v lineárním případě lze i v kvadratickém případě tuto speciální úlohu zapsat pomocí soustavy rovnic A.x = b, a to následovně:  m 4 ∑t i  i m=1  3 t ∑ i  im=1  ∑ t 2  i =1 i

m

∑t i =1 m

3 i

2 t ∑i i =1 m

∑t i =1

i

05.11.10

  m 2  ti   ∑ t i yi  ∑ i =1   a   i m=1  m     t . b = t y ∑  ∑ i i i   i =1   c   i =m1   ∑ y  cm  i   i =1  m

2

Kvadratický model - příklad

Metodou nejmenších čtverců najděte polynom 2.stupně, který je nejblíže bodům: [1,1], [2,3], [4,6]. Řešíme tedy soustavu rovnic:  m 4 ∑t i  i m=1  3 t ∑ i  i =1  m  ∑ t 2  i =1 i

m

∑t i =1 m

∑t i =1 m

∑t i =1

05.11.10

3 i

2 i

i

m    2 2 t t y  ∑ i i ∑ i i =1   a   i m=1  m     t . b = t y ∑  ∑ i i i   i =1   c   i =m1   ∑ y  m  i   i =1  m

Kvadratický model – příklad II

=> soustava:

Výsledek je: a = -1/6, b = 5/2, c = -4/3. y=

−1 2 5 4 t + t− 6 2 3 05.11.10

273a + 73b + 21c = 109 73a + 21b + 7c = 31 21a + 7b + 3c = 10

Kritéria kvality modelu

Pearsonův korelační koeficient:

Vyjadřuje lineární závislost dvou veličin X a Y a nabývá hodnot z intervalu <-1,1> Nejčastěji se využívá jeho druhá mocnina R2. Čím více se její hodnota blíží jedné, tím lépe veličiny korelují.

Hodnota RMSD:

je často používaným měřítkem odchylek mezi hodnotami získanými modelem a originálními hodnotami.

69

05.11.10

Vizualizace výsledků XY grafy 14 12

pKa experimental

10 8 6 4 2 0 0,45

0,455

0,46

0,465

0,47

0,475

H charge [e]

70

05.11.10

0,48

0,485

0,49

0,495

Vizualizace výsledků Jednorozměrné grafy HF, MPA, 6-31G*

1

HF, NPA, 6-31G* B3LYP, NPA, 6-311G

0,9

B3LYP, NPA, 6-31G* BLYP, NPA, 6-311G HF, NPA, 6-311G

Correlation of a charge and pKa

0,8

BLYP, NPA, 6-31G* BMK, MPA, 6-31G*

0,7

B3LYP, MPA, 6-31G* BLYP, MPA, 6-31G* HF, MPA, 6-311G

0,6

B3LYP, MPA, 6-311G Semiempirika 1, am1

0,5

BLYP, MPA, 6-311G HF, MPA, STO-3G HF, NPA, STO-3G

0,4

B3LYP, MPA, STO-3G Semiempirika 2, pm3 B3LYP, NPA, STO-3G

0,3

BLYP, MPA, STO-3G BLYP, NPA, STO-3G

0,2

HF, MK, STO-3G B3LYP, MK, STO-3G BLYP, MK, STO-3G

0,1

BLYP, MK, 6-311G BLYP, MK, 6-31G*

0

B3LYP, MK, 6-31G*

R(H)

R(O)

R(C1)

R(C 2+6) Atom

71

05.11.10

R(C 3+5)

R(C4)

B3LYP, MK, 6-311G HF, MK, 6-31G* HF, MK, 6-311G

Vizualizace výsledků Histogramy

Neefektivní siRNA

72

05.11.10

Efektivní siRNA

Vizualizace výsledků

Best practices : Popisovat osy (včetně jednotek) Rozumná měřítka na obou osách Změřit dostatečný počet bodů Rozumné barvy a tvary bodů Vkládat trendy, nevkládat spojnice

7 6

y = 0,5x + 2

5 v [m/s]

• • • • •

4 3 2 1 0 0

0,5

1

1,5

2 t [s]

73

05.11.10

2,5

3

3,5

Příklad IT experimentu

Otázka: Jaký je vliv počtu počítačů v rámci kompaktního, heterogenního a homogenního PVM na rychlost běhu EEM výpočtů?

Volba nezávislých proměnných: • Typ PVM • Počet počítačů zapojených v PVM • Velikost vstupních dat pro EEM výpočty

Závislé proměnné: • Doba běhu výpočtu

74

05.11.10

Příklad IT experimentu II

Externí proměnné: • Technické parametry počítačů a sítě • Paralelní úlohy

Proměnné subjektu: • Typ vstupních dat (molekuly proteinů) • Parametry metody EEM

75

05.11.10

Příklad IT experimentu III

Levely nezávislých proměnných: • Typ PVM: 2 kompaktní PVM, 2 homogenní PVM, 2 heterogenní PVM • Počet počítačů zapojených v PVM: 1 až 25 • Velikost vstupních dat pro EEM výpočty: 10 molekul o velikosti 334 až 3002 atomů Kombinace nezávislých proměnných: • Všechny kombinace s těmito vyjímkami: U homogeních a heterogenních PVM bylo použito pouze 5 molekul; v homogením PVM bylo zapojeno maximálně 15 počítačů Volba počtu měření: • Každý čas výpočtu byl měřen třikrát, pro zpracování dat byla použita průměrná hodnota

76

05.11.10

Příklad IT experimentu – hypotéza

Doba běhu programu t(p) na PVM je v ideálním případě popsána rovnicí: t(p) = t(1) / p kde t(1) je doba běhu programu na jednom procesoru a p je počet procesorů v PVM. Složitost sériové verze je θ(N3), kde N je počet atomů Složitost výpočtů na PVM je (N3/p), složitost komunikace (N2*p). Se vzrůstajícím počtem procesorů začíná nárůst času stráveného komunikací převažovat nad zkrácením času nutného pro výpočet.

77

05.11.10

Příklad IT experimentu – výsledky

Kompaktní PVM: Čím větší molekula, tím výraznější zrychlení Při jistém počtu procesorů ale čas strávený komunikací převýší čas ušetřený rozdělením výpočtů

78

05.11.10

Příklad IT experimentu – výsledky II

Homogenní a heterogenní PVM: Výrazně menší zrychlení než u kompaktního PVM Ke zrychlení dochází jen pro velké molekuly

79

05.11.10

Děkuji za pozornost :-).

80

05.11.10

National Centre for Biomolecular Research Masaryk University Experimenty v IT jak na ně?

Recommend Documents