˝ B IOMATEMATIKA EL OADÁS
3. Hibaszámítás, lineáris regresszió
Debreceni Egyetem, 2015 Dr. Bérczes Attila, Bertók Csanád
A diasor tartalma
1
Hibaszámítás Hibák fajtái, definíciók Abszolút, relatív, öröklött hiba M˝uveleti tulajdonságok Differenciálszámítás alkalmazása
2
Lineáris regresszió Bevezetés, célok Képletek, biológiai példa
Hibaszámítás
Az elméleti tudományokban a méréseket és a mért tulajdonságokat a hibátlan voltuk is jellemzi. A mért tömeg pontosan x gramm, a vizsgált populációban nincs egyetlen mutáns egyed sem, a magasság kivétel nélkül mindenhol y és z méter közé esik, stb. A gyakorlati alkalmazás során azonban ez sosem teljesül. A hibáknak több f˝o típusát lehet megkülönböztetni: 1
Emberi figyelmetlenségb˝ol adódó hiba.
2
A m˝uszer tulajdonságaiból adódó hiba (kalibrációhoz, precizitáshoz köthet˝o).
3
A mért tulajdonság id˝obeli változásából adódó hiba (folyadékvesztés miatti tömegcsökkenés).
4
Egyéb, nem kategorizálható hiba (elromlik a laborban a párásító, lejár a vegyszer szavatossága).
Hibaszámítás - Definíciók Megkülönböztetünk továbbá szisztematikus és véletlen hibákat. Az els˝ot rendszerint nehezebb észrevenni. Közelítés A továbbiakban ha x1 , x2 , . . . , xn méréssel rendelkezünk, úgy azok közelít˝o értékéül az x :=
x1 + x2 + . . . + xn n
számtani közepet fogadjuk el, míg az átlagos hiba mértékéül az s (∆x1 )2 + . . . + (∆xn )2 σ := n−1 számot használjuk, ahol ∆xi := x − xi (i = 1, . . . , n).
Hibaszámítás - abszolút, relatív hiba
Legyen a vizsgált mennyiségünk pontos értéke X. Ezt természetesen nem tudjuk, csupán abban lehetünk biztosak, hogy ez létezik. Legyen továbbá a mért értékünk x (ez a közelít˝o érték). Definíció Egy δx számot az x közelít˝o érték abszolút hibakorlátjának nevezünk, ha a közelít˝o érték a pontos értékt˝ol δx -nél biztosan nem tér el jobban, azaz: |X − x| ≤ δx . Megjegyzés Ismertebb jelölés az X = x ± δx .
Hibaszámítás - abszolút, relatív hiba Ez még önmagában nem túl használható, hiszen ha futni megyünk és a megtett távolságot ±2km-es pontossággal adjuk meg, akkor nem mindegy, hogy 100km ± 2km, vagy 3km ± 2km a megtett táv. Definíció Az x 6= 0 közelít˝o érték relatív hibakorlátja alatt az rx :=
δx |x|
számot értjük. A kés˝obbiekben feltesszük, hogy a mért közelít˝o értékek pozitívak (negatív esetben hasonló gondolatmenetek igazak). Ez már sokkal reprezentatívabb érték, hiszen lényegében "százalékos" elven tudja megadni a hiba mértékét.
Hibaszámítás - öröklött hiba Ha egy adott hibával rendelkez˝o értékkel újabb és újabb (esetleg szintén hibával rendelkez˝o) számításokat végzünk, akkor a hibák egyrészt halmozódnak, másrészt örökl˝odnek a kés˝obbi m˝uveletekre. Példa Oldószerek fagyáspontját a bennük oldott vegyületek rendszerint csökkentik. Tegyük fel, hogy szeretnénk meghatározni egy vegyület móltömegét úgy, hogy a kámfor fagyáspontcsökkenését vizsgáljuk az M=
g2 · 1000E g1 ∆T
képlet alapján, ahol M a móltömeg értéke, g2 az oldott anyag, g1 pedig a kámfor tömege (grammban), E a kámfor moláris fagyáspontcsökkenése, ∆T pedig a fagyáspontcsökkenés ◦ C-ban.
Hibaszámítás - öröklött hiba Példa Legyenek a mért (ezalatt általunk mért és táblázatból kinézett értéket is értünk most) adatok és a hibakorlátok a következ˝ok: ∆T = 16, 6 ± 0, 02 g1 = 0, 48 ± 0, 005 g2 = 0, 026 ± 0, 0002 E = 37, 7 ± 0, 05. Ha csak a közelít˝o értékekkel számolunk, akkor az M = 123, 017 értéket kapjuk. Kérdés, hogy mennyi ennek a számított értéknek az abszolút és relatív hibája? Miel˝ott a tényleges eredményt megadjuk szükségünk van az összeadás, kivonás, szorzás, osztás hibára gyakorolt hatására.
Hibaszámítás - m˝uveleti tulajdonságok Összeg, különbség Legyenek adottak az X és Y pontos értékek, illetve a hozzájuk tartozó x és y közelít˝o értékek. Ekkor például az összeg abszolút hibakorlátja a |(X + Y) − (x + y)| = |(X − x) + (Y − y)| ≤ |X − x| + |Y − y| ≤ δx + δy összefüggés alapján számolható, azaz δx+y = δx + δy . Fontos: a különbség hibakorlátjára is a hibák összege érvényes, azaz δx−y = δx + δy . δx+y δx δy = max , . Összeg relatív hibája: x+y x y Különbség relatív hibája: a közelít˝o értékek eltérését˝ol függ˝oen tetsz˝olegesen nagy lehet.
Hibaszámítás - m˝uveleti tulajdonságok Szorzat, hányados Felhasználva a háromszög-egyenl˝otlenséget az alábbi összefüggés adható: |XY − xy| ≤ |XY − Xy + Xy − xy| ≤ X|(Y − y)| + y|X − x| ≤ Xδy + yδx . Mivel X értéke nem ismert, így ezt x-el közelítjük, azaz szorzat abszolút hibakorlátja: δxy = xδy + yδx . Szorzat relatív hibakorlátja:
δxy δx δy = + . xy x y
Szintén a háromszög-egyenl˝otlenség felhasználásával kiszámolható, xδy + yδx . hogy a hányados abszolút hibakorlátja: δ xy = y2 Hányados relatív hibakorlátja:
δ xy x y
=
δx δy + . x y
Hibaszámítás - példa folytatása A KORÁBBAN ELKEZDETT PÉLDA FOLYTATÁSA Visszaemlékezve a képletekre és adatokra: g2 · 1000E g1 ∆T M = 123, 017 M=
∆T = 16, 6 ± 0, 02 g1 = 0, 48 ± 0, 005 g2 = 0, 026 ± 0, 0002 E = 37, 7 ± 0, 05.
Meghatározandó δM értéke. Felhasználva a hányados és szorzat abszolút hibájára vonatkozó összefüggéseket: ∆Tg1 δEg2 + Eg2 δ∆Tg1 = (∆Tg1 )2 g1 ∆T ∆Tg1 (Eδg2 + g2 δE ) + Eg2 (g1 δ∆T + ∆Tδg1 ) = 1000 = (∆Tg1 )2
δM = δ Eg2 1000 = 1000
Hibaszámítás - példa folytatása 1000 [16, 6 · 0, 48(37, 7 · 0, 0002 + 0, 026 · 0, 05+ (16, 6 · 0, 48)2 + 37, 7 · 0, 026(0, 48 · 0, 02 + 16, 6 · 0, 005)] = 2, 5. =
Azaz δM = 2, 5. A relatív hiba így:
2, 5 δM = = 0, 020, tehát 2%. M 123, 017
Másik megoldás Másik megoldásként az abszolút hiba helyett a relatív hibát számoljuk ki el˝oször. Tekintve, hogy szorzatnál és hányadosnál is a relatív hibák összeadódnak, így sokkal egyszer˝ubb dolgunk van: δM δE δg2 δ∆T δg1 = + + + = M E g2 ∆T g1 0, 05 0, 0002 0, 02 0, 005 = + + + = 0, 0206. 37, 7 0, 026 16, 6 0, 48
Hibaszámítás - differenciálszámítás L EHET- E PONTOSABBAN SZÁMOLNI A MÉRÉSEK SORÁN FELLÉP O˝ ÖRÖKLÖTT HIBÁKAT ? A parciális deriváltakról egy mondatban Legyen f : Rm → R egy függvény (azaz m különböz˝o változója van: f (x1 , x2 , . . . , xm ) = . . .). Ekkor az f függvény i-edik változója szerinti parciális derivált alatt azt a deriváltat értjük, melyben az xi kivételével minden változót konstansként kezelünk. Megjegyzés A fenti bekezdés természetesen nem precíz definíció (s˝ot, nem is definíció), de számunkra most elegend˝o lesz. Jelölés: ∂i f , vagy
df . dxi
Hibaszámítás - differenciálszámítás Példa Legyen f (x, y, z) = 3xy + 5xyz + 10xy2 . Ekkor f : R3 → R, így három parciális deriváltja van: ∂x f , ∂y f és ∂z f : ∂x f = 3y + 5yz + 10y2 ∂y f = 3x + 5xz + 20xy ∂z f = 5xy Megjegyzés A parciális deriváltak hasznosak többváltozós függvények vizsgálatánál, illetve a statisztika és valószín˝uségszámítás eszköztárában is fontos feladatot látnak el. Kiemelt szerepük van a parciális differenciálegyenletek és a differenciálgeometria területén, így közvetve-közvetlenül szinte az összes természettudományban képviseltetik magukat.
Hibaszámítás - differenciálszámítás Legyen adott m számú mennyiség és a hozzájuk tartozó mért a1 , a2 , . . . , am értékek. Legyen továbbá f : Rm → R az a függvény, mely a mért értékek ismeretében megadja a keresett tulajdonság közelít˝o értékét. Azt vizsgáljuk, hogy ha ismertek a δai értékek, úgy mit tudunk mondani δf (a) -ról (a := (a1 , . . . , am ))? Ha a tényleges, pontos értékeket A := (A1 , . . . , Am )-el jelöljük, úgy ha f differenciálható a-ban és a parciális deriváltak egyike sem 0, úgy az f (A) − f (a) különbség igen pontosan közelíthet˝o f 0 (a)(A − a)-val, ha |A − a| kicsi (vö. derivált definíciója). Így: m
m
|f (A) − f (a)| ≈ ∑ |∂i f (a)||Ai − ai | ≤ ∑ |∂i f (a)|δai i=1
i=1 m
Azaz f abszolút hibakorlátja: δf (a) = ∑ |∂i f (a)|δai . i=1
Hibaszámítás - a korábbi példa Számoljuk ki a korábbi feladatot a fenti módszerrel! 1000a4 a2 , ahol a1 a3 (a1 , a2 , a3 , a4 ) = (g1 , g2 , ∆T, E) = (0, 48; 0, 026; 16, 6; 37, 7) és
f (a1 , a2 , a3 , a4 ) =
δ∆T = 0,02; δg1 = 0, 005; δg2 = 0, 0002; δE = 0, 05 A parciális deriváltak: g2 1000E = −257, g21 ∆T Így: 1000E = 4731, ∂2 f (a) = δf (a) = 257 · 0, 005 + 4731 · 0, 0002+ g1 ∆T g2 1000E + 7, 4 · 0, 02 + 3, 25 · 0, 05 = 2, 54 = −7, 4, ∂3 f (a) = − g1 (∆T)2 1000g2 ∂4 f (a) = = 3, 25. g1 ∆T
∂1 f (a) = −
Lineáris regresszió L INEÁRIS REGRESSZIÓ Célja, fogalma A lineáris regresszió két mennyiség közötti lineáris függvénykapcsolatot ír le, azaz megmondja, hogy az egyik paraméter változtatásának hatására, hogyan változik a másik paraméter. A biológiában leggyakrabban egy adott tulajdonság id˝obeli változásának vizsgálatára használják, feltéve, hogy a vizsgált tulajdonság az id˝o elteltével lineárisan (egyenletesen) változik.
Lineáris regresszió Megjegyzés A lineáris regresszió ún. valószín˝uségi változók közötti kapcsolatot vizsgál, így a matematikai statisztika egyik fontos eszköze. Mi az el˝oadás és gyakorlat keretei között lényegesen felületesebben foglalkozunk vele. A továbbiakban mindig lineáris illesztésr˝ol lesz szó. Amennyiben adott két adatsor (pl. tömeg és id˝o, magasság és életkor, stb.), melyek közül az egyik függését vizsgáljuk a másik függvényében (pl. hogy függ a tömeg az id˝ot˝ol), úgy az alábbi egyszer˝u egyenlet írható fel: y(x) = mx + b, ahol y(x) a függ˝o változó. Keresend˝o m és b értéke úgy, hogy az így kapott egyenes a lehet˝o legjobban illeszkedjen az adatsorunkra.
Lineáris regresszió A statisztikai háttér magyarázata és a kapott képletek levezetése nélkül álljon itt az m és a b paraméter kiszámításához szükséges két összefüggés: ∑ni=1 (xi − x)(yi − y) ∑ni=1 (xi − x)2 b = y − xm
m=
Példa Házi patkányok tömegét vizsgáljuk a születést˝ol eltelt napok függvényében. A vizsgált napok: 67, 70, 72, 74, 75, 76, 77, 78, 81, 82, 83, 83, 83, 84, 85, 86, 86, 86, 87, 89, 89, 91, 91, 91, 92, 92, 94, 95, 96, 96, 96, 97, 97, 99, 100, 101, 101, 101, 101, 101, 103, 103, 103, 107, 108, 108, 108, 109, 110, 110, 110, 111, 112, 113, 114, 114, 115, 115, 116, 116, 123, 126, 126, 127, 135.
Lineáris regresszió
A kapott adatok: 36, 28, 34, 28, 48, 50, 62, 22, 82, 84, 64, 77, 82, 92, 91, 65, 75, 76, 68, 80, 110, 72, 91, 129, 92, 98, 115, 80, 96, 108, 146, 118, 121, 106, 79, 103, 113, 118, 119, 141, 115, 131, 139, 102, 91, 111, 115, 134, 113, 124, 129, 140, 145, 147, 126, 132, 142, 157, 126, 138, 149, 142, 164, 172, 156. Feladat: illesszünk regressziós egyenest az adott ponthalmazra. Els˝o lépésben meg kell nézni, hogy a kapott adatok között valóban sejthet˝o-e lineáris függés. Amennyiben nem, úgy másfajta (exponenciális, logaritmikus, stb.) regressziót alkalmazunk (vagy teljesen inkonzisztens adatok esetén semmit). Ehhez a legegyszer˝ubb mód, ha ábrázoljuk o˝ ket egy diagramon.
Lineáris regresszió
Lineáris regresszió Az ábrából látható, hogy a pontok közel lineárisan helyezkednek el, így alkalmazhatjuk a tanultakat. Következ˝o lépésben ki kell számítani az eltelt id˝o és a tömegek átlagát. Jelöljük az id˝ot x-el, a tömeget y-al. A számolásba belekalkuláljuk azt is, hogy valamelyik nap több mérést is végeztünk. x = 97, 954
y = 103, 677
Most az m=
∑ni=1 (xi − x)(yi − y) ∑ni=1 (xi − x)2
képlet alapján kiszámoljuk m értékét: m = 2, 069. Végül a b = y − xm összefüggésb˝ol b = (−99, 019) adódik. Így a regressziós egyenes: y(x) = 2, 069x − 99, 019.
Lineáris regresszió
Lineáris regresszió A LEGGYAKORIBB HIBÁK
1
Teljesen véletlenszer˝u adatokra egyenes illesztése.
2
Rossz illesztési modell (lineáris, exponenciális, logaritmikus, stb.) használata.
3
Hibás extrapoláció.