Statisztika feladatok Informatikai Tudományok Doktori Iskola
feladat
Bizonyítandó, hogy:
Megoldás
azaz
1
feladat
Tekintsük az alábbi statisztikákat:
Igazoljuk, hogy torzítatlan statisztikák! Melyik a leghatásosabb közöttük?
Megoldás
Megoldás
2
Megoldás
Megoldás
(Ez az együttes eloszlásfüggvényük.)
Megoldás
3
Megoldás
Megoldás
feladat Igazoljuk az alábbi állítást!
4
Megoldás
=0
0<=
feladat
Megoldás
5
Megoldás
Megoldás
Megoldás
6
Megoldás
Megoldás
feladat Mutassuk meg, hogy az átlagstatisztika normális esetben nem csak torzítatlan, erısen konzisztens becslés, hanem hatásos is! Feltételek:
Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál!
7
Megoldás Ha
akkor t biztosan hatásos statisztika!
Ez teljesül, ha a Fisher-féle információ mennyiség A minta együttes sőrőségfüggvénye, a likelihood függvény most:
Megoldás
Mivel teljesült a feltétel, az átlagstatisztika tényleg hatásos!
feladat Mutassuk meg, hogy az átlagstatisztika exponenciális esetben is nem csak torzítatlan, erısen konzisztens becslés, hanem hatásos is! Feltételek:
Bizonyítandó, hogy a várható értékre nincs kisebb szórású torzítatlan becslés a mintaátlagnál! A bizonyítást az elızı példánál megmutatott módon végezzük.
8
Megoldás
feladat Mutassuk meg, hogy az átlagstatisztika Poisson esetben is nem csak torzítatlan, erısen konzisztens becslés, hanem hatásos is! Ebben a példában az alapsokaság eloszlása diszkrét! Feltételek:
Megoldás A log-likelihood függvény most:
9
feladat
Mi lehet ennek az oka???
Megoldás
Tehát a Cramer-Rao-egyenlıtlenséggel nem igazolható most, hogy T1 hatásos lenne! (Nem biztos, hogy hatásos!)
feladat Mutassuk meg, hogy az átlagstatisztika elégséges normális esetben!
10
Megoldás
Megoldás
feladat Mutassuk meg, hogy az átlagstatisztika elégséges exponenciális esetben!
11
Megoldás
Megoldás
feladat Mutassuk meg, hogy az átlagstatisztika elégséges Poisson esetben!
12
Megoldás
feladat Mutassuk meg, hogy az elsı mintaelem önmagában nem elégséges!
Megoldás
13
feladat Konfidencia intervallum szerkesztése az ismeretlen szórásra normális eloszlás esetében.
Megoldás
feladat Szerkesszünk 1-ε megbízhatósági szintő konfidencia-intervallumot az exponenciális eloszlás λ paraméterére! Használjuk fel az alábbi segédtételt:
Az eloszlás neve: n, 1 paraméterő Gamma-eloszlás (Jelölés: Γ(n,1))
14
Megoldás
Megoldás Ezek alapján a konfidencia-intervallum szerkesztése:
feladat
15
Megoldás
Megoldás
Megoldás
16
Megoldás
feladat
Megoldás
17
Megoldás
Megoldás
Megoldás
18
feladat
Megoldás
feladat
19
Megoldás
feladat
Megoldás
20
feladat
Megoldás
Megoldás
21
feladat
Megoldás
feladat
22
Megoldás
feladat
Megoldás
23
feladat
Megoldás
feladat
24
Megoldás…
Megoldás
feladat
25
Megoldás…
Megoldás
feladat
26
Megoldás
Megoldás
feladat
27
Megoldás
feladat
Megoldás
28
feladat
Megoldás
Megoldás
29
Megoldás
feladat Banki alkalmazottak személyi adatait tartalmazó állomány 474 esetbıl álló eployee data adatmátrixa. Ellenırizzük azt a feltevést, hogy az átlagfizetés 14 000 $
A változók jelentése id a dolgozó kódja gender a dolgozó neme (m-férfi, f-nı) bdate születési dátum educ képzési szint (években) jobcat beosztás (1-tisztviselı, 2-biztonsági, 3-menedzser) salary jelenlegi fizetés salbegin kezdıfizetés jobtimehány hónapja alkalmazták prevexp betanítási idı (hónapokban) minority hátrányos helyzet (0-nincs, 1-van)
30
Megoldás SPSS-sel One-Sample Statistics
Current Salary
N
Mean
Std. Deviation
474
$34,419.57
$17,075.661
Std. Error Mean $784.311
One-Sample Test Test Value = 14000 t Current Salary
df 26,035
Sig. (2-tailed) 473
95% Confidence Interval of the Difference Lower Upper $20419.57 $18,878.40 $21,960.73
Mean Difference
,000
feladat Ellenırizzük párositott kétmintás t-próbával, hogy a kezdıfizetés egyenlı-e a jelenlegivel!
Dobozábrák a fizetésekkel
31
Megoldás SPSS-sel Paired Samples Statistics
Pair 1
Mean $34,419.57 $17,016.09
Current Salary Beginning Salary
N 474 474
Std. Error Mean $784.311 $361.510
Std. Deviation $17,075.661 $7,870.638
Paired Samples Correlations N Pair 1
Current Salary & Beginning Salary
Correlation 474
,880
Sig. ,000
Paired Samples Test
Mean Pair 1
Current Salary Beginning Salary
$17403.48
Paired Differences 95% Confidence Interval of the Difference Std. Error Std. Deviation Mean Lower Upper $10,814.620
$496.732
$16,427.407
$18379.56
t 35,036
df
Sig. (2-tailed) 473
,000
32
feladat Ellenırizzük független kétmintás t-próbával, hogy a nık és férfiak fizetése egyenlı-e!
Dobozábrák a fizetésekkel
33
Megoldás SPSS-sel
Group Statistics Gender Male Female
Current Salary
N 258 216
Mean $41,441.78 $26,031.92
Std. Error Mean $1,213.968 $514.258
Std. Deviation $19,499.214 $7,558.021
Independent Samples Test Levene's Test for Equality of Variances
F Current Salary
Equal variances assumed Equal variances not assumed
119,669
Sig. ,000
t-test for Equality of Means Mean Difference
Std. Error Difference
95% Confidence Interval of the Difference Lower Upper
10,945
472
,000
$15409.86
$1,407.906
$12,643.322
$18,176.401
11,688
344,262
,000
$15409.86
$1,318.400
$12,816.728
$18,002.996
t
df
Sig. (2-tailed)
feladat Ellenırizzük egyszerő csoportositással, hogy a munkakörökben azonos-e a fizetés!
34
Megoldás SPSS-sel Descriptives Current Salary
N Clerical Custodial Manager Total
363 27 84 474
Mean $27,838.54 $30,938.89 $63,977.80 $34,419.57
Std. Deviation $7,567.995 $2,114.616 $18,244.776 $17,075.661
Std. Error $397.217 $406.958 $1,990.668 $784.311
95% Confidence Interval for Mean Lower Bound Upper Bound $27,057.40 $28,619.68 $30,102.37 $31,775.40 $60,018.44 $67,937.16 $32,878.40 $35,960.73
Minimum $15,750 $24,300 $34,410 $15,750
Maximum $80,000 $35,250 $135,000 $135,000
ANOVA Current Salary
Between Groups Within Groups Total
Sum of Squares 8,9E+010 4,8E+010 1,4E+011
df 2 471 473
Mean Square 4,472E+010 102925714,5
F 434,481
Sig. ,000
Robust Tests of Equality of Means Current Salary a
W elch
Statistic 162,200
df1 2
df2 117,312
Sig. ,000
a. Asymptotically F distributed.
Megoldás SPSS-sel Multiple Comparisons Dependent Variable: Current Salary
LSD
Tamhane
Mean (I) Employment Category (J) Employment Category Difference (I-J) Clerical Custodial -$3,100.349 Manager -$36,139.258* Custodial Clerical $3,100.349 Manager -$33,038.909* Manager Clerical $36,139.258* Custodial $33,038.909* Clerical Custodial -$3,100.349* Manager -$36,139.258* Custodial Clerical $3,100.349* Manager -$33,038.909* Manager Clerical $36,139.258* Custodial $33,038.909*
Std. Error $2,023.760 $1,228.352 $2,023.760 $2,244.409 $1,228.352 $2,244.409 $568.679 $2,029.912 $568.679 $2,031.840 $2,029.912 $2,031.840
Sig. ,126 ,000 ,126 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
95% Confidence Interval Lower Bound Upper Bound -$7,077.06 $876.37 -$38,552.99 -$33,725.53 -$876.37 $7,077.06 -$37,449.20 -$28,628.62 $33,725.53 $38,552.99 $28,628.62 $37,449.20 -$4,483.07 -$1,717.63 -$41,078.30 -$31,200.21 $1,717.63 $4,483.07 -$37,982.78 -$28,095.04 $31,200.21 $41,078.30 $28,095.04 $37,982.78
*. The mean difference is significant at the .05 level.
35
feladat Ellenırizzük a fizetés illeszkedését a normálishoz! Grafikusan, majd egymintás Kolmogorov-Szmirnov próbával!
Grafikus vizsgálat alapján nem tőnik jónak az illeszkedés!
36
One-Sample Kolmogorov-Smirnov Test
N Normal Parameters a,b Most Extreme Differences
Beginning Salary 474 $17,016.09 $7,870.638 ,252 ,252 -,170 5,484 ,000
Mean Std. Deviation Absolute Positive Negative
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data.
Regressziós feladat Vizsgáljuk meg az x független változó és az y függı változó közötti összefüggést! Az x független változó értéke pontosan beállítható, az y függı változó értéke azonban a Y valódi érték körül ingadozik. A mérési adatok az alábbi táblázatban láthatók, az y értéke szerint növekvı sorrendbe rendezve. A tényleges mérési sorrendet a táblázat második oszlopa tartalmazza. Feltételezve, hogy y normális eloszlású, valamint azt hogy az y és x közötti függvénykapcsolat lineáris, adjunk becslést az egyenes paramétereire! No 1 2 3 4 5 6
mérési sorrend 3 5 4 2 1 6
x
y 0 0.05 0.08 0.1 0.12 0.15
0.58 0.7 2.88 3.42 3.53 5.21
Scatter ábra az adatokkal a 95%-os konfidencia intervallummal és a 95%-os jóslási határral
37
SPSS táblázatok
sr R2 R2 adj
Egyváltozós lineáris regresszió ismétlés nélküli mérések esetén, σ y2i konstans
∑x
≠0
i Ha kritérium: A becslési
φ = ∑ ( y i − b0 − bx i ) = min. 2
i
a b0 és b becslések Y$i = b0egymástól + bx i = a nem + b( xfüggetlenek i − x)
b0 = a − bx
A normálegyenletek:
Átrendezve:
∂φ = −2 ∑ [ y i − b0 − bxi ] = 0 ∂ b0
∑y
∂φ = − 2∑ [ y i − b0 − bxi ]x i = 0 ∂b
∑yx i
i
i
= nb0 + b ∑ x i
= b0 ∑ x i + b ∑ x i2
A normálegyenletek az Yˆi = a + b ( x i − x ) modell illesztésekor
∂φ = − 2 ∑ y i − a − b( x i − x ) = 0 ∂a
[
]
∂φ = − 2 ∑ y i − a − b( x i − x ) ( x i − x ) = 0 ∂b
[
]
Átrendezve:
∑y
i
= na + b ∑ ( x i − x )
∑ y (x i
i
− x ) = a ∑ ( xi − x ) + b∑ ( xi − x )
2
∑ (x
i
− x) = 0
x=
Az a és b becslések egymástól függetlenek, mert
∑x
i
n
38
∑y
= na
i
∑ y (x
és
i
− x ) = b∑ ( xi − x )
i
2
tehát az a és b becsült paraméterek egymástól függetlenül kaphatók meg a két normálegyenletbıl:
∑y a=
∑ y (x − x ) ∑ (x − x ) i
i
b=
i
n
i
i
2
i
i
( )
E Y$i = Yi = α + β ( x i − x )
Y$ = a + b( x i − x ) ;
A becslések tulajdonságai ∑ y ∑σ = σ Var ( a ) = =α E(a ) ≡ E 2
i
( n)
n
∑ (x − x) σ (∑ ( x − x ) ) 2
E ( b) = β
Var ( b ) =
2
n
2
i
2 2
2
σ2
=
∑ (x
i
i
− x)
2
( )
E Y$ = E [ a + b( x − x ) ] = E ( a ) + E ( b )( x − x )
( )
E Y$ = α + β ( x − x ) = Y
1 2 Var Y$ = Var ( a ) + ( x − x ) Var ( b) = σ 2 + n
( )
2 ∑i n( xi − x )
( x − x )2
Konfidencia határok sa =
sr n
sY$ = sr
sb =
1 + n
( x − x )2
∑(x
i
− x)
2
=
sr
∑(x
− x)
2
sa2 + sb2 ( x − x )
2
i
i
sb0 = sY$ ( x = 0 ) =
sa2 + sb2 x 2
A konfidenciatartományok a t-eloszlás alapján számíthatók.
39
Konfidencia intervallum az átlaghoz 2 2 1 ( xi − x ) 1 ( xi − x ) P yˆ i − t ε ⋅ sr ⋅ ≤ M i ≤ yˆ i + t ε ⋅ sr ⋅ + + 2 2 , n− 2 , n − 2 n n ⋅ sx n n ⋅ sx 2 2
= 1−ε
M i = E (Y | X = xi )
Az átlag konfidencia-intervalluma a mintapontok kb. 1-ε %-át tartalmazza. A sáv az x átlagának a közelében a legvékonyabb.
Jóslási intervallum
s y − Y$ = sr 1 +
1 + n
( x − x )2
∑ ( xi − x )
2
=
sr2 + sa2 + sb2 ( x − x )
2
i
intervallum:
Y$ ( x ) ± tα 2 s y −Y$
(1- α) a valószínősége annak, hogy x adott értékénél egy késıbbi mérés eredménye a számított intervallumba esik.
Jóslási intervallum Az adott xi-hez tartozó Yi egyedi értéket tartalmazza az alábbi 1-ε szintő konfidencia intervallum:
2 2 1 (x − x ) 1 (x − x ) P yˆ i − t ε ⋅ sr ⋅ 1 + + i 2 ≤ Yi ≤ yˆ i + t ε ⋅ sr ⋅ 1 + + i 2 , n− 2 , n− 2 n n ⋅ s n n ⋅ s x x 2 2
= 1−ε
40
r = .95062 7
95%-os jóslási sáv 6 5
Y$ = 005196 . + 32017 . x
4 3
y
2 1 0
95%-os konfidencia sáv
-1 -2 -3 -0
0
0
0
0
0
0
0
0
x
Determinációs együttható “Residual”
“Regression”
R2 =
SSR SST − SSE SSE = = 1− SST SST SST
“Total” 2 Radj
= 1−
SSE (n − 2 ) SST (n − 1)
A képletek magyarázata
∑ (y
2
i
− y) =
i
∑ (y − Y$ ) + ∑ (Y$ − y ) 2
i
2
i
i
i
i
SST = SSE d.f.: n-1
=
sr =
sa =
sr sb = n
+
n-2
+
SSE n−2
− x)
2
i
1
sr reziduális szórás
sr
∑ (x
SSR
Az együtthatók szórásai
41
A konfidenciatartományok a t-eloszlás alapján számíthatók
sY$ = sr
1 + n
( x − x )2
∑(x
i
− x)
2
=
sa2 + sb2 ( x − x )
2
i
sb0 = sY$ ( x = 0 ) =
sa2 + sb2 x 2
ANOVA-táblázat SSR F=
SSE SST
SSR SSE ( n − 1)
A nullhipotézis az, hogy a regressziós együtthatók egyszerre zérusok
Regressziós együtthatók
A tapasztalati regressziós egyenes képlete: + 32017 Y$ = 005196 . . x
42