• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Statistical Inference 1st lecture
Petra Petrovics
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Statistics Descriptive - it is concerned only with collecting and describing data
Population
Inferential - it is used when tentative conclusions about a population are drawn on the basis of a sample
Sample
- the portion of the population
- set of elements - set of all possible measurements - the number of elements: N or
- about which information is gathered - representative - the number of elements: n - „simple random” sample
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Basic Terms I • Parameter (Θ) → a characteristic of a population → e.g. average, proportion, variance
• Statistic → a characteristic of a sample → e.g. average, proportion, variance
• Representative sample The values in the sample must be typical of values in the population
• Random sample Any sample of size n has the same chance (probability) of being selected
• Faculty of Economics •
• Statistical error
Gazdaságelméleti és Módszertani Intézet
Basic Terms II
1. Non-sampling error • harder to quantify • Systematic error Processing error Not appropriate supplying of data, etc.
2. Sampling error • Using sample rather than population • It can be quantified • Depends on: → Population distribution → Sampling method → Sample size → Statistical method
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Inference from the Sample to the Population
Estimation
Hypothesis Testing
Estimation: how can we determine the value of an unknown parameter of a population by using the sample. Hypothesis Testing: how to test a statement concerning a population parameter.
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Estimator A tool for statistical inference; sample statistics are used to estimate population parameters.
General estimator criteria 1. 2. 3. 4. 5.
Estimation costs Goodness of fit Unbiased Efficiency Asymptotic characteristics
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
1. Estimation cost 2. Goodness of fit Model estimation vs. observed data
3. Unbiased If its expected value is equal to the population parameter it estimates. Any systematic deviation of the estimator away from the parameter of interest is called bias. Unbiased: the bias is zero.
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Unbiased Estimator
Θ is unbiased
biased, because E(Θ)≠0
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Example for Unbiased Estimator • The following are data about the salary of employees of a small enterprise (th HUF): 180, 90, 36, 30 • Estimate the average salary using the: – Sample mean; – Median; – Central point (the average of the minimum and maximum value) as an estimator.
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Characteristics of Samples Seq. number 1st 2nd 3rd
Elements
Mean
Median
Central Point
30, 36, 90 30, 36, 180 30, 90, 180
52 82 100
36 36 90
60 105 105
36, 90, 180 Expected value
102 84
90 63
108 94.5
4th
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
4. Efficiency if it has a relatively small variance (and standard deviation)
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
5. Asymptotic characteristics a) Consistency If its probability of being close to the parameter it estimates increases as the sample size increases
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
5. Asymptotic characteristics b) Asymptotic normality n grows approaches a normal distribution Central Limit Theorem: the distribution of independent observations tend to close to the normal distribution, if the sample size is enough large. Large samle: – n ≥ 100 – In case of unimodal distribution: n ≥ 30
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Estimation Classical Least Squares Maximum Method Likelihood
Bayesian Robostness
1. Point estimators 2. Interval estimators
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Basic Terms I • Point Estimate: the value of estimator; a single number that is used to estimate an unknown parameter • Confidence Level: specific percentage π • Confidence Interval (CI): an interval estimate is a range of values used to estimate a population parameter P l u π or Θ → ± ΔΘ
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Number of samples
Parameters and Confidence Intervals
Heights (cm)
Results: • Changes from sample to sample • Are around the statistical parameter • n↑ , standard deviation ↓
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Basic Terms II Θ → ± ΔΘ
• Maximum Error: Δ = z π or t standard error • Standard Error: standard deviation of the estimators • zπ : when test statistics are approximately normally distributed for large samples; n 100 • tπ : Student's t-distribution is a probability distribution that arises in the problem of estimating the mean of a normally distributed population when the sample size is small; n < 100
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Basic Terms III • Degrees of freedom (df) – The number of values in the final calculation of a statistic that are free to vary. – The number of independent pieces of information that go into the estimate of a parameter. – In general, the degrees of freedom of an estimate is equal to the number of independent scores that go into the estimate (n) minus the number of parameters estimated as intermediate steps in the estimation of the parameter itself.
x
(x)
x
0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22 0,24 0,26 0,28 0,30 0,32 0,34 0,36 0,38 0,40 0,42 0,44 0,46 0,48 0,50
0,5000 0,5080 0,5160 0,5239 0,5319 0,5398 0,5478 0,5557 0,5636 0,5714 0,5793 0,5871 0,5948 0,6026 0,6103 0,6179 0,6255 0,6331 0,6406 0,6480 0,6554 0,6628 0,6700 0,6772 0,6844 0,6915
0,52 0,54 0,56 0,58 0,60 0,62 0,64 0,66 0,68 0,70 0,72 0,74 0,76 0,78 0,80 0,82 0,84 0,86 0,88 0,90 0,92 0,94 0,96 0,98 1,00 1,02
(x)
x x (x) (x) • Faculty of Economics
0,6985 • 0,7054 0,7123 0,7190 0,7257 0,7324 0,7389 0,7454 0,7517 0,7580 0,7642 0,7703 0,7764 0,7823 0,7881 0,7939 0,7995 0,8051 0,8106 0,8159 0,8212 0,8264 0,8315 0,8365 0,8413 0,8461
1,04 1,06 1,08 1,10 1,12 1,14 1,16 1,18 1,20 1,22 1,24 1,26 1,28 1,30 1,32 1,34 1,36 1,38 1,40 1,42 1,44 1,46 1,48 1,50 1,52 1,54
0,8508 0,8554 0,8599 0,8643 0,8686 0,8729 0,8770 0,8810 0,8849 0,8888 0,8925 0,8962 0,8997 0,9032 0,9066 0,9099 0,9131 0,9162 0,9192 0,9222 0,9251 0,9279 0,9306 0,9332 0,9357 0,9382
1,56 1,58 1,60 1,62 1,64 1,66 1,68 1,70 1,72 1,74 1,76 1,78 1,80 1,82 1,84 1,86 1,88 1,90 1,92 1,94 1,96 1,98 2,00 2,10 2,20 2,30
0,9406 0,9429 0,9452 0,9474 0,9495 0,9515 0,9535 0,9554 0,9572 0,9591 0,9608 0,9625 0,9641 0,9656 0,9671 0,9686 0,9699 0,9713 0,9726 0,9748 0,9750 0,9761 0,9772 0,9821 0,9861 0,9893
x
(x)
2,40 2,50 2,60 2,70 2,80 2,90 3,00 3,20 3,40 3,60 3,8
0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9993 0,9996 0,9998 0,9999
Gazdaságelméleti és Módszertani Intézet
z-test ( x)
1 2
Df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
t-test • Student’s Faculty of Economics 0,55
0,60
0,70
0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126
0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253
0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,527 0,526 0,524
0,75
0,80
0,90
0,95
0,975
0,99
0,995
6,96 4,54 3,75 3,36 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,57 2,55 2,54 2,53 2,52 2,51 2,50 2,49 2,48 2,48 2,47 2,47 2,46 2,46 2,42 2,39 2,36 2,33
63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,75 2,70 2,66 2,62 2,58
• Gazdaságelméleti és Módszertani Intézet 1,000 1,376 3,08 6,31 12,71 31,82 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674
1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842
1,89 1,64 1,53 1,48 1,44 1,42 1,40 1,38 1,37 1,36 1,36 1,35 1,34 1,34 1,34 1,33 1,33 1,33 1,32 1,32 1,32 1,32 1,32 1,32 1,32 1,31 1,31 1,31 1,31 1,30 1,30 1,29 1,28
2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,68 1,67 1,66 1,645
4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 2,02 2,00 1,98 1,96
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
To estimate… 1. Select a random sample from the population of interest. 2. Calculate the point estimate of the parameter. 3. Calculate a measure of its variability, often a confidence interval (CI). 4. Associate with this estimate a measure of variability.
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Estimation elements mean standard deviation proportion
Population X1, X2, … , XN, … μ Σ
Sample x1, x2, … , xn
P
p
x s
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
A.) μ – mean or expected value of the population
μ x x 1.) normal population, σ known μ x zπ σ x
σx
n
1-
If n N
n 10% N
2.) normal population, σ unknown, n 100 μ x zπ s x
3.) normal population, σ unknown, n < 100 μ x tπ s x
sx
s n 1N n
• Faculty of Economics •
B)
Gazdaságelméleti és Módszertani Intézet
P – the proportion of the population
= population proportion is equal to the number of elements in the population belonging to the category of interest, divided by the total number of elements in the population
P
p p
p z s p z
In case of large sample, when n ≥ 100!
p 1 p n
• Faculty of Economics •
C)
Gazdaságelméleti és Módszertani Intézet
σ – the standard deviation of the population 2 2 n - 1 s n - 1 s 2 P σ π 2 χ2 χα 2 1 - α 2
Only in the case when the population distribution is normal!
χ • 0,25 Faculty of0,75Economics 0,50 0,90 0,95 2
Df 1
0,005 0,0000
0,01 0,0002
0,025 0,0010
0,05 0,039
0,10 0,0158
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
0,0100 0,072 0,207 0,412 0,676 0,989 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,5 11,2 11,8 12,5 13,1 13,8 20,7 28,0 35,5 43,3 51,2 59,2 67,3
0,0201 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,2 10,9 11,5 12,2 12,9 13,6 14,3 15,0 22,2 29,7 37,5 45,4 53,5 61,8 70,1
0,0506 0,216 0,484 0,831 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,3 11,0 11,7 12,4 13,1 13,8 14,6 15,3 16,0 16,8 24,4 32,4 40,5 48,8 57,2 65,6 74,2
0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,1 10,9 11,6 12,3 13,1 13,8 14,6 15,4 16,2 16,9 17,7 18,5 26,5 34,8 43,2 51,7 60,4 69,1 77,9
0,211 0,584 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,1 10,9 11,7 12,4 13,2 14,0 14,8 15,7 16,5 17,3 18,1 18,9 19,8 20,6 29,1 37,7 46,5 55,3 64,3 73,3 82,4
•
0,975 5,02
0,99 6,63
0,995 7,88
7,38 9,35 11,1 12,8 14,4 16,0 17,5 19,0 20,5 21,9 23,3 24,7 26,1 27,5 28,8 30,2 31,5 32,9 34,2 35,5 36,8 38,1 39,4 40,6 41,9 43,2 44,5 45,7 47,0 59,3 71,4 83,3 95,0 106,6 118,1 129,6
9,21 11,3 13,3 15,1 16,8 18,5 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9 63,7 76,2 88,4 100,4 112,3 124,1 135,8
10,6 12,8 14,9 16,7 18,5 20,3 22,0 23,6 25,2 26,8 28,3 29,8 31,3 32,8 34,3 35,7 37,2 38,6 40,0 41,4 42,8 44,2 45,6 46,9 48,3 49,6 51,0 52,3 53,7 66,8 79,5 92,0 104,2 116,3 128,3 140,2
0,102 0,455 1,32 és 2,71 3,84 Gazdaságelméleti Módszertani Intézet 0,575 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,2 11,0 11,9 12,8 13,7 14,6 15,5 16,3 17,2 18,1 19,0 19,9 20,8 21,7 22,7 23,6 24,5 33,7 42,9 52,3 61,7 71,1 80,6 90,1
1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,3 11,3 12,3 13,3 14,3 15,3 16,3 17,3 18,3 19,3 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3 39,3 49,3 59,3 69,3 79,3 89,3 99,3
2,77 4,11 5,39 6,63 7,84 9,04 10,2 11,4 12,5 13,7 14,8 16,0 17,1 18,2 19,4 20,5 21,6 22,7 23,8 24,9 26,0 27,1 28,2 29,3 30,4 31,5 32,6 33,7 34,8 45,6 56,3 67,0 77,6 88,1 98,6 109,1
4,61 6,25 7,78 9,24 10,6 12,0 13,4 14,7 16,0 17,3 18,5 19,8 21,1 22,3 23,5 24,8 26,0 27,2 28,4 29,6 30,8 32,0 33,2 34,4 35,6 36,7 37,9 39,1 40,3 51,8 63,2 74,4 85,5 96,6 107,6 118,5
5,99 7,81 9,49 11,1 12,6 14,1 15,5 16,9 18,3 19,7 21,0 22,4 23,7 25,0 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8 55,8 67,5 79,1 90,5 101,9 113,1 124,3
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Example 1 • From the population of BA students a sample of 15 students was taken. • Confidence level: π = 95 % • A random sample (in days): 5, 8, 12, 4, 9, 11, 12, 14, 9, 7, 6, 11, 9, 8, 10 A) Estimate the average time spent the BA students on Statistics! B) Estimate the standard deviation of time spent on Statistics!
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
A) 1) - normal distribution - population standard deviation: 2 days μ x z
n
9 1.96
2 15
2) - population standard deviation is unknown - sample standard deviation: s = 2.7 s 2.7 μ x t 9 2.14 n 15
B) Standard deviation!
14 2.72 1.98 σ 26.1
14 2.72 4.26 5.63
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Example 2 • The management of a manufacturer of calculators and microcomputers wants to improve the quality of their products. • 150-element sample was drawn from a lot of calculators. They tested each of the sampled calculators and found 12 defectives. • Determine a 95% confidence interval for the proportion of defectives in the entire population!
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
p p
P • Where: p
p z
k 12 0.08 8 % n 150
p (1-p) 1.96 n
0.08 (1-0.08) 1.96 0.022 0.043 4.3% 150
CI: 0.08 ± 0.043 [0.037; 0.123] = [3.7 % ; 12.3 % ]
• Faculty of Economics •
Gazdaságelméleti és Módszertani Intézet
Thank You for Your Attention
[email protected]