• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Statistical Dependence
Petra Petrovics
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Statistical Dependence Definition: Statistical dependence exists when the value of some variable is dependent upon or affected by the value of some other variable.
Statistical Dependence/ Stochastic Dependence
Independent variables
Functional relation
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Types of Dependence • association – between two nominal data – Yule (Y) – Csuprov (T) – Cramer (C) or (V)
• mixed – between a nominal and a ratio data – H; H2 or η; η2
• correlation – among ratio data
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
I. Association a) Yule-measure B (1) f11 f01 f.1
A (1) A (0) Total
B (0) f10 f00 f.0
Total f1. f0. n
Where: f11, f10, f01, f00 the observed frequencies f1. , f0. , f.1 , f.0 the marginal frequencies f Y 11 f 11
f 00 f 10 f 01 f 00 f 10 f 01
• Y=0 • 0 Y 1 • Y = 1
Only when the number of categories of both variables is two!
the variables are independent statistical dependence functional relation
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
• In case of statistical dependence: f 11 f 01 f 10 f 00
f 11 f 00 f 10 f 01
• If the variables are independent: f 11 f01 f 10 f00
f 11 f00 f 10 f01 f 11 f00 f 10 f01 0
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Example: • Suppose that a certain subject is offered to first year and second year students on a pass-fail basis only. An advisor is interested in determining whether there is a relationship between the student’s grade and year. • Data for the test were obtained from last semester’s classes: Class standings Grade
First year (1)
Second year (0)
Total
Pass (1)
8
12
20
Fail (0)
10
70
80
Total
18
82
8 70 12 10 440 Y 0.65 8 70 12 10 680
100 Medium-strong dependence
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
b) Contingency table • there are s categories of the row/column variable: A1, A2, … , As • there are t categories of the row/column variable: B1, B2, … , Bt where s < t j i
A1 A2 ... Ai ... As
B1
B2
...
Bj
...
Bt
f11 f21 ... fi1 ... fs1 f.1
f12 f22 ... fi2 ... fs2 f.2
... ... ... ... ... ... ...
f1j f2j ... fij ... fsj f.j
... ... ... ... ... ... ...
f1t f2t ... fit ... fst f.t
f1. f2. ... fi. ... fs. n
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
The measure for statistical dependence in case of contingency table • T – measure, when s = t 2
χ T n s - 1 t - 1
where
• C – measure, when s < t C
T Tmax
2 s t f ij - f ij 2 χ f ij i 1 j 1
where Tmax
0 C 0.3 weak dependence 0.3 C 0.7 medium-strong dependence 0.7 C 1 strong dependence
4
s-1 t -1
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
The variables are independent, when…
f ij
f i. f .j n
ij
or
f ij f i.
f .j n
i.e.
f ij
f i. f .j n
f expected frequencie s for case of independence
f i. f.j n
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Example A manufacturer of printed circuit boards has determined that boards classified as nonconforming nearly always have one of three defects: a component on the board is either missing, damaged or raised (installed improperly). The boards are produced on three machines (A, B and C). To determine whether there is a relationship between the type of nonconformity and the machine, a sample of 500 nonconforming boards was obtained:
• Gazdaságtudományi Kar •
Machine
Gazdaságelméleti és Módszertani Intézet
Type of nonconformity missing
damaged
raised
Total
A
50
80
120
250
B
60
55
10
125
C
65
45
15
125
Total
175
180
145
500
Question: • Is the type of nonconformity related to the machine used for production? s=3 t=3
T-measure
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Solution f ij - f ij 2
Type of nonconformity and machine
f ij
f ij
Missing, A
50
87.50
16.071
Missing, B
60
43.75
6.036
Missing, C
65
43.75
10.321
Damaged, A
80
90.00
1.111
Damaged, B
55
45.00
2.222
Damaged, C
45
45.00
0.000
Raised, A
120
72.50
31.121
Raised, B
10
36.25
19.009
Raised, C
15
36.25
12.457
Total
500
500.00
2 = 98.35
T
98.35 0.3136 500 3 - 1 3 - 1
f ij
Medium-strong dependence
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Exercise Is there any relationship between: - gender & employment category; Association
- gender & current salary? Mixed
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Association File / Open / Data… / Employee data
Analyze / Descriptive Statistics / Crosstabs: Gender – Employment category
fij f*ij
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Output View Symmetric Measures
Nominal by Nominal
Phi Cramer's V
N of Valid Cases
Value ,409 ,409 474
Approx. Sig. ,000 ,000
a. Not assuming the null hy pothesis. b. Using t he asy mptotic standard error assuming the null hy pothesis.
0 C 0,3 weak dependence 0,3 C 0,7 medium-strong dependence 0,7 C 1 strong dependence
There is a medium-strong dependence between gender & employment category. We can accept that statement at every significance
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Output View
4.6% of women are manager.
33.1% of people are male and clerical.
The custodials are men.
Number of people / cases
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Mixed dependence Analysis of Variance • One-way analysis of variance is a technique used to compare means of two or more samples. • In case of a qualitative and a quantitative variable.
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Differences - variances • dji total difference: difference between an employee’s production and the grand mean
d ji x ji - x
• Wji within-column difference: difference between an employee’s production and his group’s mean Wji x ji - x j • Bji between-column difference: difference between the group’s mean and the grand mean
Bj x j - x
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
dji = Wji + Bj
2 2 2 x x x x x x ji ji j j j i
j i
SS = SSW + SSB 2 = 2W + 2B
j
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Measures of mixed dependence H
SSB SS
σ 2B σ2
or
SSB σ 2B H 2 SS σ 2
Where: • H = H2 = 0 the variables are independent • H = H2 = 1 functional relation • 0H1 0 H 0.3 weak dependence 0.3 H 0.7 medium-strong dependence 0.7 H 1 strong dependence
• 0 H2 1
Statistical dependence
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Example Marks
I.
II.
III.
Faculty
Total
Excellent (5)
20
20
20
60
Good (4)
30
50
40
120
Medium (3)
25
35
55
115
Satisfactory(2)
20
35
80
135
0
5
20
25
95
145
215
455
Fail (1) Total
Is there any dependence between the average marks and faculties?
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Faculties
n
x
σ2
Faculty I.
95
3.53
1.09
Faculty II.
145
3.31
1.18
Faculty III.
215
2.81
1.27
Total
455
3.12
1.29
or
x
n x n j
j
σ 2 W
2 n σ j j
n
j
n j x j x
2
σ
n
j
95 3.53 145 3.31 215 2.81 3.12 455
95 1.09 145 1.18 215 1.27 1.2 455
σ 2 σ 2B σ 2W 2 B
j
σ 2B 1.29 - 1.2 0.09
953.53 3.12 1453.31 3.12 2152.81 3.12 0.09 455 2
0.09 H 0.2641 1.29
2
H 2 6.81 %
2
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Mixed dependence Analyze / Compare Means / Means…
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Output View Report Current Salary Gender Female Male Total
Mean $26,031.92 $41,441.78 $34,419.57
N 216 258 474
Std. Dev iat ion $7,558.021 $19,499.214 $17,075.661
This table shows you the central tendency & dispersion of the dependent variable (current salary) grouped by the independent variable (gender).
ANOVA Table
Current Salary * Gender Between Groups (Combined) (SK) Within Groups (SB) Total (S)
Sum of Squares 2,8E+010 1,1E+011 1,4E+011
df 1 472 473
Mean Square 2,792E+010 233046530,5
F 119,798
Sig. ,000
Measures of Association
H Et a Current Salary * Gender
,450
Et a Squared ,202
H2
SK S
%; proportion of variance in the dependent variable explained by differences among groups
• Gazdaságtudományi Kar •
Gazdaságelméleti és Módszertani Intézet
Thanks for your attention!
[email protected]