TV-nézettség mérése
Előadó: Zempléni András
TV nézőmérés
TV-nézőmérő rendszer és lehetséges torzítása
Vajon néz-e a nézőnek bejelentkezett? Elfelejtkezhet bejelentkezni
Megoldási kísérletek: időnkénti kontroll-kérdések telefonos ellenőrzés adatok szűrése
Adatszolgáltatók köre: panel
TV nézőmérés
TV nézőmérés
Problémák a mérőeszköznél
Mely változókat (változó - kombinációkat) válasszuk?
TV nézőmérés
TV nézőmérés
kiválasztás: évenként elvégzett széleskörű felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás
Kérdések a súlyozásnál figyelembe veendő változókra vonatkozóan
A súlyozás
Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása)
Minden országban működik Célja: visszajelzés a TV-műsorok készítőinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézők gombnyomással jeleznek
Melyek legyenek a súlyozás kategóriái?
Példa RIM weighting súlyozásra
Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái?
Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését
TV nézőmérés
TV nézőmérés
Kérdések a súlyozásról
Példa: Két változó, két-két értékkel, különböző súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó
Képzeletbeli példa universek Nő
Összesen
Városi
1 250 000
1 250 000
2 500 000
Falusi
1 250 000
1 250 000
2 500 000
Összesen
2 500 000
2 500 000
5 000 000
A panel összetétele
TV nézőmérés
TV nézőmérés
A népesség (universe) Férfi összetétele
Képzeletbeli példa panel
250
100
350
Falusi
1000
400
1 400
Összesen
1250
500
1750
Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak?
Súlyozás lépései /2
Városi
Nő Összesen 5000 súlyok 500 500 1000
Falusi
2000
2000
4000
Összesen
2500
2500
5 000
A universe összetétele (ezer)
TV nézőmérés
TV nézőmérés
Férfi 2000
Összesen
Nő
Városi
Súlyozás lépései /1 A universe összetétele (ezer)
Férfi
Városi 2.5
Férfi 2000
Nő Összesen 5000 súlyok 1250 1250 2500
súlyok
Falusi 0.625
1250
1250
2500
Összesen
2500
2500
5 000
A panel összetétele és a becsült nézettség (valószínűség) Városi
Férfi
A súlyok megoszlása Túl sok súlyozó változó mutatnak
Összesen
Nő
400
Ha a panel az adott változó szerint nem arányos, a súlyok szórása nő
0
1
2
3
4
5
TV nézőmérés
3000
,0 0
0
0
0
A panel különböző súlyú részeinek hatása
6000
,0 0
,0 0
A súlyok ingadozása
9000
53
00 57
00
0
0
0 53
0
0
00
00 45
49
0
0
00
00
00 33
37
41
0 00 29
00
0
0
0 00
00 21
25
0
00
0
0
A súlyok koncentrációja
12000
57
0
0 ,0 0
,0 0 45
49
0
0 ,0 0 37
41
0
0 33
,0 0
,0 0
,0 0 25
29
50
13
G y ak o r i ság
0
100
17
Súlyozatlan becslés: 455/1750=0.26 Súlyozott becslés: 0.2
2
150
0
1750
4
200
0
500
6
250
50 0
1 250
1400
8
300
90 0
Összesen
350
10 0
1000 400 AMR=.3 AMR=.3
Falusi
átlagsúly
10
350
250 100 AMR=.1 AMR=.1
15000
TV nézőmérés
a súlyok nagy szórást
->
A sú l yo k m ego szl ása 1 9 9 8 .0 9 .2 4 -én
TV nézőmérés
TV nézőmérés
Képzeletbeli példa panel és nézettség
Az előző példában : ha csak 1 változó szerint súlyozunk: max/min=4 ha mindkét változó szerint súlyozunk: max/min= 10
Az egyes 20% nagyságú csoportok
A becslések megbízhatósága
Következtetések
N
2 2 2 2 2 2 ( mm) () m )(( m ) m )( D 2 ( X iYi ) D(X(Y) XY XY X X Y mY ) N
2
i 1
i i
2 XY
2 XY
2 X
2 X
2 Y
2 Y
i 1
X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Alacsony esetszámú kategória (<50 paneltag) nézettségére vonatkozó becslés szórása igen nagy
TV nézőmérés
TV nézőmérés
Ha valószínűségi modellt alkalmazunk (N Poisson eloszlású – a műsor nézői – független X,Y-tól):
Azokat a változókat célszerű súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára Célszerű kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból
Cluster-analízis A módszer lényege: több számértékkel egyidejűleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 10 hetes időszakban mennyit nézték az egyes csatornákat (külön-külön, idősávonként, ill. összesítve).
Clusteranalízis
TV nézőmérés
TV nézőmérés
A változók hatásának vizsgálata
A nézettségi adatok clusterei (k-közép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben
MTV1
1
2
3
4
65 165 25
37
MTV2
5
18
4
3
Duna TV
3
12
4
3
TV2 RTL Klub
222 49
A clusterek elhelyezkedése
70 40
85
31 34 204
700
TV nézőmérés
TV nézőmérés
Cluster sorszáma
A clusterek vizsgálata
Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérőszám az úgynevezett KruskalWallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között.
600
M T V 1
500 400 300 200
Cluster
100 0 800
4 600
400
TV2
200
0
0
100 200
300 400
500
RTL Klub
600 700
3 2 1
A Kruskal-Wallis statisztika K TV nézőmérés
TV nézőmérés
Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (előre rögzített clusterszámmal dolgozunk, iterációs eljárás) – ezt használtuk a TVnézettségnél 2. hierarchikus eljárások (n-ről egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.)
12 N 1 2 ni( Ri ) N ( N 1) i 2
N a teljes minta elemszáma (kb. 1600) Ri az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga ni az i-edik csoport elemszáma
Néhány korcsoport szerepe
Néhány kevésbé fontos változó
Chi-négyzet
78.2
4-14
72.2
30-49
33.9
30-34
13.9
35-39
8.0
Baranya, Tolna, Somogy megye
6.2
Fejér, Veszprém, Zala megye
3.2
Városi nő
3.8
Kisvárosi harmincas nő
3.1
A változók kiválasztása
Az új súlyok koncentrációja
Kérdés: mekkora is ez a szórás?
12000
9000
9000
6000
3000
6000
3000
0
0
1
2
3
4
5
1
2
3
4
5
Az egyes 20% nagyságú csoportok
A becslések szórásának vizsgálata
A megfigyelések nem függetlenek!
TV nézőmérés
TV nézőmérés
15000
12000
Az egyes 20% nagyságú csoportok
A változók számának csökkentése után adódó súlyok Az egymás utáni napok közötti súlyok korrelációja közel 0.99 a súlyok szórása kisebb a ‘98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli.
15000
átlagsúly
“telefon” szükséges (felhasználók elvárása) „jövedelem” beválasztása jelentősen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerű
különböző súlyú részeinek hatása
különböző súlyú részeinek hatása
TV nézőmérés
TV nézőmérés
kritikus csoportok vizsgálata külön-külön
A 840-es panel
A 620-as panel
Tesztek a különböző kategória-rendszerekkel: iterációk konvergenciája
11.4
átlagsúly
15-29
Borsod, Heves megye
TV nézőmérés
TV nézőmérés
Chi-négyzet
családon belüli (kényszerű) kapcsolat: az egymáshoz közeli időpontokban nagyon hasonló a műsorok nézőinek összetétele
Kérdés: valójában hány elemű mintának felel meg a panel?
A becslések szórásának vizsgálata bootstrap módszerrel
Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató “paneleket” generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra.
TV nézőmérés
TV nézőmérés
A bootstrap eljárás
D2(X *)
x (1 x ) n
A szórások összehasonlítása
Xc, X2,...Xn a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggőség szórásra gyakorolt hatása vizsgálható a módszerrel.
Elméleti érték:
TV nézőmérés
TV nézőmérés
Alkalmazása
A módszer matematikai háttere: Xc, X2,...Xn: ftlen, azonos, F eloszlású. Fn a tapasztalati eloszlásfv. Új (bootstrap) minta a tapasztalati eloszlásból: x* Ennek feltételes szórásnégyzete:
pˆ (1 pˆ ) n
A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol pi az egyes mintáknál kapott becslés, p pedig ezek átlaga
1 ( pi p)2 n 1
A két szórás hányadosa
A két szórás alakulása egy nap során (átlagos percenkénti nézettség, AMR)
Nem függ szignifikánsan
.014
.010
.008
.006
.004
.002
RTLSZ
0.000
RTLELMS 1
145 73
PERC
289
217
433
361
577
505
721
649
865
793
1009 1153 1297
937
1081 1225 1369
TV nézőmérés
TV nézőmérés
.012
az időponttól a nézettségtől
Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentősen eltérhet
A két szórás hányadosa a 18-49 évesek, mint célcsoport esetén
A szórások hányadosa a főbevásárlók, mint célcsoport esetén
.012
.02
.008
.006
.004
.002 MTV1SZ 0.000
MTV1ELMS 1
145 73
289
217
433
361
577
505
721
649
865
793
TV nézőmérés
TV nézőmérés
.010
.01
TV2SZ 0.00
1009 1153 1297
937
1081 1225 1369
289
217
433
361
577
505
721 649
865
793
1009 1153
937
1081
1297
1225
1369
PERC
Ha a főbevásárlókat tekintjük, nincs családon belüli összefüggés
A bootstrap mintákból kapott becslés szórása
SHANY
1.3
1.2
1.1
1.0
.9 Obs erved .8
Linear .1
.2
TV nézőmérés
1.4
TV nézőmérés
145 73
PERC
0.0
TV2ELMS 1
Az előző ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsőségesebb - a súlyok szórása mintegy 10%-kal magasabb - (hiszen a minta természetszerűleg kevésbé arányos) és ez növeli a kapott becslések szórását.
.3
ATL
A szórások hányadosa különböző kampányokra
Nemzetközi tapasztalat: a reach/AMR hányados növekedésével (azaz ahogy nő a legalább 1 percre elért populáció és az adott percben nézők számának aránya) csökken a becslés szórása (és így a szórás-hányados is) A különböző műsorok meglehetősen eltérő viselkedést mutattak, ezért célszerűbb volt különböző sorozatok, ill. kampányok vizsgálata
1.6
1.4
TV nézőmérés
TV nézőmérés
Műsorok, kampányok
1.2
1.0
.8
.6 Predicted Values REAPERAT
.4
SHANY .2
REAPERAT 0
2
4
6
8
10
12
14
16
TV nézőmérés
b+(max-b)/[a(R-1)+1] A paraméterek szemléletes jelentése: a adja meg a görbe meredekségét b a legkisebb, elvileg elérhető szóráshányados (ha az R=reach/AMR hányados végtelenhez tart) max pedig a reach/AMR=1 értékhez tartozó szórás-hányados
Következtetések
Az esetleges torzítás vizsgálata
8.000 család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézőméréshez való viszonyt is rögzíti (több, mint 50% nem vállalja a részvételt)
Számszerűsítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslő háztartásokból álljanak a mintapanelok. Ez így még nem egyértellmű, a későbbiekben térünk vissza a lehetséges megoldási módokra.
A becsült és a megfigyelt TV üzemórák összehasonlítása TUHETI: a háztartásonként mért heti össz-TV üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 0 326 37.40 TUHETI 1014 0 130 47.98
A torzítás
TV nézőmérés
TV nézőmérés
A bootstrap elemzés megmutatta, hogy az AMR becslések szórása valamelyest (legfeljebb 30%-kal) nagyobb, mint ami az elméleti becslés lenne viszont a kampányok, sorozatok esetén a reach/AMR hányados növekedtével akár az elméleti érték negyedére is csökkenhet a szórás.
Alapozó felmérés
TV nézőmérés
TV nézőmérés
TV nézőmérés
A nemlineáris regresszió képlete
A fenti két populáció metszete azokból áll, akik a panelbe kerültek az alapozó felmérésből, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézőmérő rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 0 252 32.73 vállalk. (2) 4451 0 326 43.70 beszerelt (3) 235 7 140 45.27
A torzítás számszerűsítése
Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = 2 csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = 2 és = 3 csoportok között.
TV nézőmérés
Bootstrap mintákat generálva, melyek (esetleg becsült) ORAHETI értékeinek megoszlása megegyezik az alapozó felmérésben megfigyelttel
Az egyes csatornák és idősávok nézettsége 10,95 25,64
0,921216 0,924819
Az arányok 0,948806 0,904774 0,842637 0,882369 1,2 0,883994 0,894564 1 0,869939 0,8 0,973242 0,934537 0,6 1,020525 0,92437 0,4 0,959915 0,953062 0,2 0,974566 0 0,875832 0,921216 0,924819
Bootstra p korre kció
120
hivatalos
40
20
hányados
M 14 1 TV 1_1 24 11 _1 M 14 1 TV 1_2 24 11 _2 M 14 1 TV 1_3 24 11 _3 M 14 1 TV 1_4 24 11 _4 M 14 1 TV 1_5 24 11 _5
Boot-átlag
60
TV nézőmérés
80
Bootstrap korrekció
_5
V 24 11
120
100
80
60
40
TV2411_5
TOT411_5
M1411_5
RTL411_5
TV2411_4
TOT411_4
M1411_4
RTL411_4
TV2411_3
TOT411_3
M1411_3
TV2411_2
TOT411_2
M1411_2
RTL411_2
TV2411_1
M1411_1
0
TOT411_1
20
RTL411_1
_4
1_ 5
T
V 24 11
M 14 1
T
_3
1_ 4
V 24 11
M 14 1
_2
1_ 3
T
V 24 11
M 14 1
T
_1
1_ 2
M 14 1
V 24 11
M 14 1
1_ 1
0
T
TV nézőmérés
100
A boot-átlag és a hivatalos adat aránya
RTL411_3
TV nézőmérés
Az eltérések vizsgálata