10.1 Sokasági várható értékek különbségének becslése
A sokasági várható értékek, vagy sokasági átlagok különbségének becslése során két nagy csoportot különböztetünk meg a mintavételi szituáció alapján:
- párosított (függő) minták és
- független minták segítségével történő becslés.
Párosított mintáról (10.1.1. fejezet) akkor beszélünk, ha az egyik mintában található mintaelemek befolyásolják a másik mintába kerülő mintaelemek értékét. Két alapvető szituációban fordul elő ez:
- ugyanazokat a megfigyeléseket mérjük két időpontban (előtte-utána tanulmányok), vagy
- mesterségesen párosított minták esetén.
Abban az esetben, ha a két sokaságból egymástól függetlenül veszünk mintát, azaz a mintába kerülő elemek nem befolyásolják a másik minta értékeit, független mintás becslésről beszélünk (10.1.2. fejezet). Ebben az esetben a sokaságra vonatkozó ismereteink és feltevéseink fogják (10.1) pontos formuláját megadni.
A jelölésrendszerünket annyiban kell módosítanunk a korábbiakhoz képest, hogy most már nem egy, hanem két sokaságról, illetve két mintáról kell beszélnünk. A sokaságot eddig \(X\) jelölte, legyen ez most az egyik sokaság, míg a másikat jelölje \(Y\). Ennek megfelelően a13 a következő jelöléseket vezetjük be:
- sokasági átlagok: \(\mu_X\) és \(\mu_Y\)
- sokasági átlagok különbsége: \(\delta = \mu_X - \mu_Y\)
- sokasági varianciák: \(\sigma^2_X\) és \(\sigma^2_Y\)
- sokasági elemszámok: \(N_X\) és \(N_Y\)
- mintaelemszámok: \(n_X\) és \(n_Y\)
- mintabeli átlagok valószínűségi változói: \(\overline{X}\) és \(\overline{Y}\)
- mintabeli átlagok realizációi: \(\overline{x}\) és \(\overline{y}\)
- mintabeli varianciák valószínűségi változói: \(S^2_X\) és \(S^2_Y\)
- mintabeli varianciák realizációi: \(s^2_X\) és \(s^2_Y\)
10.1.1 Párosított mintás becslés
Tegyük fel, hogy két párosított mintából rendelkezünk \(n_X = n_Y = n\) megfigyeléspárral és feladatunk \(\delta = \mu_X - \mu_Y\) sokasági különbségre vonatkozó konfidencia intervallum készítése. Amenniyben feltételezzük, hogy a különbség normális eloszlású (vagy elegendően nagy mintával rendelkezünk), úgy \(1-\alpha\) megbízhatóságú konfidencia intervallum becslést a
\[\begin{equation} \overline{x}-\overline{y} \pm {}_{n-1}t_{1-\alpha/2} \frac{s_{D}}{\sqrt{n}} \tag{10.3} \end{equation}\] formulával nyerhetjük, ahol a már megismert jelölések mellett \(s_{D}\) az \(n\) darab párból képzett \(D = X - Y\) változóból számított mintabeli szórást jelenti.
A (10.3) formula az előző fejezetből ismerős, hiszen nagyon hasonlít a (9.6) képletre, különösen akkor, ha észrevesszük, hogy \(\overline{x}-\overline{y} = \overline{d}\), azaz a pontbecslés az újonnan létrehozott \(D = X - Y\) változó mintabeli átlaga. Ez egyben azt is jelenti, hogy a párosított mintás becslést visszavezettük a 9.2.1. fejezetben megismert módszerre. A becsléshez ugyanúgy az \(n-1\) szabadságfokú t eloszlás kvantilisére van szükségünk, ahol \(n\) a megfigyeléspárok, azaz a képezhető különbségek száma.
Egy nagy cég HR osztályán feladatunk egy drága kompetenciafejlesztő tréning hatásának mérése. Az első tréningen 30 fő vett részt, akik a cégnél dolgozók véletlen mintájaként tekinthetők. A résztvevők kitöltöttek egy-egy tesztet a tréning előtt és után, melyek pontszámát a 10.1. táblázat tartalmazza. Becsüljük meg 99%-os megbízhatósággal a teszten mért képesség várható javulását a sokaságban!
sorszám | előtte (\(Y\)) | utána (\(X\)) | változás (\(D\)) | sorszám | előtte (\(Y\)) | utána (\(X\)) | változás (\(D\)) | |
---|---|---|---|---|---|---|---|---|
1. | 57,5 | 63,4 | 5,9 | 16. | 45,4 | 44,3 | -1,1 | |
2. | 52,0 | 54,9 | 2,9 | 17. | 42,7 | 46,3 | 3,6 | |
3. | 72,1 | 76,3 | 4,2 | 18. | 37,1 | 34,5 | -2,6 | |
4. | 47,2 | 50,5 | 3,3 | 19. | 48,1 | 49,0 | 0,9 | |
5. | 49,9 | 54,9 | 5,0 | 20. | 26,0 | 28,2 | 2,2 | |
6. | 39,7 | 44,8 | 5,1 | 21. | 37,4 | 37,9 | 0,5 | |
7. | 72,1 | 71,9 | -0,2 | 22. | 40,6 | 42,5 | 1,9 | |
8. | 48,3 | 47,8 | -0,5 | 23. | 55,5 | 62,2 | 6,7 | |
9. | 55,0 | 56,0 | 1,0 | 24. | 65,1 | 66,9 | 1,8 | |
10. | 42,6 | 42,3 | -0,3 | 25. | 34,9 | 37,1 | 2,2 | |
11. | 61,0 | 60,1 | -0,9 | 26. | 59,6 | 59,4 | -0,2 | |
12. | 39,9 | 43,7 | 3,8 | 27. | 59,7 | 63,2 | 3,5 | |
13. | 45,3 | 51,6 | 6,3 | 28. | 37,6 | 39,3 | 1,7 | |
14. | 46,9 | 51,0 | 4,1 | 29. | 47,2 | 51,1 | 3,9 | |
15. | 35,3 | 41,2 | 5,9 | 30. | 60,9 | 66,9 | 6,0 |
10.1.2 Független mintás becslés
Abban az esetben tehát, ha a két sokaságból egymástól függetlenül veszünk mintát, független mintás becslésről beszélünk. Követve a 9.2.1. fejezetben követett logikát elsőként a matematikailag legegyszerűbb, de a gyakorlatban kevéssé alkalmazható esettel kezdjük a tárgyalást, majd innen mozdulunk el a praktikusabb feltételezések felé. A fejezetben három különböző feltételezés mellett adunk (10.1) formulának konkrét alakot. Alapvetően mindhárom esetben a sokaságok normális eloszlását tételezzük fel, ezt azonban a későbbiekben lazítjuk. A célunk tehát az ismeretlen \(\delta = \mu_X - \mu_Y\) sokasági várható érték különbség becslése az alábbi feltételezésekkel:
- ismert \(\sigma^2_X\) és \(\sigma^2_Y\)
- \(\sigma^2_X\) és \(\sigma^2_Y\) nem ismert, de egyezőségüket feltételezzük
- \(\sigma^2_X\) és \(\sigma^2_Y\) nem ismert, egyezőségüket nem tételezzük fel
Legyen tehát a két sokaság \(X\) és \(Y\), melyekből nem feltétlenül azonos méretű, \(n_X\) és \(n_Y\) elemű mintákat veszünk. Ekkor könnyen belátható, hogy
\[\begin{equation} Z = \frac{\overline{X}- \overline{Y} - \delta}{\sqrt{\frac{\sigma^2_X}{n_X} + \frac{\sigma^2_Y}{n_Y}}} \sim \mathcal{N}\left(0,1\right) \tag{10.4} \end{equation}\] standard normális eloszlást követ. A fenti összefüggés alapján a (9.4) levezetéssel analóg módon kapjuk, hogy a minta alapján számított
\[\begin{equation} \overline{x} - \overline{y} \pm z_{1-\alpha/2} \sqrt{\frac{\sigma^2_X}{n_X} + \frac{\sigma^2_Y}{n_Y}} \tag{10.5} \end{equation}\] alsó és felső határok a \(\delta\) ismeretlen sokasági átlag különbségre vonatkozó \(1-\alpha\) megbízhatósági szintű konfidencia intervallumot adnak.
A gyakorlatban (10.5) alkalmazása nem túl gyakori, hiszen nem gyakran fordul elő, hogy a sokaságok normalitását és a sokasági varianciák ismeretét is feltételezhetjük, ezért itt példát sem hozunk. Amennyiben a választott minták nagyok, néhány tankönyvben mégis ez a formula szerepel, hiszen a nagyon nagy mintából már szinte biztosak lehetünk benne, hogy a mintabeli variancia jól közelíti a sokasági varianciát. Ebben a könyvben nem követjük ezt az elméletileg helytelen, gyakorlati szempontból viszont védhető gyakorlatot.
A második esetben a normalitás mellett már nem feltételezzük a sokasági varianciák ismeretét, azonban azok azonosságát igen, tehát \(\sigma^2_X = \sigma^2_Y\). Ez a feltételezés már gyakorlatiasabb, hiszen ismeretlen sokasági átlagok mellett igen ritka eset, hogy mindkét sokaság varianciáját ismerjük. Belátható, hogy ekkor (10.4) formula \(\sigma^2 = \sigma^2_X = \sigma^2_Y\) helyettesítéssel alkalmazható lenne, de a feltételezés szerint a közös \(\sigma^2\) paraméter ismeretlen. Ahogy azt a korábbi fejezetekben már láttuk, ilyenkor a mintából származó becsléssel helyettesítjük a sokasági paramétert. Jelen esetben \(\sigma^2\)-re vonatkozóan mindkét minta tartalmaz információt, nem lenne jogos, ha pusztán az egyik mintabeli szórás alapján közelítenénk az értékét. A legjobb közelítést a két mintabeli korrigált variancia mintaelemszámmal14 súlyozott átlagaként nyerhetjük. Az ismeretlen \(\sigma^2\)-re vonatkozó, mintán alapuló becslésünk neve mintabeli pooled (közös) variancia
\[\begin{equation} s_p^2 = \frac{\left(n_X-1\right)s_X^2+\left(n_Y-1\right)s_Y^2}{n_X+n_Y-2} \tag{10.6} \end{equation}\]
Ahogy azt már szintén megszokhattuk, a sokasági paraméter helyettesítése egy mintabeli becsült értékkel a mintavételi eloszlás normalitását felborít(hat)ja, ennek megfelelően az \(1-\alpha\) megbízhatóságú konfidencia intervallum \(\delta\)-ra a sokaságok normalitását, valamint a sokasági varianciák egyezőségét feltételezve
\[\begin{equation} \overline{x} - \overline{y} \pm {}_{n_X+n_Y-2}t_{1-\alpha/2} s_p \sqrt{\frac{1}{n_X}+\frac{1}{n_Y}} \tag{10.7} \end{equation}\]
A formula szerkezete nagyon hasonlít (9.6) formuláéra, annak közvetlen általánosításaként tekinthető. A t eloszlás szabadságfoka \(n_X -1 +n_Y-1\), vagy rövidebben \(n_X+n_Y-2\). A standard hiba helyén \(s_p\) és a mintaelemszámok szerepelnek.
A harmadik eset azt a szituációt vizsgálja, amikor a sokaságok normalitása mellett a sokasági varianciák egyezőségét nem tesszük fel. Ekkor (10.4)-ben sem \(\sigma_X^2\), sem \(\sigma_Y^2\) nem ismert. Ekkor nem a pooled mintabeli varianciával becsüljük ezek értékét, hanem külön-külön a megfelelő mintabeli varianciákkal. Belátható, hogy a normalitás ebben az esetben is sérül, a t eloszlás szabadságfoka pedig az alábbi formulával közelíthető adott minták mellett
\[\begin{equation} \nu = \dfrac{\left(\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}\right)^2}{\left(\frac{s_X^2}{n_X}\right)^2 \frac{1}{n_X-1}+\left(\frac{s_Y^2}{n_Y}\right)^2\frac{1}{n_Y-1}} \tag{10.8} \end{equation}\]
az \(1-\alpha\) megbízhatóságú konfidencia intervallum \(\delta\)-ra a sokaságok normalitását, valamint a sokasági varianciák különbözőségét feltételezve
\[\begin{equation} \overline{x} - \overline{y} \pm {}_{\nu}t_{1-\alpha/2} \sqrt{\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}} \tag{10.9} \end{equation}\] ahol a t eloszlás \(\nu\) szabadságfoka a (10.8) egyenletből adódik.
A (10.7) és a (10.9) formulák igazi jelentőségét az adja, hogy -- az egymintás esethez hasonlóan -- abban az esetben is alkalmazhatók, ha a sokaság eloszlása nem normális, de a minták mérete elegendően nagy. Ahogy azt a 9.2.1. fejezetben is tárgyaltuk, annak meghatározása, hogy mekkora az elegendően nagy, komoly matematikai-statisztikai feladat, a különböző szakirodalmak más-más értéket említenek. Jelen tananyagban a mindkét sokaságból 30 feletti mintaelemszámot már elegendően nagynak tekintjük. Amennyiben a minta alapján a sokaság jelentősen eltér a normális eloszlástól, ennél akár jóval nagyobb mintára is szükség lehet.
Egy felmérés a férfi és női ügyfelek pénzügyi tudatosságát vizsgálja, a közvetlenül a folyószámlán tartott összegen keresztül. Ez a forma ugyan likvid, azonban nem biztosít hozamot. A vizsgálat a bankszámlával rendelkező felnőtt lakosságból mint alapsokaságból rendelkezik egyszerű véletlen mintával. Becsüljük meg a férfiak és nők átlagos folyószámla egyenlegének különbségét 90%-os megbízhatóság mellett!
Jelölje \(X\) a férfiak sokasági egyenleg eloszlását, \(Y\) pedig a hölgyekét. A mintavétel során azt kaptuk, hogy a férfiak átlagos egyenlege \(246\,978\) Ft, míg a nők esetén ez \(332\,739\) Ft. A korrigált mintabeli szórás \(132\,843\) Ft, illetve \(141\,434\) Ft, ami 50 férfi és 40 női ügyfél megkérdezése alapján került kiszámításra.
Az egyenlegek eloszlása ugyan várhatóan nem normális, hanem valószínűleg jobboldali aszimmetriával rendelkezik (néhány extrém nagy egyenleg miatt), a viszonylag nagy mintaelemszám azonban lehetővé teszi, hogy (10.7), illetve (10.9) formulákat alkalmazzuk a sokasági varianciákra vonatkozó feltevésektől függően. A sokasági varianciák összehasonlítása a Statisztikai modellezés tárgy tananyaga, így feladatmegoldás során az alkalmazandó feltételezést explicit módon meg fogjuk adni. Ebben a példában illusztrációként mindkét esetet végigszámoljuk.
Tételezzük fel elsőként a sokasági varianciák egyezőségét, ami a mintabeli szórások hasonlósága miatt nem tűnik rossz feltételezésnek (természetesen a mintavétel miatt a mintabeli szórások akkor sem lesznek teljesen egyenlők, ha a sokasági szórások megegyeznek). Ekkor (10.7) alapján \[ \overline{x} - \overline{y} \pm {}_{n_X+n_Y-2}t_{1-\alpha/2} s_p \sqrt{\frac{1}{n_X}+\frac{1}{n_Y}} = 246\,978 - 332\,739 \pm 227\,272{,}1 \sqrt{\frac{1}{50}+\frac{1}{40}} \] ahol \({}_{88}t_{0{,}95} = 1{,}662\), illetve \[ s_p = \sqrt{\frac{\left(50-1\right)132\,843^2+\left(40-1\right)141\,434^2}{50+40-2}} = 136\,717 \]
Azaz a minta alapján számított konfidencia intervallum alsó határa \(-133\,973\) Ft, felső határa \(-37\,549\) Ft. Ez azt jelenti, hogy a sokasági különbségre vonatkozó becslésünk alapján a nők folyószáma egyenlege magasabb 90%-os megbízhatóság mellett legalább \(37\,549\), legfeljebb \(133\,973\) forinttal. Vegyük észre, hogy mivel a férfiak egyenlegét választottuk \(X\) és a nőkét \(Y\) változónak, a negatív előjelű becslés azt jelenti, hogy a nők egyenlege magasabb. Fordított választás esetén ugyancsak ellentett eredményt kapnánk.
Amennyiben a sokasági varianciák egyezőségét nem tételezzük fel, úgy (10.9) alapján \[ 246\,978 - 332\,739 \pm {}_{81}t_{0{,}95} \sqrt{\frac{132\,843^2}{50}+\frac{141\,434^2}{40}} \] ahol \({}_{81}t_{0{,}95} = 1{,}664\), illetve \[ \nu = \dfrac{\left(\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}\right)^2}{\left(\frac{s_X^2}{n_X}\right)^2 \frac{1}{n_X-1}+\left(\frac{s_Y^2}{n_Y}\right)^2\frac{1}{n_Y-1}} = 81{,}26 \] Azaz a minta alapján számított konfidencia intervallum alsó határa \(-134\,358\) Ft, felső határa \(-37\,164\) Ft.