10.1 Sokasági várható értékek különbségének becslése

A sokasági várható értékek, vagy sokasági átlagok különbségének becslése során két nagy csoportot különböztetünk meg a mintavételi szituáció alapján:

párosított (függő) minták és
független minták segítségével történő becslés.

Párosított mintáról (10.1.1. fejezet) akkor beszélünk, ha az egyik mintában található mintaelemek befolyásolják a másik mintába kerülő mintaelemek értékét. Két alapvető szituációban fordul elő ez:

ugyanazokat a megfigyeléseket mérjük két időpontban (előtte-utána tanulmányok), vagy
mesterségesen párosított minták esetén.

A leggyakrabban klinikai vizsgálatok esetén fordul elő, hogy páciensek kezelés előtti és utáni átlagos jellemzőinek változását szeretnénk vizsgálni, de a gazdaságtudományok területén is gyakori ez az eset, pl. a fogyasztók marketingkampány előtti és utáni elégedettségét, vagy a beosztottak tréning előtti és utáni hatékonyságát kívánjuk vizsgálni. Ilyen esetekben természetes párokat alkotnak a megfigyeléseink, hiszen ugyanazokat a személyeket vizsgáltuk a "beavatkozás" előtt és után. Néhány esetben ez a természetes párosítás nem kivitelezhető, ekkor gyakran mesterségesen párosított mintákat alkalmaz a statisztikai gyakorlat: például azonos korú, iskolai végzettségű, érdeklődésű fogyasztót választunk az egyik és másik csoportba is és a válaszaikat párosítva elemezzük. Ilyen módszert választhatunk például két konkurens reklámfilm közüli választásra is fókuszcsoportos fogyasztói visszajelzések alapján.

Abban az esetben, ha a két sokaságból egymástól függetlenül veszünk mintát, azaz a mintába kerülő elemek nem befolyásolják a másik minta értékeit, független mintás becslésről beszélünk (10.1.2. fejezet). Ebben az esetben a sokaságra vonatkozó ismereteink és feltevéseink fogják (10.1) pontos formuláját megadni.

A jelölésrendszerünket annyiban kell módosítanunk a korábbiakhoz képest, hogy most már nem egy, hanem két sokaságról, illetve két mintáról kell beszélnünk. A sokaságot eddig \(X\) jelölte, legyen ez most az egyik sokaság, míg a másikat jelölje \(Y\). Ennek megfelelően a¹³ a következő jelöléseket vezetjük be:

sokasági átlagok: \(\mu_X\) és \(\mu_Y\)
sokasági átlagok különbsége: \(\delta = \mu_X - \mu_Y\)
sokasági varianciák: \(\sigma^2_X\) és \(\sigma^2_Y\)
sokasági elemszámok: \(N_X\) és \(N_Y\)
mintaelemszámok: \(n_X\) és \(n_Y\)
mintabeli átlagok valószínűségi változói: \(\overline{X}\) és \(\overline{Y}\)
mintabeli átlagok realizációi: \(\overline{x}\) és \(\overline{y}\)
mintabeli varianciák valószínűségi változói: \(S^2_X\) és \(S^2_Y\)
mintabeli varianciák realizációi: \(s^2_X\) és \(s^2_Y\)

10.1.1 Párosított mintás becslés

Tegyük fel, hogy két párosított mintából rendelkezünk \(n_X = n_Y = n\) megfigyeléspárral és feladatunk \(\delta = \mu_X - \mu_Y\) sokasági különbségre vonatkozó konfidencia intervallum készítése. Amenniyben feltételezzük, hogy a különbség normális eloszlású (vagy elegendően nagy mintával rendelkezünk), úgy \(1-\alpha\) megbízhatóságú konfidencia intervallum becslést a

\[\begin{equation} \overline{x}-\overline{y} \pm {}_{n-1}t_{1-\alpha/2} \frac{s_{D}}{\sqrt{n}} \tag{10.3} \end{equation}\] formulával nyerhetjük, ahol a már megismert jelölések mellett \(s_{D}\) az \(n\) darab párból képzett \(D = X - Y\) változóból számított mintabeli szórást jelenti.

A (10.3) formula az előző fejezetből ismerős, hiszen nagyon hasonlít a (9.6) képletre, különösen akkor, ha észrevesszük, hogy \(\overline{x}-\overline{y} = \overline{d}\), azaz a pontbecslés az újonnan létrehozott \(D = X - Y\) változó mintabeli átlaga. Ez egyben azt is jelenti, hogy a párosított mintás becslést visszavezettük a 9.2.1. fejezetben megismert módszerre. A becsléshez ugyanúgy az \(n-1\) szabadságfokú t eloszlás kvantilisére van szükségünk, ahol \(n\) a megfigyeléspárok, azaz a képezhető különbségek száma.

Egy nagy cég HR osztályán feladatunk egy drága kompetenciafejlesztő tréning hatásának mérése. Az első tréningen 30 fő vett részt, akik a cégnél dolgozók véletlen mintájaként tekinthetők. A résztvevők kitöltöttek egy-egy tesztet a tréning előtt és után, melyek pontszámát a 10.1. táblázat tartalmazza. Becsüljük meg 99%-os megbízhatósággal a teszten mért képesség várható javulását a sokaságban!

Táblázat 10.1: A tréningen elért eredmények
sorszám	előtte (\(Y\))	utána (\(X\))	változás (\(D\))	sorszám	előtte (\(Y\))	utána (\(X\))	változás (\(D\))
1.	57,5	63,4	5,9	16.	45,4	44,3	-1,1
2.	52,0	54,9	2,9	17.	42,7	46,3	3,6
3.	72,1	76,3	4,2	18.	37,1	34,5	-2,6
4.	47,2	50,5	3,3	19.	48,1	49,0	0,9
5.	49,9	54,9	5,0	20.	26,0	28,2	2,2
6.	39,7	44,8	5,1	21.	37,4	37,9	0,5
7.	72,1	71,9	-0,2	22.	40,6	42,5	1,9
8.	48,3	47,8	-0,5	23.	55,5	62,2	6,7
9.	55,0	56,0	1,0	24.	65,1	66,9	1,8
10.	42,6	42,3	-0,3	25.	34,9	37,1	2,2
11.	61,0	60,1	-0,9	26.	59,6	59,4	-0,2
12.	39,9	43,7	3,8	27.	59,7	63,2	3,5
13.	45,3	51,6	6,3	28.	37,6	39,3	1,7
14.	46,9	51,0	4,1	29.	47,2	51,1	3,9
15.	35,3	41,2	5,9	30.	60,9	66,9	6,0

Mivel ugyanazok a személyek töltötték ki a tesztet, így párosított mintáról beszélhetünk. Első lépésként az elért pontszámok különbségét számítjuk ki egyénenként (a táblázatban a változás oszlopban látható). A pontszám változást hisztogram segítségével ábrázolva nem látunk a normalitástól való jelentős eltérést, illetve a mintaelemszámunk is viszonylag nagy, ezért alkalmazható (10.3): \[ 51{,}307-48{,}753 \pm 2{,}756 \frac{2,525}{\sqrt{30}} = 2{,}553 \pm 1{,}271 \] azaz 99%-os megbízhatóság mellett a sokasági változás (javulás) 1,282 és 3,824 pont közötti. A feladat megoldása során \(X\) változónak az előtte, \(Y\) változónak az utána pontszámot tekintettük. Fordított választás esetén az eredmény a mostani ellentettje, azaz \(-2{,}553 \pm 1{,}271\) lenne, de szintén átlagos javulásként kellene értelmezni.

10.1.2 Független mintás becslés

Abban az esetben tehát, ha a két sokaságból egymástól függetlenül veszünk mintát, független mintás becslésről beszélünk. Követve a 9.2.1. fejezetben követett logikát elsőként a matematikailag legegyszerűbb, de a gyakorlatban kevéssé alkalmazható esettel kezdjük a tárgyalást, majd innen mozdulunk el a praktikusabb feltételezések felé. A fejezetben három különböző feltételezés mellett adunk (10.1) formulának konkrét alakot. Alapvetően mindhárom esetben a sokaságok normális eloszlását tételezzük fel, ezt azonban a későbbiekben lazítjuk. A célunk tehát az ismeretlen \(\delta = \mu_X - \mu_Y\) sokasági várható érték különbség becslése az alábbi feltételezésekkel:

ismert \(\sigma^2_X\) és \(\sigma^2_Y\)
\(\sigma^2_X\) és \(\sigma^2_Y\) nem ismert, de egyezőségüket feltételezzük
\(\sigma^2_X\) és \(\sigma^2_Y\) nem ismert, egyezőségüket nem tételezzük fel

Legyen tehát a két sokaság \(X\) és \(Y\), melyekből nem feltétlenül azonos méretű, \(n_X\) és \(n_Y\) elemű mintákat veszünk. Ekkor könnyen belátható, hogy

\[\begin{equation} Z = \frac{\overline{X}- \overline{Y} - \delta}{\sqrt{\frac{\sigma^2_X}{n_X} + \frac{\sigma^2_Y}{n_Y}}} \sim \mathcal{N}\left(0,1\right) \tag{10.4} \end{equation}\] standard normális eloszlást követ. A fenti összefüggés alapján a (9.4) levezetéssel analóg módon kapjuk, hogy a minta alapján számított

\[\begin{equation} \overline{x} - \overline{y} \pm z_{1-\alpha/2} \sqrt{\frac{\sigma^2_X}{n_X} + \frac{\sigma^2_Y}{n_Y}} \tag{10.5} \end{equation}\] alsó és felső határok a \(\delta\) ismeretlen sokasági átlag különbségre vonatkozó \(1-\alpha\) megbízhatósági szintű konfidencia intervallumot adnak.

A gyakorlatban (10.5) alkalmazása nem túl gyakori, hiszen nem gyakran fordul elő, hogy a sokaságok normalitását és a sokasági varianciák ismeretét is feltételezhetjük, ezért itt példát sem hozunk. Amennyiben a választott minták nagyok, néhány tankönyvben mégis ez a formula szerepel, hiszen a nagyon nagy mintából már szinte biztosak lehetünk benne, hogy a mintabeli variancia jól közelíti a sokasági varianciát. Ebben a könyvben nem követjük ezt az elméletileg helytelen, gyakorlati szempontból viszont védhető gyakorlatot.

A második esetben a normalitás mellett már nem feltételezzük a sokasági varianciák ismeretét, azonban azok azonosságát igen, tehát \(\sigma^2_X = \sigma^2_Y\). Ez a feltételezés már gyakorlatiasabb, hiszen ismeretlen sokasági átlagok mellett igen ritka eset, hogy mindkét sokaság varianciáját ismerjük. Belátható, hogy ekkor (10.4) formula \(\sigma^2 = \sigma^2_X = \sigma^2_Y\) helyettesítéssel alkalmazható lenne, de a feltételezés szerint a közös \(\sigma^2\) paraméter ismeretlen. Ahogy azt a korábbi fejezetekben már láttuk, ilyenkor a mintából származó becsléssel helyettesítjük a sokasági paramétert. Jelen esetben \(\sigma^2\)-re vonatkozóan mindkét minta tartalmaz információt, nem lenne jogos, ha pusztán az egyik mintabeli szórás alapján közelítenénk az értékét. A legjobb közelítést a két mintabeli korrigált variancia mintaelemszámmal¹⁴ súlyozott átlagaként nyerhetjük. Az ismeretlen \(\sigma^2\)-re vonatkozó, mintán alapuló becslésünk neve mintabeli pooled (közös) variancia

\[\begin{equation} s_p^2 = \frac{\left(n_X-1\right)s_X^2+\left(n_Y-1\right)s_Y^2}{n_X+n_Y-2} \tag{10.6} \end{equation}\]

Ahogy azt már szintén megszokhattuk, a sokasági paraméter helyettesítése egy mintabeli becsült értékkel a mintavételi eloszlás normalitását felborít(hat)ja, ennek megfelelően az \(1-\alpha\) megbízhatóságú konfidencia intervallum \(\delta\)-ra a sokaságok normalitását, valamint a sokasági varianciák egyezőségét feltételezve

\[\begin{equation} \overline{x} - \overline{y} \pm {}_{n_X+n_Y-2}t_{1-\alpha/2} s_p \sqrt{\frac{1}{n_X}+\frac{1}{n_Y}} \tag{10.7} \end{equation}\]

A formula szerkezete nagyon hasonlít (9.6) formuláéra, annak közvetlen általánosításaként tekinthető. A t eloszlás szabadságfoka \(n_X -1 +n_Y-1\), vagy rövidebben \(n_X+n_Y-2\). A standard hiba helyén \(s_p\) és a mintaelemszámok szerepelnek.

A harmadik eset azt a szituációt vizsgálja, amikor a sokaságok normalitása mellett a sokasági varianciák egyezőségét nem tesszük fel. Ekkor (10.4)-ben sem \(\sigma_X^2\), sem \(\sigma_Y^2\) nem ismert. Ekkor nem a pooled mintabeli varianciával becsüljük ezek értékét, hanem külön-külön a megfelelő mintabeli varianciákkal. Belátható, hogy a normalitás ebben az esetben is sérül, a t eloszlás szabadságfoka pedig az alábbi formulával közelíthető adott minták mellett

\[\begin{equation} \nu = \dfrac{\left(\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}\right)^2}{\left(\frac{s_X^2}{n_X}\right)^2 \frac{1}{n_X-1}+\left(\frac{s_Y^2}{n_Y}\right)^2\frac{1}{n_Y-1}} \tag{10.8} \end{equation}\]

az \(1-\alpha\) megbízhatóságú konfidencia intervallum \(\delta\)-ra a sokaságok normalitását, valamint a sokasági varianciák különbözőségét feltételezve

\[\begin{equation} \overline{x} - \overline{y} \pm {}_{\nu}t_{1-\alpha/2} \sqrt{\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}} \tag{10.9} \end{equation}\] ahol a t eloszlás \(\nu\) szabadságfoka a (10.8) egyenletből adódik.

A (10.7) és a (10.9) formulák igazi jelentőségét az adja, hogy -- az egymintás esethez hasonlóan -- abban az esetben is alkalmazhatók, ha a sokaság eloszlása nem normális, de a minták mérete elegendően nagy. Ahogy azt a 9.2.1. fejezetben is tárgyaltuk, annak meghatározása, hogy mekkora az elegendően nagy, komoly matematikai-statisztikai feladat, a különböző szakirodalmak más-más értéket említenek. Jelen tananyagban a mindkét sokaságból 30 feletti mintaelemszámot már elegendően nagynak tekintjük. Amennyiben a minta alapján a sokaság jelentősen eltér a normális eloszlástól, ennél akár jóval nagyobb mintára is szükség lehet.

Egy felmérés a férfi és női ügyfelek pénzügyi tudatosságát vizsgálja, a közvetlenül a folyószámlán tartott összegen keresztül. Ez a forma ugyan likvid, azonban nem biztosít hozamot. A vizsgálat a bankszámlával rendelkező felnőtt lakosságból mint alapsokaságból rendelkezik egyszerű véletlen mintával. Becsüljük meg a férfiak és nők átlagos folyószámla egyenlegének különbségét 90%-os megbízhatóság mellett!

Jelölje \(X\) a férfiak sokasági egyenleg eloszlását, \(Y\) pedig a hölgyekét. A mintavétel során azt kaptuk, hogy a férfiak átlagos egyenlege \(246\,978\) Ft, míg a nők esetén ez \(332\,739\) Ft. A korrigált mintabeli szórás \(132\,843\) Ft, illetve \(141\,434\) Ft, ami 50 férfi és 40 női ügyfél megkérdezése alapján került kiszámításra.

Az egyenlegek eloszlása ugyan várhatóan nem normális, hanem valószínűleg jobboldali aszimmetriával rendelkezik (néhány extrém nagy egyenleg miatt), a viszonylag nagy mintaelemszám azonban lehetővé teszi, hogy (10.7), illetve (10.9) formulákat alkalmazzuk a sokasági varianciákra vonatkozó feltevésektől függően. A sokasági varianciák összehasonlítása a Statisztikai modellezés tárgy tananyaga, így feladatmegoldás során az alkalmazandó feltételezést explicit módon meg fogjuk adni. Ebben a példában illusztrációként mindkét esetet végigszámoljuk.

Tételezzük fel elsőként a sokasági varianciák egyezőségét, ami a mintabeli szórások hasonlósága miatt nem tűnik rossz feltételezésnek (természetesen a mintavétel miatt a mintabeli szórások akkor sem lesznek teljesen egyenlők, ha a sokasági szórások megegyeznek). Ekkor (10.7) alapján \[ \overline{x} - \overline{y} \pm {}_{n_X+n_Y-2}t_{1-\alpha/2} s_p \sqrt{\frac{1}{n_X}+\frac{1}{n_Y}} = 246\,978 - 332\,739 \pm 227\,272{,}1 \sqrt{\frac{1}{50}+\frac{1}{40}} \] ahol \({}_{88}t_{0{,}95} = 1{,}662\), illetve \[ s_p = \sqrt{\frac{\left(50-1\right)132\,843^2+\left(40-1\right)141\,434^2}{50+40-2}} = 136\,717 \]

Azaz a minta alapján számított konfidencia intervallum alsó határa \(-133\,973\) Ft, felső határa \(-37\,549\) Ft. Ez azt jelenti, hogy a sokasági különbségre vonatkozó becslésünk alapján a nők folyószáma egyenlege magasabb 90%-os megbízhatóság mellett legalább \(37\,549\), legfeljebb \(133\,973\) forinttal. Vegyük észre, hogy mivel a férfiak egyenlegét választottuk \(X\) és a nőkét \(Y\) változónak, a negatív előjelű becslés azt jelenti, hogy a nők egyenlege magasabb. Fordított választás esetén ugyancsak ellentett eredményt kapnánk.

Amennyiben a sokasági varianciák egyezőségét nem tételezzük fel, úgy (10.9) alapján \[ 246\,978 - 332\,739 \pm {}_{81}t_{0{,}95} \sqrt{\frac{132\,843^2}{50}+\frac{141\,434^2}{40}} \] ahol \({}_{81}t_{0{,}95} = 1{,}664\), illetve \[ \nu = \dfrac{\left(\frac{s_X^2}{n_X}+\frac{s_Y^2}{n_Y}\right)^2}{\left(\frac{s_X^2}{n_X}\right)^2 \frac{1}{n_X-1}+\left(\frac{s_Y^2}{n_Y}\right)^2\frac{1}{n_Y-1}} = 81{,}26 \] Azaz a minta alapján számított konfidencia intervallum alsó határa \(-134\,358\) Ft, felső határa \(-37\,164\) Ft.

A fejezetben néhány esetben valószínűségi változókról fogunk beszélni, ezért a pontosság kedvéért itt bevezetünk nagybetűs jelöléseket is.↩︎
Pontosabban szabadságfokokkal, azaz mintaelemszám\(-1\)-gyel.↩︎