8 . fejezet Mintavétel, mintavételi eloszlás
Az előző fejezetekben a valószínűségszámítás alapjaival, illetve néhány nevezetes diszkrét és folytonos eloszlással ismerkedtünk meg. Ebben a fejezetben a következtetéses statisztika alapjait rakjuk le. A következtetéses statisztika mintából következtet a sokaság egészére, így elsőként néhány fontos mintavételi módszert tekintünk át. Továbbá azt vizsgáljuk ebben a fejezetben, hogy adott sokaságból kiválasztható összes mintát figyelembe véve hogyan alakulnak a minta alapján számított jellemzők (pl. átlag, arány, szórás). Míg ezeket a jellemzőket sokaság esetén összefoglalóan paramétereknek nevezzük, mintabeli megfelelőik összefoglaló neve mintabeli statisztika. A különböző mintákból számított mintabeli statisztikák véletlen változóként viselkednek, eloszlásukat mintavételi eloszlásnak nevezzük.
A mintavétel során az alapsokaságra
- jellemző paraméter közelítő értékére, vagy
- megfogalmazott állítás igazságtartalmára, vagy
- vonatkozó modell összefüggéseire
vagyunk kíváncsiak megfelelő módon kiválasztott minta alapján, mert
- nincs elegendő idő, pénz, egyéb erőforrás, vagy
- nem lehetséges
a teljes sokaság felmérése.
Tekintsük a magyar felsőoktatásban tanulók sokaságát. Egy kutatás során kíváncsiak lehetünk arra, hogy átlagosan hány forintot költenek albérletre, vagy arra, hogy körükben milyen egy adott politikai párt támogatottsága (jellemző paraméter közelítő értéke). Egy másik esetben az állíthatjuk, hogy körükben a férfiak és a nők átlagosan azonos időt töltenek tanulással, vagy a már említett párt támogatói azonos arányban vannak a férfiak és nők körében (megfogalmazott állítás), és ezt egy minta alapján próbáljuk ellenőrizni. Még nehezebb a dolgunk, ha azt szeretnénk körükben vizsgálni, hogy a család jövedelme, vagy a hallgató lakóhelye hogyan befolyásolja az albérletre költött összeget (modell összefüggés). Valamennyi esetre elmondható, hogy valamennyi felsőoktatási hallgató megkérdezése rengeteg időbe és pénzbe kerülne, ezért a fenti vizsgálatokat leginkább egy minta alapján reális elvégezni. Más esetekben a teljes sokaság megismerése egyáltalán nem lehetséges, például töréstesztek esetén.
A minta alapján levont következtetés eredménye mindig bizonytalansággal terhelt, egyrészt azért, mert nem a teljes sokaságot ismerjük meg, másrészt egyéb hibaforrások is jelen vannak: nemválaszolás, rossz adat rögzítése, félreértett kérdés, rossz mértékegység használata, stb. Vegyük észre, hogy ezek a potenciális hibák akkor is jelen vannak, ha a teljes sokaságot próbáljuk vizsgálni. A mintavételi hiba és az egyéb hibák közötti jelentős különbség az, hogy a mintavételi hiba bizonytalansága számszerűsíthető. Ebben a fejezetben azzal kezdünk foglalkozni, hogy ez a bizonytalanság hogyan kvantifikálható.
A minta alapján szerzett információ tehát bizonytalan, azonban az üzleti döntéshozatalhoz elengedhetetlen információkat szerezhetünk segítségével. A tananyag hátralévő részében a sokasági paraméter közelítő értékének meghatározásával foglalkozunk, amit szakszóval becslésnek nevezünk. A megfogalmazott állítás igazságtartalma, a hipotézis vizsgálat, és a modellezés témaköre a Statisztikai modellezés tárgy anyagához tartozik.