8.1 Mintavételi módszerek

A mintavételi módszerek széles tárháza áll a kutatást végzők rendelkezésére, valamennyi módszer bemutatása meghaladja a tananyagunk kereteit. A mintavételi módszereket két nagy csoportba soroljuk, majd a minta reprezentativitásáról ejtünk néhány szót.

8.1.1 Véletlen mintavételi módszerek

A véletlen mintavételi módszerek közös jellemzője, hogy a sokaság elemei előre meghatározható (nem feltétlenül azonos) valószínűséggel kerülnek a mintába. A véletlen mintavételi módszereknek ez a tulajdonsága lehetővé teszi, hogy a mintavételhez kapcsolódó bizonytalanságot számszerűsítsük, így elsősorban az ilyen mintavételek eredményeiből levonható következtetést tárgyaljuk.

Véletlen mintavételi módszerek közül az alábbiakat említjük meg:

  • független azonos eloszlású (FAE): a FAE mintavétel feltétele, hogy rendelkezésünkre álljon egy lista a sokaság elemeiről, majd pl. véletlenszámok generálásával kiválasztjuk a megvizsgálandó sokasági elem sorszámát. A mintavételt visszatevéssel végezzük, azaz egy sokasági elem akár többször is a mintába kerülhet. A FAE mintavétel nem elsősorban gyakorlati szempontból fontos, hanem matematikai kezelhetősége miatt. A gyakorlatban gyakran a végtelen nagy sokaságból kiválasztott mintákat is FAE mintaként kezeljük, természetesen ilyenkor a véletlen kiválasztást valami más módszerrel kell biztosítanunk.
  • egyszerű véletlen: az egyszerű véletlen mintavétel nagyon hasonló a FAE mintához, azonban a kiválasztás visszatevés nélkül történik. Ennek a módszernek nagyobb a gyakorlati jelentősége, mint a FAE mintavételnek.
  • rétegzett: amennyiben rétegzett mintavételt szeretnénk végezni, a sokasági egyedekről más -- lehetőleg a vizsgálandó ismérvvel összefüggő -- úgynevezett rétegképző ismérveket is ismernünk kell, amiket a kiválasztás során figyelembe is veszünk, de maga a kiválasztás véletlenül történik. A rétegképző ismérvek segíthetnek abban, hogy a mintánk összetétele emlékeztessen a sokaság összetételére, illetve abban is, hogy bizonyos esetekben hatékonyabban2 tudjuk a becslést elvégezni. A túl sok változó szempontjából történő rétegzésnek gátat szab, hogy a rétegek száma az ismérvváltozatok számának szorzata szerint alakul. A rétegzés oka lehet egyszerűen az is, hogy pl. nem csak országos, de régiós bontású adatokra is szükség van, és rétegzéssel biztosítjuk a megfelelő mintaelemszámot valamennyi régió (réteg) esetén.
  • csoportos és többlépcsős: gyakran egy teljes sokaságról nem rendelkezünk listával, azonban a sokaság csoportokra bontható és a csoportokról rendeklezünk információval, más esetekben pedig olcsóbb, illetve gyorsabb a csoportos kiválasztás. Csoportos mintavétel esetén a csoportok közül választunk ki néhányat véletlenszerűen, majd a kiválasztott csoportban minden egyedet felmérünk. Ez a mintavételi módszer azonos mintaelemszám mellett kevésbé hatékony, azonban ahogy már említettük, sok esetben egyszerűbben kivitelezhető. Többlépcsős mintavételről akkor beszélünk, ha több, egymásba ágyazott csoportba sorolhatók a sokasági egyedeink.

Tegyük fel, hogy az általános iskolások matematikai képességeit szeretnénk felmérni. A Minisztérium rendelkezik egy listával, amiről véletlenül kiválaszthatjuk a tesztet kitöltő iskolásokat. Ebben a példában a visszatevéses mintavétel nem életszerű, vegyük azonban észre, hogy a visszatevés nélküli mintavétel sem változtatja meg túlságosan a sokaságot, feltéve, hogy a mintavételi arány nem túlságosan nagy. Rétegzett mintavétel esetén például nem és régió szerint rétegzést alkalmazva biztosítható, hogy valamennyi rétegre megfelelő mintánk, így adataink fognak rendelkezésre állni. Csoportos mintavételt például az iskolák közüli véletlen választás, majd az adott iskola teljes felmérése jelentene, míg a többlépcsős mintavétel esetén pl. az iskolákon belül osztályokat is választanánk. Ez utóbbi megoldások természetesen sokkal olcsóbbak és egyszerűbbek, statisztikai szempontból azonban kevésbé hatékonyak, így nagyobb mintára lehet szükség. A mintavételi módszer kiválasztása komoly gyakorlati feladat a statisztikai munkában.

A tankönyvben a független azonos eloszlású mintát eredményező és az egyszerű véletlen mintavétellel foglalkozunk részletesebben, mert ezek a leginkább elterjedtek, illetve matematikailag a legegyszerűbben kivitelezhetők. Ne feledjük ugyanakkor, hogy a komplexebb mintavételi módok esetén általában jobb eredményeket kapunk.

8.1.2 Nem véletlen mintavételi módszerek

A nem véletlen mintavételi módszerek esetén a mintába kerülés valószínűsége nem határozható meg, így a mintavételből fakadó hiba számszerűsítése sem oldható meg, ezért a következő fejezetekben bemutatott módszerek sem alkalmazhatók. Ez sajnálatos módon azt jelenti, hogy a kapott eredmények megbízhatóságát nem tudjuk megítélni, így komoly kutatások nem épülnek ilyen technikákra.

Nem véletlen mintavételi módszerek közül az alábbiakat említjük meg:

  • kvóta szerinti
  • koncentrált
  • önkényes
  • hólabda

A fogyasztói árak változását a Központi Statisztikai Hivatal méri hónapról hónapra. Az egyes termékkategóriák (pl. pékáruk) árát olyan termékek alapján mérik, melyek a legfontosabbak (pl. egy kilogrammos fehér kenyér), azaz a kiválasztás nem véletlenszerű. Ennek megfelelően a számított index mintavételi bizonytalanságát nem is számszerűsíti a Hivatal. A hólabda módszer jellemzően az online felmérésekhez kötődik, melyben a résztvevőket arra kérik, hogy ismerőseiket, barátaikat is kérjék meg a kérdőív kitöltésére, ilyen módon felhízlalva a mintát.

Az adatok gyűjtésének technikai módszerei is igen eltérőek lehetnek. A személyes megkeresés sok szempontból nagyon hatékony (jobb válaszadási hajlandóság, a kérdés magyarázata szükség szerint, stb), azonban kifejezetten költséges módszer. A telefonon, vagy levélen keresztül történő mintavételezés olcsóbb ugyan, azonban jellemzően magasabb a nemválaszolási arány, illetve lehetnek olyan rétegek (a társadalom alsó és felső peremén is), akiket nem lehetséges ilyen módokon elérni. Az informatikai eszközök térnyerésével az elektronikus módszerek is egyre könnyebben elérhetők, de ne felejtsük el, hogy ezekkel az eszközökkel sokkal inkább a nem véletlen mintavételi módszerek felé terelhetjük a kutatásunkat. A kérdőív online megosztásánál nagyon gyakori torzítás az önkiválasztás, azaz maga a kitöltő dönti el, hogy kitölti-e a kérdőívet. Könnyen belátható, hogy az adott témában érdeklődő egyén nagyobb valószínűséggel tölti ki azt, így a levonható összkép nem lesz valós.

8.1.3 Reprezentativitás

Az 1. fejezetben már szóba került a szelekciós torzítás fogalma, mely alatt azt értjük, hogy a sokaság bizonyos részei nem -- vagy nem megfelelő valószínűséggel -- kerülnek a mintába, vagy fordítva, olyanok is a mintánkba kerülnek, akik a vizsgálni kívánt sokaságban nincsenek benne. Reprezentativitás alatt általánosabb értelemben azt értjük, hogy a mintavételi módszerünk biztosítja, hogy a minta jól leírja a sokaságot egy adott vizsgálat céljainak szempontjából. Kiemelendő tehát, hogy önmagában nem beszélhetünk reprezentativitásról, az mindig valamilyen változó, vagy változók szempontjából értelmezhető. A minta mérete és reprezentativitása nem keverendő össze.


  1. Ez azt jelenti, hogy azonos mintaelemszám mellett szűkebb konfidencia intervallumot tudunk képezni az adott paraméterre, mint pl. a FAE mintavétel segítségével. Ez abban az esetben lehetséges, ha a rétegképző ismérv kapcsolatban áll a becsülni kívánt változóval.↩︎