9.3 Mintaelemszám tervezés
Az előző, 9.2. fejezetben néhány sokasági paraméterre vonatkozó becslési eljárást tekintettünk át. Néha az adott minta alapján kapott intervallum túl széles, azaz a becslésünk túl pontatlan. Ezen többek között további mintavételezés segíthet. Más esetekben előre, a kísérlet megkezdése előtt rögzített a tolerálható hiba mértéke. Az ebben a fejezetben taglalt formulák abban segítenek, hogy ezekben a szituációkban hogyan számítsuk ki a szükséges minta nagyságát. A formulák természetesen különbözők abban az esetben, ha várható értékre és ha arányra vonatkozó a feladat, illetve az is fontos szempont, hogy FAE (végtelen nagy sokaság és/vagy visszatevéses minta), vagy EV mintavétel (véges sokaság, visszatevés nélkül) történik-e.
Egy normális eloszlású, ismert \(\sigma^2\) varianciájú, ismeretlen \(\mu\) várható értékű alapsokaságból vett \(n\) elemű minta esetén az \(1-\alpha\) megbízhatóságú konfidencia intervallum (9.5) alapján
\[ \overline{x} \pm z_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} = \overline{x} \pm \Delta_{\overline{X}} \] amiből ha ismert \(\Delta_{\overline{X}}\), akkor egyszerű algebrai átalakítások segítségével azt kapjuk, hogy
\[\begin{equation} n = \frac{z_{1-\alpha/2}^2 \sigma^2}{\Delta_{\overline{X}}^2} \tag{9.11} \end{equation}\]
Ez a mintaelemszám választás biztosítja, hogy a konfidencia intervallum hossza a kívánt határértéken belül marad. A képlet nem garantálja, hogy az eredmény egész szám legyen, így a gyakorlatban a (9.11) formula eredményét felfelé kerekítjük.
Az arányra vonatkozó mintaelemszám hasonló logika mentén határozható meg, felhasználva az arányra vonatkozó standard hibát
\[\begin{equation} n = \frac{z_{1-\alpha/2}^2 \pi(1-\pi)}{\Delta_{P}^2} \tag{9.12} \end{equation}\]
ami azonban közvetlenül nem használható, hiszen a képlet tartalmazza a keresett \(0 < \pi <1\) binomiális paramétert, ami a mintaelemszám tervezésekor még nem lehet ismert. A \(\pi\) paraméter helyett használhatunk a sokasági arányra vonatkozó korábbi információt, vagy szakértői becslést, ami természetesen nem lesz tökéletesen pontos, azonban a mintaelemszám tekintetében hozzávetőleges értéket adhat. A másik lehetőség a \(\pi(1-\pi)\) függvény már említett tulajdonságának kihasználása, amiről tudjuk, hogy értékének maximuma a 0-1 intervallumon 0,25. Amennyiben tehát nem rendelkezünk információval a sokasági arányról, a legrosszabb esetet feltételezhetjük és a \(\pi(1-\pi) = 0{,}25\) helyettesítéssel élhetünk. Amennyiben a megbízhatóságot 95,5%-osnak választjuk, a (9.12) formula még tovább egyszerűsödik, hisz ekkor \(z_{1-\alpha/2}\) értéke pontosan 2. Ebben a speciális esetben tehát a klasszikus, könnyen megjegyezhető
\[\begin{equation} n = \frac{1}{\Delta_{P}^2} \tag{9.13} \end{equation}\] formulát alkalmazhatjuk.
A (9.11) és (9.12) formulák tehát abban az esetben alkalmazandók, ha \(N\) ismeretlen, vagy nagyon nagy. Ha ismert a sokaság elemszáma, akkor a mintaelemszám tervezésekor érdemes ezt is figyelembe venni, főként ha a kiválasztási arány várhatóan viszonylag nagy lesz. Ezekben az esetekben a mintaelemszám tervezés teljesen analóg módon a (9.7) és (9.10) formulákból indulunk ki, és a feladat \(n\) kifejezése adott hibahatár mellett. A feladatot az bonyolítja kissé, hogy \(n\) két helyen is megjelenik. Belátható azonban, hogy ha \(n_0\) jelöli a FAE hibahatár alapján számított szükséges mintaelemszámot, akkor a véges szorzó miatti korrekció a
\[\begin{equation} n = \frac{n_0}{1 + \frac{n_0 - 1}{N}} \tag{9.14} \end{equation}\]
módon végezhető el12. A korábbiakhoz hasonlóan (9.13) sem feltétlenül egész számot ad eredményül, így a végeredményt felfelé kerekítjük a gyakorlatban. Vegyük észre, hogy a módosított mintaelemszám \(n_0\) értékénél releváns esetben kisebb, hiszen \(n_0\)-t egy 1-nél nagyobb számmal osztjuk. A korrekció annál nagyobb, minél nagyobb a tervezett mintavételi arány.
Egy közvéleménykutatás során 2 százalékpontos pontossággal szeretnénk meghatározni egy adott párt támogatottságát egy kisvárosban, 90%-os megbízhatóság mellett. Mivel egy arány meghatározásáról van szó, ezért (9.12) formulából indulunk ki. Tegyük fel továbbá, hogy semmiféle információval nem rendelkezünk \(\pi\) értékéről, így a legrosszabb forgatókönyvvel, \(\pi = 0{,}5\)-tel számolunk. Ekkor
\[ n = \frac{z_{1-\alpha/2}^2 \pi(1-\pi)}{\Delta_{P}^2} = \frac{1{,}645^2 \times 0{,}5(1-0{,}5)}{0{,}02^2} = 1690{,}96 \] azaz 1691 elemű mintát javasolhatunk. Mivel a \(\pi(1-\pi)\) kifejezés maximumával számoltunk, ha a párt támogatottsága nagyon alacsony, vagy nagyon magas, akkor ennél kisebb minta is elegendő lehet, vagy a másik oldalról megközelítve: ez a mintaelemszám 2 százalékpontnál alacsonyabb hibahatárt is eredményezhez. Abban az esetben, ha rendelkezünk megbízható szakértői becsléssel \(\pi\) értékéről, természetesen azt is alkalmazhatjuk.
Tegyük fel továbbá, hogy tudjuk, a kisvárosban \(N = 20\,000\) választópolgár él. Ekkor a szükséges mintaelemszám az előző eredmény és (9.14) korrekció segítségével \[ n = \frac{n_0}{1 + \frac{n_0 - 1}{N}} = \frac{1690{,}96}{1 + \frac{1690{,}96 - 1}{20000}} = 1559{,}21 \] azaz a sokaság elemszámát figyelembe véve azt kapjuk, hogy visszatevés nélkül elegendő 1560 választópolgár megkérdezése, még a legrosszabb esetben is.Ahogy említettük, a véges szorzó közelítő értéke, \(1-\frac{n}{N}\) a korrekcióra ezzel \(n = \frac{n_0}{1 + \frac{n_0}{N}}\) adódik. Sok tankönyvben ez szerepel \(n_0\) behelyettesítésével az átlag és az arány esetére.↩︎