2.4 Sokasági elhelyezkedés
Gyakori feladat, hogy egy adott megfigyelés sokasági elhelyezkedését kell vizsgálnunk, vagy egy megfigyelés két különböző változó szerinti pozícióját összehasonlítanunk. A leggyakrabban alkalmazott két módszert mutatjuk be röviden.
A z-score az adott egyed átlagtól vett távolságát méri szórásokban, gyakran standardizált értéknek, vagy magyarul sztenderdizált, vagy z-értéknek hívjuk, kiszámítása
\[\begin{equation} Z_i = \dfrac{X_i-\mu}{\sigma} \tag{2.18} \end{equation}\]
módon történik. Amennyiben értéke
- 0, akkor a megfigyelésünk épp átlagos,
- pozitív, akkor a megfigyelésünk átlag feletti,
- 1, akkor a megfigyelésünk épp egy szórásnyival van az átlag felett,
- negatív, akkor a megfigyelésünk átlag alatti,
- \(-1\), akkor a megfigyelésünk épp egy szórásnyival van az átlag alatt.
A sokaság összes megfigyelését sztenderdizálva (a hozzájuk tartozó z-értékeket kiszámítva) egy olyan új, sztenderdizált változót kapunk, amelynek átlaga 0, szórása 1, ezért a sztenderdizált változók különösen alkalmasak arra, hogy két sokaságban található értékek elhelyezkedését hasonlítsuk össze. A z-értékeket gyakran alkalmazzuk kiugró, szokatlan értékek keresésére is. Hüvelykujjszabályként a \(-3\) alatti és 3 feletti értékeket kiugró értéknek tekinthetjük.
Egy másik gyakran alkalmazott transzformáció a minmax normalizálás, azt mutatja meg, hogy az adott érték mennyire esik közel a minimumhoz, illetve a maximumhoz, más szóval a sokaság teljes terjedelmén belül hol helyezkedik el. Kiszámítása a
\[\begin{equation} Y_i=\dfrac{X_i-\min(X)}{\max(X)-\min(X)}=\dfrac{X_i-X_{\left(1\right)}}{X_{\left(N\right)}-X_{\left(1\right)}} \tag{2.19} \end{equation}\]
formulával lehetséges. A formula valamennyi megfigyelést a 0-1 zárt intervallumra transzformál, az 1 közeli értékek a maximumhoz vannak közel, míg a 0 közeliek a minimumhoz.
Vizsgáljuk meg, hogy az Apple márkaértéke hol helyezkedik el a TOP100-on belül. A hozzá tartozó z-érték
\[ Z_i = \dfrac{X_i-\mu}{\sigma} = \dfrac{300{,}595 - 43{,}83513}{53{,}9612} = 4{,}758 \]
azaz az Apple márkaértéke mintegy 4,76 szórásnyival az átlagos márkaérték felett van. Ez azt jelenti, hogy kiugró, nem szokásos értékek közé sorolhatjuk. A minmax normalizált értéke
\[ Y_i=\dfrac{X_i-\min(X)}{\max(X)-\min(X)}=\dfrac{300{,}595-12{,}456}{302{,}063-12{,}456} = 0{,}9949 \]
azaz nagyon közel van az egyes, maximális értékhez.