2.3 Szóródási mérőszámok

A legfontosabb középértékek áttekintése után figyelmünket egy másik jelenség, a szóródás fogalma felé fordítjuk, ami egyszerűen azt jelenti, hogy a sokasági elemek, megfigyelések egymástól eltérnek, nem azonosak, ennek az eltérésnek a mértékét (a homogenitást, vagy épp a heterogenitást) pedig a statisztika mérni szeretné.

A szóródás mérésére szolgáló néhány mutatót tekintünk át az alábbiakban. A mutatók körét a 3.1. fejezetben tovább bővítjük.

2.3.1 Terjedelem

A legegyszerűbb szóródási mérőszám a terjedelem (\(R\)), ami a sokaság legnagyobb és legkisebb értéke közti távolságot méri:

\[\begin{equation} R=X_{\left(N\right)}-X_{\left(1\right)} \tag{2.11} \end{equation}\]

ahol a már megismert jelöléseket alkalmaztuk. A mutató gyorsan meghatározható, azonban kevéssé robusztus, egyetlen kiugró érték nagy hatással van értékére.

A terjedelem könnyedén számítható: \[ R=X_{\left(N\right)}-X_{\left(1\right)} = 302{,}063 - 12{,}456 = 289{,}607 \]

A legkisebb és legnagyobb márkaérték különbsége tehát mintegy 289,6 milliárd dollár, vagy úgy is fogalmazhatunk, hogy bármely két márkaérték közötti a különbség nem nagyobb mint 289,6 milliárd dollár a TOP100 brand esetén.

2.3.2 Átlagos abszolút eltérés

Az átlagos abszolút eltérés (\(\delta\)) mutatója a szóródás jelenségét már nem az értékek egymástól vett távolsága, hanem egy kitüntetett középértéktől, az átlagtól vett távolság alapján méri, méghozzá ahogy a neve is mutatja, a távolságot abszolút értékként kezelve. Ahogy azt a (2.7) formula alapján láttuk, az abszolút érték nélküli távolságok összege zérus lenne! Az így kialakított képlet:

\[\begin{equation} \delta=\dfrac{1}{N}\sum \left| X_i-\mu \right| \tag{2.12} \end{equation}\]

A mutató mértékegysége a megfigyelt adatok mértékegységével egyezik meg, intuitív, könnyen értelmezhető, nem ideális matematikai tulajdonságai (az abszolút érték függvény nehezen kezelhető sok esetben) miatt azonban nem terjedt el a gyakorlatban.

Az átlagos abszolút eltérés kiszámításához valamennyi sokasági értékből ki kell vonnunk az átlagot, majd a különbségek abszolút értékeinek átlagát kell vennünk:

\[\begin{equation*} \begin{split} \delta & = \dfrac{1}{N}\sum \left| X_i-\mu \right| = \\ & =\dfrac{1}{100} (\left| 302{,}063 - 43{,}83513 \right| + \left| 300{,}595 - 43{,}83513 \right| + \dots + \\ & + \left| 12{,}456 - 43{,}83513 \right|) = 33{,}1659 \end{split} \end{equation*}\]

Az egyes márkaértékek tehát átlagosan 33,17 milliárd dollárral térnek el az átlagos márkaértéktől a TOP100 vállalatot tekintve 2018-ban (abszolút értelemben).

Az átlagos abszolút eltérés esetén jogosan vetődik fel (lásd (2.10)), hogy miért az átlagtól, miért nem a mediántól vett eltérést vizsgáljuk. A statisztikában létezik természetesen ez a mutatószám is, ahogy az átlagos eltéréseket bármely középértéktől, akár a módusztól is vizsgálhatnánk, ezek azonban jóval ritkábban alkalmazott mutatószámok, mint az átlagos abszolút eltérés.

2.3.3 Szórás, variancia

Az abszolút érték függvény helyett az átlagtól való eltérések előjelének kezelésére a négyzetre emelés is hatékony. A mutatót hívhatnánk átlagos négyzetes eltérésnek is, de olyan gyakran alkalmazott mutató (sokak szerint a statisztika nem az átlagok, hanem a szórások tudománya), hogy rövidebb nevet kapott: szórás (\(\sigma\)). A képlete:

\[\begin{equation} \sigma=\sqrt{\frac{1}{N}\sum{\left(X_i-\mu\right)^2}} \tag{2.13} \end{equation}\]

A négyzetre emelések, majd a gyökvonás miatt a mutató mértékegysége szintén megegyezik az eredeti sokasági változó mértékegységével.

Gyakran dolgozik a statisztika a szórás négyzetével, a varianciával (\(\sigma^2\)), ami önmagában nem értelmezhető, a gyökvonás hiánya miatt a mértékegysége sem releváns. Sok összefüggésben azonban a varianciák szerepelnek, így a fogalom megismerése már most fontos.

A variancia kiszámításához valamennyi sokasági értékből ki kell vonnunk az átlagot, majd a különbségek négyzeteinek átlagát kell vennünk. A szórás kiszámításához gyököt kell vonnunk a varianciából.

\[\begin{equation*} \begin{split} \sigma^2 &=\frac{1}{N}\sum{\left(X_i-\mu\right)^2} = \\ &=\dfrac{1}{100} ( \left( 302{,}063 - 43{,}83513 \right)^2 + \left( 300{,}595 - 43{,}83513 \right)^2 + \dots + \\ &+ \left( 12{,}456 - 43{,}83513)^2 \right) = 2911{,}81 \end{split} \end{equation*}\]

A variancia értéke tehát 2911,81, amit nem értelmezünk, a gyöke \(\sigma = 53{,}9612\).

Az egyes márkaértékek tehát átlagosan 53,96 milliárd dollárral térnek el az átlagos márkaértéktől a TOP100 vállalatot tekintve 2018-ban (négyzetes értelemben). Szembetűnő az átlagos abszolút eltérés és a szórás nagyon hasonló értelmezése (de különböző a számszerű érték). A két mutató közötti különbséget a távolság mérésének módja adja.

Már ezen a helyen ki szeretnénk emelni, hogy a (2.13) képlet csak az alapsokaságból számított szórás esetén helytálló. Ahogyan azt a 8.2.3. fejezetben látni fogjuk, a mintából számított szórás képletének logikája a fentitől némileg eltér. A legtöbb szoftverben ezért a szórás kiszámításához két különböző képlet is tartozik.

2.3.4 Relatív szórás

Amint azt láttuk, a szórás mértékegysége megegyezik az eredeti adatokéval, így ha két sokaságot, vagy egy sokaságot két változó heterogenitása, szóródása alapján szeretnénk összehasonlítani, akkor az eltérő mértékegységek, vagy egyszerűen a változók különböző nagyságrendje miatt ezt nem tehetjük meg. A relatív szórás éppen arra szolgál, hogy összehasonlíthatóvá tegyük ezeket a mutatókat. A relatív szórás a sokaság szórását a sokasági átlaghoz viszonyítja, általában százalékos formában értelmezzük, illetve feltesszük, hogy az átlag nem 0.

\[\begin{equation} V=\dfrac{\sigma}{\mu} \tag{2.14} \end{equation}\]

A relatív szórás mutatóját a korábbi eredmények alapján számítjuk ki.

\[ V=\dfrac{\sigma}{\mu} = \dfrac{53{,}9612}{43{,}83513} = 1{,}231 \]

A relatív szórás mutatója 1,23, vagy 123%. Az egyes márkaértékek az átlagos márkaértéktől tehát átlagosan 123%-kal térnek el. Amint azt a példa is mutatja, a mutató értéke akár 1 feletti is lehet, ebben az esetben nagyon erős szóródást, azaz heterogenitást figyelünk meg.

2.3.5 Szórás tulajdonságai

Ebben az alpontban a szórás -- mint a leggyakrabban alkalmazott szóródási mutató -- néhány tulajdonságát, illetve a szóráshoz és a varianciához kapcsolódó összefüggést, fogalmat mutatunk be.

  1. A variancia számlálóját eltérés-négyzetösszegnek nevezzük, angol neve sum of squares, gyakori rövidítése \(SS\). Az eltérés-négyzetösszeg fontos szerepet fog játszani a későbbi tanulmányok során, itt csupán annyit jegyzünk meg, hogy a variancia számlálójában lévő zárójelek felbontásával az alábbi formulát kapjuk:

\[\begin{equation} SS=\displaystyle\sum_{i=1}^N \left(X_i-\mu \right)^2=\sum X_i^2-N\mu^2 \tag{2.15} \end{equation}\]

  1. A (2.15) összefüggésből egyszerűen adódik az ún. variancia átlagfelbontás képlete. A variancia tehát kifejezhető a megfigyelések négyzetes közepének és számtani közepének segítségével, méghozzá a két közép négyzetének különbségeként. A képlet gyakorlati jelentőségét többek közt az adja, hogy számításigénye elmarad a (2.13) formuláétól, így a variancia (és a szórás) meghatározása gyorsabb.

\[\begin{equation} \sigma^2=\dfrac{SS}{N}=\dfrac{\sum_{i=1}^N X_i^2}{N}-\mu^2=\mu_q^2-\mu^2 \tag{2.16} \end{equation}\]

  1. Vizsgáljuk meg az átlaghoz hasonlóan a változó lineáris transzformációjának hatását a varianciára! Mivel a \(b\) konstanssal való eltolás a számtani átlagot is eltolja, pontosan \(b\)-vel (lásd (2.9)), az átlagtól való átlagos eltérések (szórás) nem változnak. Ezzel szemben az \(a\)-val való szorzás \(a^2\)-szeresére változtatja a varianciát és \(\left|a\right|\)-szeresére a szórást. Képletszerűen:

\[\begin{equation} \text{ha } Y=aX+b \text{, akkor } \sigma_{Y}^2=a^2\sigma_{X}^2 \quad \left(!\right) \tag{2.17} \end{equation}\]