2.2 Középértékek
A középértékek az adatok tendenciáját, elhelyezkedését próbálják megragadni. A középértékekkel kapcsolatos lehetséges elvárások:
- közepes: ez alatt azt értjük, hogy a sokaság közepére jellemző, nem pedig szélsőséges értéket keresünk,
- tipikus: legyen a középérték jellemző a sokaság elemeire,
- jól értelmezhető: jelentése legyen intuitív, könnyen megérthető,
- egyszerűen meghatározható legyen,
- robusztus: a középérték a sokaság kis megváltozására ne legyen túl érzékeny, azaz stabil legyen.
A középértékek egyike sem felel meg minden kritériumnak, az egyes mutatók egy vagy több szempont szerint jobb, más szempontok szerint gyengébb jellemzőkkel bírhatnak. Az alfejezet végén visszatérünk az elvárásokra az egyes konkrét középértékekkel kapcsolatosan, értékeljük, melyikre melyik a jellemző.
A középértékeket két nagy csoportra szokás bontani:
- számított (számtani, harmonikus, mértani, négyzetes közép) és
- helyzeti (módusz, medián)
középértékeket különböztetünk meg. Az alábbi alfejezetekben a fenti hat középértéket mutatjuk be részletesebben.
2.2.1 Számtani közép
A számított középértékek közül a számtani közép a legismertebb, gyakran nevezzük számtani átlagnak, vagy egyszerűen átlagnak. A számtani közepet \(\mu\)-vel jelöljük, a mindenki által ismert és alkalmazott formula segítségével számítjuk ki alapadatokból:
\[\begin{equation} \mu=\dfrac{\sum_{i=1}^N X_i}{N} \tag{2.1} \end{equation}\]
azaz (ha a sokaság elemei felsorolásként adottak) a sokasági megfigyelések összege, osztva a sokaság elemszámával. A számtani átlag definíciója tulajdonképpen az, hogy a számtani átlagot az eredeti (átlagolandó) értékek helyébe írva az összeg állandó marad. Azaz ha mind az \(N\) megfigyelés \(\mu\) értéket venne fel, akkor az összeg \(N \mu\) értékű, ennek kell megegyeznie az eredeti megfigyelések \(\sum X_i\) összegével. Az egyenlőség felírásából egyszerűen adódik a (2.1) egyenlet.
Amennyiben a sokaság nem az elemei felsorolásával adott, hanem például egy diszkrét numerikus ismérv egy gyakorisági táblázata segítségével, akkor a (2.1) formula ún. súlyozott alakját kell alkalmaznunk, ahol a súlyokat a gyakoriságok adják és a súlyok összege a sokaság elemszámát adja vissza.
\[ \mu=\dfrac{\sum_j F_jX_j}{N} \quad \text{ahol } \sum_j F_j =N \]
Számítsuk ki az átlagos brand értéket a TOP100 márka esetén! \[ \mu=\dfrac{\sum_{i=1}^N X_i}{N} = \dfrac{302{,}063 + 300{,}595+ \dots + 12{,}456}{100} = 43{,}835 \]
Azaz az átlagos márkaérték 2018-ban a TOP100 márkaérték esetén 43,8 milliárd dollár. Más megközelítésben, ha mind a 100 márka esetén 43,8 milliárd dollár lenne a márkaérték, a TOP100-ra összesített márkaérték akkor lenne egyenlő a valóságban megfigyelt összeggel.
2.2.2 Mértani közép
A mértani, vagy geometriai közép azokban az esetekben használatos, amikor nem a megfigyelések összegét szeretnénk, hogy állandó legyen, hanem a szorzatuk, azaz olyan adatok esetén, amikor az összegzés helyett a szorzatszerű összefüggésnek van relevanciája. Elegendő az előző fejezetben megismert láncviszonyszámokra gondolni, ahogy a (1.4) formula esetén is láttuk, szorzatszerűen kapcsolódva a bázisviszonyszámot adják vissza. Logikusan a láncviszonyszámok átlagát mértani középpel számítjuk. A geometriai közép formulája:
\[\begin{equation} \mu_g=\sqrt[N]{\prod_{i=1}^N X_i} \quad X_i > 0 \tag{2.2} \end{equation}\]
azaz valamennyi pozitív megfigyelésünket összeszorozzuk, majd \(N\)-dik gyököt vonunk. A mértani közép esetén fennáll, hogy a mértani közepet az átlagolandó értékek helyébe írva a szorzat állandó marad. Ebben az esetben is előfordulhat, hogy a súlyozott formulára van szükségünk, ha gyakoriságok segítségével állnak rendelkezésre az adatok:
\[ \mu_g=\sqrt[N]{\prod_j X_j^{F_j}} \]
A napi, vagy éves hozamok szorzatszerűen kapcsolódnak egymáshoz, hiszen tulajdonképpen az előző időszaki adathoz hasonlító láncviszonyszámokról van szó: ha a mai hozam 2%-os volt, akkor ez azt jelenti, hogy a pénzügyi eszköz árfolyama 2 százalékkal emelkedett a tegnapi értékhez képest, így a mai láncviszonyszám együtthatós alakja 1,02. Legyen egy adott részvény elmúlt 5 évben realizált éves hozama -10%, 15%, 7%, 3%, 14%. Ekkor az átlaghozam \[ \mu_g=\sqrt[N]{\prod_{i=1}^N X_i} = \sqrt[5]{0{,}9 \cdot 1{,}15 \cdot 1{,}07 \cdot 1{,}03 \cdot 1{,}14} = 1{,}05393 \]
Vegyük észre, hogy a hozamok együtthatós formájával számoltunk, az átlagos hozamra 5,39% adódott. A számtani átlagra ugyanezen adatokból 1,058, azaz 5,8% adódna. Melyik megközelítés ad pontosabb képet? Ennek eldöntésére tegyük fel, hogy 100 dollár értékben vásároltunk részvényt az első év elején. A kezdeti veszteség után emelkedett a részvényünk értéke és az ötödik év végén 130,0368 dollárt ért a befektetésünk. Amennyiben 100 dollárt 5,393%-os éves kamatra helyeztünk volna el a bankban, majd lejáratkor újra és újra befektettünk volna azonos kamatra, pontosan ennyi pénzünk lenne. 5,8%-os éves hozam esetén ez nem áll fenn, a számtani közép itt tehát nem ad pontos képet. A két közép formulával számított eredmény között annál kisebb a különbség, minél közelebb vannak a hozamok a 0-hoz, illetve a láncviszonyszámok az 1-hez. A pénzügy területén gyakran számítanak ún. loghozamokat az elméletileg helyes mértani közép számítás megkerülésére.2.2.3 Harmonikus közép
Ahogyan azt láttuk, a számtani közép esetén az összeg, míg a mértani közép esetén a szorzat állandó. A harmonikus közép esetén ez a kifejezés a reciprokösszeg, aminek első ránézésre nincs nagy gyakorlati haszna, azonban sok esetben ez a megfelelő átlagformula, ha viszonyszámokból kívánunk középértéket meghatározni. Nagyon gyakori hiba ebben az esetben is a számtani közép alkalmazása, amely akár komoly torzításokat is eredményezhet. A pozitív valós számokra értelmezett harmonikus közép formula:
\[\begin{equation} \mu_h=\frac{N}{\sum_{i=1}^N{\frac{1}{x_i}}} \quad X_i > 0 \tag{2.3} \end{equation}\]
illetve súlyozott formájában:
\[ \mu_h=\frac{N}{\sum_j \frac{F_j}{X_j}} \]
Tegyük fel, hogy egy gépkocsi egy órán keresztül 10 km/h, egy órán keresztül 20 km/h, egy órán keresztül pedig 30 km/h sebességgel halad. Mekkora az átlagsebessége? Mivel azonos ideig halad mindhárom különböző sebességgel, súlyozás nélkül, egyszerű számtani közepet számítva válaszolhatunk, hogy az átlagsebesség 20 km/h. Számításunkat ellenőrizhetjük is, az első órában 10, a másodikban 20, a harmadikban 30 km-t tett meg, azaz összesen 60 km-t, 3 óra alatt.
Mi a helyzet, ha a feladatot némileg módosítjuk: egy gépkocsi 10 km-t tesz meg 10 km/h, 10 km-t 20 km/h, újabb 10 km-t 30 km/h sebességgel? Ebben az esetben nem alkalmazhatjuk a számtani közepet, a helyes megoldás nem 20 km/h, hanem a harmonikus közép formuláját kell alkalmaznunk:
\[ \mu_h=\frac{N}{\sum_j \frac{F_j}{X_j}} = \frac{30}{\frac{10}{10}+\frac{10}{20}+\frac{10}{30}} =\frac{30}{1{,}8333}= 16{,}3636 \]
Talán intuitívebb, ha úgy gondoljuk végig: összesen 30 km-t tett meg a gépkocsi, az első 10 km-t 1 óra alatt, a másodikat fél óra alatt, a harmadikat pedig 20 perc alatt, összesen tehát 1 óra 50 percet (1,8333 órát) vett igénybe az út, azaz az átlagsebesség 16,3636 km/h.
A gazdasági életben gyakran van szükség viszonyszámok, hányadosok átlagának meghatározására. A fenti példa emlékeztesse az olvasót arra, hogy ne automatikusan a számtani középre gondoljon! Amennyiben a súlyok a viszonyszám számlálójának mértékegységében vannak megadva, a harmonikus közép a megfelelő átlagformula!2.2.4 Négyzetes közép
A négyzetes, vagy kvadratikus közép esetén a négyzetösszeg állandó. Inkább csak a teljesség kedve miatt említjük meg ezen a helyen, önmagában ritkán alkalmazott közgazdasági területen, a 2.3. fejezetben azonban alkalmazni fogjuk egy fontos szóródási mérőszám esetén, ahol vissza fogunk utalni rá. A kvadratikus közép formulája:
\[\begin{equation} \mu_q=\sqrt{\frac{\sum_{i=1}^N X_i^2}{N}} \tag{2.4} \end{equation}\]
amiben tehát a megfigyelések négyzete szerepel, innen származik a közép elnevezése. A súlyozott formula az alábbi:
\[ \mu_q=\sqrt{\frac{\sum_j F_jX_j^2}{N}} \]
2.2.5 Helyzeti középértékek
A módusz az egyik helyzeti középérték, definíciója szerint a leggyakrabban előforduló sokasági megfigyelés. A módusz leginkább a kevés ismérvváltozattal rendelkező változók esetén alkalmazható. Ez a középérték kivételes olyan szempontból, hogy minőségi ismérvek esetén is alkalmazható. Folytonos mennyiségi ismérvek esetén gyakran előfordul, hogy minden megfigyelésünk egyedi, ilyen esetekben a módusz nem értelmezhető. Más esetekben előfordulhat, hogy több olyan ismérvváltozat van, amihez ugyanaz a legnagyobb gyakoriság tartozik, ilyen esetekben a módusz nem egyedi, azaz több módusz is elképzelhető.
A medián definíciója szerint középső értéket jelent a sorba rendezett sokaságban. A középső elem megtalálásához más-más képletet használunk, ha \(N\) páros (bal oldal), vagy páratlan (jobb oldal).
\[\begin{equation} \text{Me}=\frac{X_{\left(\frac{N}{2}\right)}+X_{\left(\frac{N}{2}+1\right)}}{2} \quad \text{Me}=X_{\left(\frac{N+1}{2}\right)} \tag{2.5} \end{equation}\]
A medián az eredeti adatok mértékegységében azt az értéket adja meg, amelynél a sokaság elemeinek fele nagyobb, fele kisebb. Újfent fel szeretnénk hívni rá a figyelmet, hogy -- a jelöléseknek megfelelően -- a sorba rendezett megfigyelések közül kell kiválasztanunk a középső(ke)t a medián meghatározásához!
A TOP100 brand érték esetén a sorba rendezéssel nincs már dolgunk, hiszen rangsorolva látjuk a megfigyeléseket, pont abból a szempontból (márkaérték), ami alapján mediánt szeretnénk számítani. Mivel \(N=100\) páros, ezért
\[ \text{Me}=\frac{X_{\left(\frac{N}{2}\right)}+X_{\left(\frac{N}{2}+1\right)}}{2} = \frac{X_{\left(50\right)}+X_{\left(51\right)}}{2} = \frac{23{,}633 + 22{,}958}{2} = 23{,}2955 \]
Azaz az 50. helyezett HSBC és az 51. helyezett YouTube márkaértékének az átlagát vesszük, a medián mintegy 23,3 milliárd dollár. Ez azt jelenti, hogy a TOP100 márkák felének 23,3 milliárd dollár alatti, felének pedig ennél több a márkaértéke.
2.2.6 Középértékek tulajdonságai
Ebben a pontban áttekintjük a leggyakrabban használt középértékek néhány fontos tulajdonságát. A pozitív megfigyelésekre számított középértékek esetén érvényes a
\[\begin{equation} \mu_h \leq \mu_g \leq \mu \leq \mu_q \tag{2.6} \end{equation}\]
egyenlőtlenség, azaz azonos adatokon számított harmonikus közép a legkisebb, a kvadratikus pedig a legnagyobb. Természetesen az adatok jellege határozza meg, hogy melyik középértéket alkalmazzuk, ahogy ezt korábban láttuk. Az egyenlőség abban és csak abban az esetben teljesül, ha az átlagolandó értékek megegyeznek.
A számított közepek közül a számtani közép az, amit a legtöbb gazdasági életben előforduló ismérv esetén alkalmazunk. A fejezet elején említett szempontok szerint vizsgáljuk meg tehát a számtani közepet, valamint a két helyzeti középértéket (az értelmezhetőség és a könnyű kiszámíthatóság követelményének mindhárom mutató megfelel). Definíció szerint a medián közepes, a másik két középértékről ez nem feltétlenül mondható el. A módusz tipikus, de a számtani közép és a medián akár olyan értéket is felvehet, ami a sokaságban nem található meg. A két helyzeti középérték robusztus, egy, vagy néhány kiugró érték nem, vagy csak alig befolyásolja értéküket, ami a számtani középről nem mondható el. A fentieket foglalja össze az alábbi táblázat.
közepes | tipikus | robusztus | |
---|---|---|---|
számtani közép | nem feltétlenül | nem feltétlenül | nem |
módusz | nem feltétlenül | igen | igen |
medián | igen | nem feltétlenül | igen |
Összességében tehát úgy tűnik, hogy a számtani közép, vagy rövidebben átlag nem teljesít túl jól a vizsgált szempontokból, mégis ez a leggyakrabban alkalmazott középérték, amit talán az alábbiakban bemutatott jellemzők némileg magyaráznak:
- az átlagtól mért eltérések összege zérus: könnyen belátható, hogy ha minden sokasági érték távolságát előjelesen megmérjük az átlagtól, akkor nullát kapunk
\[\begin{equation} \left(X_1-\mu\right)+\left(X_2-\mu\right)+ \dots + \left(X_N-\mu\right)=\displaystyle\sum_{i=1}^N X_i - N\mu=0 \tag{2.7} \end{equation}\]
- négyzetes minimum: ez a tulajdonság a következő tényt takarja: ha azt a számot keressük, amelyik (négyzetes értelemben) egyszerre van a legközelebb minden sokasági megfigyeléshez, akkor az pontosan a számtani közép
\[\begin{equation} \left(X_1-A\right)^2+\left(X_2-A\right)^2+ \dots + \left(X_N-A\right)^2 \rightarrow \min \Rightarrow A=\mu_X \tag{2.8} \end{equation}\]
- lineáris transzformálhatóság: amennyiben az \(X\) változót lineárisan transzformáljuk (konstanssal eltoljuk (\(b\)) és szorozzuk (\(a\))), akkor az új \(Y\) változó számtani közepe kiszámítható azonos transzformált segítségével
\[\begin{equation} \mu_Y=a\mu_X+b \tag{2.9} \end{equation}\]
Az utolsó tulajdonság a számtani középre, valamint a helyzeti középértékekre is igaz, de a többi számított középértékre nem!
Itt jegyezzük meg, hogy amennyiben a négyzetes távolság helyett az abszolút távolságot minimalizáljuk a (2.8) képlethez hasonlóan, azaz a
\[\begin{equation} \left|X_1-A\right|+\left|X_2-A\right|+ \dots + \left|X_N-A\right| \rightarrow \min \Rightarrow A=\text{Me} \tag{2.10} \end{equation}\]
minimumot keressük, akkor kiderül, hogy a kifejezést minimalizáló érték pontosan a medián.Összefoglalva: a középértékekkel kapcsolatosan meg kell jegyeznünk, hogy a leggyakrabban használt középérték a számtani közép, vagy átlag, elsősorban kedvező matematikai tulajdonságai miatt. Nem szabad azonban elfeledkeznünk a mediánról sem, amely az átlaggal ellentétben nem érzékeny a kiugró értékekre, így olyan sokaságok esetén, ahol ez elképzelhető, érdemes az átlag mellett a medián közlése is. A két alapvető helyzeti középérték mutató egymáshoz viszonyított elhelyezkedése is fontos jellemzőit mutatja meg a sokaságnak, ahogy azt a későbbiekben látni fogjuk.