1.4 Sorok, táblázatok

Statisztikai sornak hívjuk az egyedek egy szempont szerinti jellemzését. A statisztikai sor egyrészt a valamely vizsgálandó ismérv szerinti ismérvváltozatokat, valamint a hozzájuk tartozó statisztikai mutatókat tartalmazza. Attól függően, hogy a kiválasztott statisztikai mutató összegezhető-e, megkülönböztetünk

  • összehasonlító és
  • csoportosító

sorokat.

A legegyszerűbb ilyen statisztikai mutató a gyakoriság, amit egyszerű leszámlálással nyerünk. A következő fejezetekben újabb statisztikai mutatókat fogunk megismerni (pl. átlag, módusz, medián, szórás, stb.), amik segítségével szintén képezhetünk sorokat, most azonban csak a gyakoriságokat (\(F_j\)) tartalmazó sorokat tekintjük át. Mivel a gyakoriságok jellemzően összegezhetőek, ezért csoportosító sorokról beszélünk. Amennyiben \(J\) csoportot hozunk létre (azaz \(J\) különböző ismérvváltozata van a vizsgálandó változónak, melyeket jelöljünk \(A_j\)-vel), úgy a gyakorisági sor általános formája:

Táblázat 1.5: A gyakorisági sor általános alakja
ismérvváltozat gyakoriság
\(A_1\) \(F_1\)
\(A_2\) \(F_2\)
\(\dots\) \(\dots\)
\(A_j\) \(F_j\)
\(\dots\) \(\dots\)
\(A_J\) \(F_J\)
összesen \(N\)

Vizsgálhatjuk a korábban megismert TOP100 adatállományt a vállalat fő profilja szerint, ekkor a gyakorisági sor az alábbi:

Táblázat 1.6: A TOP 100 vállalat kategória szerinti gyakorisági sora
kategória gyakoriság
Pénzügy 21
Technológia 20
Telekommunikációs szolgáltatás 11
Kiskereskedelem 10
\(\dots\) \(\dots\)
Babaápolás 1
Dohány 1
Szállítás 1
Összesen 100

A gyakorisági sort jelen esetben a gyakoriságok szerint csökkenő sorban közöltük, ami gyakran kényelmesebb, gyorsabb értelmezést, elemzést tesz lehetővé.

Gyakorisági sorokat jellemzően kevés ismérvváltozattal rendelkező változó esetén készítünk, hiszen ekkor lesz átlátható, informatív a sor. A leggyakrabban ezek tehát kategóriás változók vagy diszkrét mennyiségi ismérvek. Lehetséges folytonos mennyiségi ismérvek esetén is gyakorisági sorokat készíteni, ebben az esetben azonban hasznosabb a mennyiségi ismérvet kategorizálni, erről részletesebben az osztályközös gyakorisági sorokról szóló 3.2. fejezetben szólunk.

A statisztikai sorok között szokás megemlíteni a leíró sort, ami különböző, de összefüggő statisztikai adatok egyszerű felsorolását jelenti. Ezek a sorok sok esetben egy elemzés eredményét jelenthetik, ami természetesen egy újabb elemzés bemenő adataként is szolgálhat, például intenzitási viszonyszámokat számíthatunk leíró sorok alapján (1.5.4. fejezet).

Az alábbi táblázat Magyarország néhány makrogazdasági adatát tartalmazza a 2020. évre vonatkozóan. Az adatok forrása a KSH.

Táblázat 1.7: Leíró sor Magyarország néhány makrogazdasági adatával
mutató érték
Házasságkötések száma az év első felében 26793
Élveszületések száma az év első felében 44302
Halálozások száma az év első felében 64657
A GDP (nyers) volumenindexe a II. negyedévben 86,4%
Munkanélküliségi ráta a II. negyedévben 4,6%
Foglalkoztatási ráta a II. negyedévben 68,7%

Statisztikai táblázatnak nevezzük több statisztikai sor összefüggő rendszerét. A statisztikai táblázatok sokkal komplexebb elemzésekre adnak lehetőséget a statisztikai sorokhoz képest. Attól függően, hogy hány sort tartalmaznak, azaz hány változó szerinti információt tartalmaznak, beszélünk dimenziószámról (ilyen értelemben a statisztikai sor egy egydimenziós statisztikai táblázat). A gyakorlatban az átláthatóság miatt leginkább két- és háromdimenziós táblázatokat alkalmazunk. A táblázat típusa a csoportosító sorok száma szerint lehet:

  • egyszerű (nincs csoportosító sor);
  • csoportosító (pontosan egy csoportosító sor);
  • kombinációs (kettő, vagy több csoportosító sor).

A sorokhoz hasonlóan gyakran használunk gyakoriságokat a táblázatok esetén is (azaz a gyakoriságokat nem egy, hanem több szempont együttes figyelembevételével határozzuk meg), a kétdimenziós gyakorisági táblázat általános sémája a 1.8. táblázatban látható (ahol az \(A\) változónak \(J\), míg a \(B\) változónak \(M\) darab különböző ismérvváltozata van):

Táblázat 1.8: A gyakorisági táblázat általános alakja
ismérvváltozat \(B_1\) \(B_2\) \(\dots\) \(B_M\) összesen
\(A_1\) \(F_{11}\) \(F_{12}\) \(\dots\) \(F_{1M}\) \(F_{1.}\)
\(A_2\) \(F_{21}\) \(F_{22}\) \(\dots\) \(F_{2M}\) \(F_{2.}\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(A_j\) \(F_{j1}\) \(F_{j2}\) \(\dots\) \(F_{jM}\) \(F_{j.}\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(A_J\) \(F_{J1}\) \(F_{J2}\) \(\dots\) \(F_{JM}\) \(F_{J.}\)
összesen \(F_{.1}\) \(F_{.2}\) \(\dots\) \(F_{.M}\) \(N\)

A gyakoriságokat tartalmazó táblázatokat kontingenciatáblázatnak nevezzük. Az utolsó sorban és oszlopban az összesített gyakoriságokat tüntetjük fel.

A korábbi példánkban a TOP100 brandet csak a vállalati kategória alapján vizsgáltuk. Amennyiben a régiót is figyelembe kívánjuk venni, gyakorisági sor helyett gyakorisági táblázatot kapunk.

Táblázat 1.9: A TOP100 vállalat kategória és régió szerinti gyakorisági táblázata
kategória/régió Ausztrália Ázsia É-Amerika Európa Összesen
Pénzügy 2 6 11 2 21
Technológia 4 16 20
Telekom. 1 6 4 11
Kisker. 2 6 2 10
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
Babaápolás 1 1
Dohány 1 1
Szállítás 1 1
Összesen 2 21 58 19 100
Érdekes megfigyelni az észak-amerikai vállalatok túlsúlyát, vagy Európa lemaradását a technológiai szektorban Észak-Amerikával és Ázsiával szemben.