1.4 Sorok, táblázatok
Statisztikai sornak hívjuk az egyedek egy szempont szerinti jellemzését. A statisztikai sor egyrészt a valamely vizsgálandó ismérv szerinti ismérvváltozatokat, valamint a hozzájuk tartozó statisztikai mutatókat tartalmazza. Attól függően, hogy a kiválasztott statisztikai mutató összegezhető-e, megkülönböztetünk
- összehasonlító és
- csoportosító
sorokat.
A legegyszerűbb ilyen statisztikai mutató a gyakoriság, amit egyszerű leszámlálással nyerünk. A következő fejezetekben újabb statisztikai mutatókat fogunk megismerni (pl. átlag, módusz, medián, szórás, stb.), amik segítségével szintén képezhetünk sorokat, most azonban csak a gyakoriságokat (\(F_j\)) tartalmazó sorokat tekintjük át. Mivel a gyakoriságok jellemzően összegezhetőek, ezért csoportosító sorokról beszélünk. Amennyiben \(J\) csoportot hozunk létre (azaz \(J\) különböző ismérvváltozata van a vizsgálandó változónak, melyeket jelöljünk \(A_j\)-vel), úgy a gyakorisági sor általános formája:
ismérvváltozat | gyakoriság |
---|---|
\(A_1\) | \(F_1\) |
\(A_2\) | \(F_2\) |
\(\dots\) | \(\dots\) |
\(A_j\) | \(F_j\) |
\(\dots\) | \(\dots\) |
\(A_J\) | \(F_J\) |
összesen | \(N\) |
Vizsgálhatjuk a korábban megismert TOP100 adatállományt a vállalat fő profilja szerint, ekkor a gyakorisági sor az alábbi:
kategória | gyakoriság |
---|---|
Pénzügy | 21 |
Technológia | 20 |
Telekommunikációs szolgáltatás | 11 |
Kiskereskedelem | 10 |
\(\dots\) | \(\dots\) |
Babaápolás | 1 |
Dohány | 1 |
Szállítás | 1 |
Összesen | 100 |
A gyakorisági sort jelen esetben a gyakoriságok szerint csökkenő sorban közöltük, ami gyakran kényelmesebb, gyorsabb értelmezést, elemzést tesz lehetővé.
Gyakorisági sorokat jellemzően kevés ismérvváltozattal rendelkező változó esetén készítünk, hiszen ekkor lesz átlátható, informatív a sor. A leggyakrabban ezek tehát kategóriás változók vagy diszkrét mennyiségi ismérvek. Lehetséges folytonos mennyiségi ismérvek esetén is gyakorisági sorokat készíteni, ebben az esetben azonban hasznosabb a mennyiségi ismérvet kategorizálni, erről részletesebben az osztályközös gyakorisági sorokról szóló 3.2. fejezetben szólunk.
A statisztikai sorok között szokás megemlíteni a leíró sort, ami különböző, de összefüggő statisztikai adatok egyszerű felsorolását jelenti. Ezek a sorok sok esetben egy elemzés eredményét jelenthetik, ami természetesen egy újabb elemzés bemenő adataként is szolgálhat, például intenzitási viszonyszámokat számíthatunk leíró sorok alapján (1.5.4. fejezet).
Az alábbi táblázat Magyarország néhány makrogazdasági adatát tartalmazza a 2020. évre vonatkozóan. Az adatok forrása a KSH.
mutató | érték |
---|---|
Házasságkötések száma az év első felében | 26793 |
Élveszületések száma az év első felében | 44302 |
Halálozások száma az év első felében | 64657 |
A GDP (nyers) volumenindexe a II. negyedévben | 86,4% |
Munkanélküliségi ráta a II. negyedévben | 4,6% |
Foglalkoztatási ráta a II. negyedévben | 68,7% |
Statisztikai táblázatnak nevezzük több statisztikai sor összefüggő rendszerét. A statisztikai táblázatok sokkal komplexebb elemzésekre adnak lehetőséget a statisztikai sorokhoz képest. Attól függően, hogy hány sort tartalmaznak, azaz hány változó szerinti információt tartalmaznak, beszélünk dimenziószámról (ilyen értelemben a statisztikai sor egy egydimenziós statisztikai táblázat). A gyakorlatban az átláthatóság miatt leginkább két- és háromdimenziós táblázatokat alkalmazunk. A táblázat típusa a csoportosító sorok száma szerint lehet:
- egyszerű (nincs csoportosító sor);
- csoportosító (pontosan egy csoportosító sor);
- kombinációs (kettő, vagy több csoportosító sor).
A sorokhoz hasonlóan gyakran használunk gyakoriságokat a táblázatok esetén is (azaz a gyakoriságokat nem egy, hanem több szempont együttes figyelembevételével határozzuk meg), a kétdimenziós gyakorisági táblázat általános sémája a 1.8. táblázatban látható (ahol az \(A\) változónak \(J\), míg a \(B\) változónak \(M\) darab különböző ismérvváltozata van):
ismérvváltozat | \(B_1\) | \(B_2\) | \(\dots\) | \(B_M\) | összesen |
---|---|---|---|---|---|
\(A_1\) | \(F_{11}\) | \(F_{12}\) | \(\dots\) | \(F_{1M}\) | \(F_{1.}\) |
\(A_2\) | \(F_{21}\) | \(F_{22}\) | \(\dots\) | \(F_{2M}\) | \(F_{2.}\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(A_j\) | \(F_{j1}\) | \(F_{j2}\) | \(\dots\) | \(F_{jM}\) | \(F_{j.}\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(A_J\) | \(F_{J1}\) | \(F_{J2}\) | \(\dots\) | \(F_{JM}\) | \(F_{J.}\) |
összesen | \(F_{.1}\) | \(F_{.2}\) | \(\dots\) | \(F_{.M}\) | \(N\) |
A gyakoriságokat tartalmazó táblázatokat kontingenciatáblázatnak nevezzük. Az utolsó sorban és oszlopban az összesített gyakoriságokat tüntetjük fel.
A korábbi példánkban a TOP100 brandet csak a vállalati kategória alapján vizsgáltuk. Amennyiben a régiót is figyelembe kívánjuk venni, gyakorisági sor helyett gyakorisági táblázatot kapunk.
kategória/régió | Ausztrália | Ázsia | É-Amerika | Európa | Összesen |
---|---|---|---|---|---|
Pénzügy | 2 | 6 | 11 | 2 | 21 |
Technológia | 4 | 16 | 20 | ||
Telekom. | 1 | 6 | 4 | 11 | |
Kisker. | 2 | 6 | 2 | 10 | |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
Babaápolás | 1 | 1 | |||
Dohány | 1 | 1 | |||
Szállítás | 1 | 1 | |||
Összesen | 2 | 21 | 58 | 19 | 100 |