1.3 Adatállományok

Az egyes egyedek valamennyi változó szerinti rendszerezett felsorolását adatállománynak nevezzük. Az adatállományokban jellemzően jóval több az egyed, vagy megfigyelés, mint a változó, ezért konszenzusos alapon a sorokban helyezkednek el a megfigyelések, míg a változók az adatállomány oszlopait alkotják. A változókat nagybetűvel, általában \(X, Y, Z\)-vel jelöljük. Az adatállományban tárolt adatok jellemzői alapján három nagy csoportot különböztetünk meg:

  • idősoros adatállomány: a változó értékeinek időrendi (általában állandó frekvenciájú - ekvidisztáns) felsorolása
  • keresztmetszeti adatállomány: több egyed jellemzőinek egy időszakra, vagy időpontra vonatkozó felsorolása
  • panel adatállomány: több egyed jellemzőinek több időszakra, vagy időpontra vonatkozó felsorolása

Jelen tananyag elsősorban keresztmetszeti adatállományok elemzésével foglalkozik, idősoros adatállományokkal csak a legegyszerűbb elemzések erejéig. Az idősoros adatállományokkal a Statisztikai modellezés, majd mesterképzésen a különböző ökonometria tárgyakban találkoznak a hallgatók. A panel adatállományok -- melyek ötvözik az idősoros és a keresztmetszeti adatok jellemzőit -- tárgyalása a doktori képzés tananyagát képezheti.

A keresztmetszeti adatállomány általánosságban a következőképpen néz ki:

Táblázat 1.1: A keresztmetszeti adatállomány általános alakja
egyed sorszáma \(X\) \(Y\) \(\dots\) \(Z\)
1. \(X_1\) \(Y_1\) \(\dots\) \(Z_1\)
2. \(X_2\) \(Y_2\) \(\dots\) \(Z_2\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(i.\) \(X_i\) \(Y_i\) \(\dots\) \(Z_i\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(N.\) \(X_N\) \(Y_N\) \(\dots\) \(Z_N\)

Az 1.1. táblázatban néhány, a tananyagban sokat használt jelölést is bevezettünk. A sokaság elemszámát keresztmetszeti adatállomány esetén \(N\) jelöli, míg az általános elemet jellemzően az \(i\) indexszel jelöljük.

Az 1.2. táblázat a legnagyobb 100 márkaértékű brandet tartalmazó adatállomány első néhány sorát mutatja be a Millward Brown becslése alapján. A változók közül itt a vállalat fő tevékenységi kategóriáját, a márkaérték hozzájárulását az üzleti sikerhez (mrd USD), illetve a székhely régióját tüntettük fel, a teljes lista a BrandZ_2018.xlsx fájlban érhető el.

Táblázat 1.2: TOP 100 márkaérték keresztmetszeti adatállomány (részlet)
márka kategória márkaérték hozzájárulás régió
1 Google Technológia 302,063 magas É-Amerika
2 Apple Technológia 300,595 magas É-Amerika
3 Amazon Kiskeres. 207,594 magas É-Amerika
4 Microsoft Technológia 200,987 magas É-Amerika
5 Tencent Technológia 178,990 nagyon magas Ázsia
6 Facebook Technológia 162,106 magas É-Amerika
7 Visa Pénzügy 145,611 nagyon magas É-Amerika

Az elemzés megkezdése előtt minden esetben tisztázni kell, hogy az adatállomány sokaság vagy minta. Amennyiben az adatállományunk nem sokaságként, hanem mintaként elemzendő, akkor az adatállomány megjelenése hasonló (például egy táblázatkezelőben), de a jelölések tekintetében változás, hogy minta esetén \(n\) lesz az elemszám jele, illetve sok esetben a minta elemeit \(x\) jelöli \(X\) helyett. A 2. és 3. fejezetekben bemutatott módszerek, mutatók sem pontosan ugyanúgy alkalmazandók a két esetben. A mintából való következtetés módszereit a 8. fejezettől kezdődően tárgyaljuk.

Az idősoros adatállományok ránézésre nem sokban különböznek a keresztmetszeti adatállományoktól, a könnyebb megkülönböztetés miatt sok esetben \(N\) helyett \(T\) jelöli az elemszámot, illetve \(i\) helyett \(t\) futóindexet használ sok tankönyv. Fontos különbség ugyanakkor, hogy míg keresztmetszeti adatállományok esetén a megfigyelések sorrendje gyakorlatilag irreleváns, addig az idősoros adatállományokban a megfigyelések sorrendje kötött, jellemzően a legrégebbi megfigyeléstől halad a legújabb felé.

Táblázat 1.3: Az idősoros adatállomány általános alakja
időszak \(X\) \(Y\) \(\dots\) \(Z\)
1. \(X_1\) \(Y_1\) \(\dots\) \(Z_1\)
2. \(X_2\) \(Y_2\) \(\dots\) \(Z_2\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(t.\) \(X_t\) \(Y_t\) \(\dots\) \(Z_t\)
\(\dots\) \(\dots\) \(\dots\) \(\dots\) \(\dots\)
\(T.\) \(X_T\) \(Y_T\) \(\dots\) \(Z_T\)

A \(t\) futóindexet és a tényleges dátumot/napot/időpontot jellemzően feltüntetjük az idősori értékek mellett, míg az előbbi az elemzést, utóbbi az értelmezést, azonosítást segíti. Az 1.4. táblázatban a magyarországi vendégéjszakák száma látható 2001-2021 között.

Táblázat 1.4: Vendégéjszakák száma Magyarországon
t év vendégéjszaka
1 2001 \(18\,648\)
2 2002 \(18\,450\)
3 2003 \(18\,611\)
4 2004 \(18\,899\)
5 2005 \(19\,737\)
6 2006 \(19\,652\)
7 2007 \(20\,129\)
8 2008 \(19\,974\)
9 2009 \(18\,710\)
10 2010 \(19\,554\)
11 2011 \(20\,616\)
12 2012 \(21\,805\)
13 2013 \(22\,968\)
14 2014 \(24\,434\)
15 2015 \(25\,888\)
16 2016 \(27\,629\)
17 2017 \(29\,769\)
18 2018 \(31\,011\)
19 2019 \(31\,538\)
20 2020 \(13\,690\)
21 2021 \(16\,193\)
Forrás: KSH