1.3 Adatállományok

Az egyes egyedek valamennyi változó szerinti rendszerezett felsorolását adatállománynak nevezzük. Az adatállományokban jellemzően jóval több az egyed, vagy megfigyelés, mint a változó, ezért konszenzusos alapon a sorokban helyezkednek el a megfigyelések, míg a változók az adatállomány oszlopait alkotják. A változókat nagybetűvel, általában \(X, Y, Z\)-vel jelöljük. Az adatállományban tárolt adatok jellemzői alapján három nagy csoportot különböztetünk meg:

idősoros adatállomány: a változó értékeinek időrendi (általában állandó frekvenciájú - ekvidisztáns) felsorolása
keresztmetszeti adatállomány: több egyed jellemzőinek egy időszakra, vagy időpontra vonatkozó felsorolása
panel adatállomány: több egyed jellemzőinek több időszakra, vagy időpontra vonatkozó felsorolása

Jelen tananyag elsősorban keresztmetszeti adatállományok elemzésével foglalkozik, idősoros adatállományokkal csak a legegyszerűbb elemzések erejéig. Az idősoros adatállományokkal a Statisztikai modellezés, majd mesterképzésen a különböző ökonometria tárgyakban találkoznak a hallgatók. A panel adatállományok -- melyek ötvözik az idősoros és a keresztmetszeti adatok jellemzőit -- tárgyalása a doktori képzés tananyagát képezheti.

A keresztmetszeti adatállomány általánosságban a következőképpen néz ki:

Táblázat 1.1: A keresztmetszeti adatállomány általános alakja
egyed sorszáma	\(X\)	\(Y\)	\(\dots\)	\(Z\)
1.	\(X_1\)	\(Y_1\)	\(\dots\)	\(Z_1\)
2.	\(X_2\)	\(Y_2\)	\(\dots\)	\(Z_2\)
\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)
\(i.\)	\(X_i\)	\(Y_i\)	\(\dots\)	\(Z_i\)
\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)
\(N.\)	\(X_N\)	\(Y_N\)	\(\dots\)	\(Z_N\)

Az 1.1. táblázatban néhány, a tananyagban sokat használt jelölést is bevezettünk. A sokaság elemszámát keresztmetszeti adatállomány esetén \(N\) jelöli, míg az általános elemet jellemzően az \(i\) indexszel jelöljük.

Az 1.2. táblázat a legnagyobb 100 márkaértékű brandet tartalmazó adatállomány első néhány sorát mutatja be a Millward Brown becslése alapján. A változók közül itt a vállalat fő tevékenységi kategóriáját, a márkaérték hozzájárulását az üzleti sikerhez (mrd USD), illetve a székhely régióját tüntettük fel, a teljes lista a BrandZ_2018.xlsx fájlban érhető el.

Táblázat 1.2: TOP 100 márkaérték keresztmetszeti adatállomány (részlet)
	márka	kategória	márkaérték	hozzájárulás	régió
1	Google	Technológia	302,063	magas	É-Amerika
2	Apple	Technológia	300,595	magas	É-Amerika
3	Amazon	Kiskeres.	207,594	magas	É-Amerika
4	Microsoft	Technológia	200,987	magas	É-Amerika
5	Tencent	Technológia	178,990	nagyon magas	Ázsia
6	Facebook	Technológia	162,106	magas	É-Amerika
7	Visa	Pénzügy	145,611	nagyon magas	É-Amerika

Az elemzés megkezdése előtt minden esetben tisztázni kell, hogy az adatállomány sokaság vagy minta. Amennyiben az adatállományunk nem sokaságként, hanem mintaként elemzendő, akkor az adatállomány megjelenése hasonló (például egy táblázatkezelőben), de a jelölések tekintetében változás, hogy minta esetén \(n\) lesz az elemszám jele, illetve sok esetben a minta elemeit \(x\) jelöli \(X\) helyett. A 2. és 3. fejezetekben bemutatott módszerek, mutatók sem pontosan ugyanúgy alkalmazandók a két esetben. A mintából való következtetés módszereit a 8. fejezettől kezdődően tárgyaljuk.

Az idősoros adatállományok ránézésre nem sokban különböznek a keresztmetszeti adatállományoktól, a könnyebb megkülönböztetés miatt sok esetben \(N\) helyett \(T\) jelöli az elemszámot, illetve \(i\) helyett \(t\) futóindexet használ sok tankönyv. Fontos különbség ugyanakkor, hogy míg keresztmetszeti adatállományok esetén a megfigyelések sorrendje gyakorlatilag irreleváns, addig az idősoros adatállományokban a megfigyelések sorrendje kötött, jellemzően a legrégebbi megfigyeléstől halad a legújabb felé.

Táblázat 1.3: Az idősoros adatállomány általános alakja
időszak	\(X\)	\(Y\)	\(\dots\)	\(Z\)
1.	\(X_1\)	\(Y_1\)	\(\dots\)	\(Z_1\)
2.	\(X_2\)	\(Y_2\)	\(\dots\)	\(Z_2\)
\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)
\(t.\)	\(X_t\)	\(Y_t\)	\(\dots\)	\(Z_t\)
\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)	\(\dots\)
\(T.\)	\(X_T\)	\(Y_T\)	\(\dots\)	\(Z_T\)

A \(t\) futóindexet és a tényleges dátumot/napot/időpontot jellemzően feltüntetjük az idősori értékek mellett, míg az előbbi az elemzést, utóbbi az értelmezést, azonosítást segíti. Az 1.4. táblázatban a magyarországi vendégéjszakák száma látható 2001-2021 között.

Táblázat 1.4: Vendégéjszakák száma Magyarországon
t	év	vendégéjszaka
1	2001	\(18\,648\)
2	2002	\(18\,450\)
3	2003	\(18\,611\)
4	2004	\(18\,899\)
5	2005	\(19\,737\)
6	2006	\(19\,652\)
7	2007	\(20\,129\)
8	2008	\(19\,974\)
9	2009	\(18\,710\)
10	2010	\(19\,554\)
11	2011	\(20\,616\)
12	2012	\(21\,805\)
13	2013	\(22\,968\)
14	2014	\(24\,434\)
15	2015	\(25\,888\)
16	2016	\(27\,629\)
17	2017	\(29\,769\)
18	2018	\(31\,011\)
19	2019	\(31\,538\)
20	2020	\(13\,690\)
21	2021	\(16\,193\)

Forrás: KSH