1.3 Adatállományok
Az egyes egyedek valamennyi változó szerinti rendszerezett felsorolását adatállománynak nevezzük. Az adatállományokban jellemzően jóval több az egyed, vagy megfigyelés, mint a változó, ezért konszenzusos alapon a sorokban helyezkednek el a megfigyelések, míg a változók az adatállomány oszlopait alkotják. A változókat nagybetűvel, általában \(X, Y, Z\)-vel jelöljük. Az adatállományban tárolt adatok jellemzői alapján három nagy csoportot különböztetünk meg:
- idősoros adatállomány: a változó értékeinek időrendi (általában állandó frekvenciájú - ekvidisztáns) felsorolása
- keresztmetszeti adatállomány: több egyed jellemzőinek egy időszakra, vagy időpontra vonatkozó felsorolása
- panel adatállomány: több egyed jellemzőinek több időszakra, vagy időpontra vonatkozó felsorolása
Jelen tananyag elsősorban keresztmetszeti adatállományok elemzésével foglalkozik, idősoros adatállományokkal csak a legegyszerűbb elemzések erejéig. Az idősoros adatállományokkal a Statisztikai modellezés, majd mesterképzésen a különböző ökonometria tárgyakban találkoznak a hallgatók. A panel adatállományok -- melyek ötvözik az idősoros és a keresztmetszeti adatok jellemzőit -- tárgyalása a doktori képzés tananyagát képezheti.
A keresztmetszeti adatállomány általánosságban a következőképpen néz ki:
egyed sorszáma | \(X\) | \(Y\) | \(\dots\) | \(Z\) |
---|---|---|---|---|
1. | \(X_1\) | \(Y_1\) | \(\dots\) | \(Z_1\) |
2. | \(X_2\) | \(Y_2\) | \(\dots\) | \(Z_2\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(i.\) | \(X_i\) | \(Y_i\) | \(\dots\) | \(Z_i\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(N.\) | \(X_N\) | \(Y_N\) | \(\dots\) | \(Z_N\) |
Az 1.1. táblázatban néhány, a tananyagban sokat használt jelölést is bevezettünk. A sokaság elemszámát keresztmetszeti adatállomány esetén \(N\) jelöli, míg az általános elemet jellemzően az \(i\) indexszel jelöljük.
Az 1.2. táblázat a legnagyobb 100 márkaértékű brandet tartalmazó adatállomány első néhány sorát mutatja be a Millward Brown becslése alapján. A változók közül itt a vállalat fő tevékenységi kategóriáját, a márkaérték hozzájárulását az üzleti sikerhez (mrd USD), illetve a székhely régióját tüntettük fel, a teljes lista a BrandZ_2018.xlsx fájlban érhető el.
márka | kategória | márkaérték | hozzájárulás | régió | |
---|---|---|---|---|---|
1 | Technológia | 302,063 | magas | É-Amerika | |
2 | Apple | Technológia | 300,595 | magas | É-Amerika |
3 | Amazon | Kiskeres. | 207,594 | magas | É-Amerika |
4 | Microsoft | Technológia | 200,987 | magas | É-Amerika |
5 | Tencent | Technológia | 178,990 | nagyon magas | Ázsia |
6 | Technológia | 162,106 | magas | É-Amerika | |
7 | Visa | Pénzügy | 145,611 | nagyon magas | É-Amerika |
Az elemzés megkezdése előtt minden esetben tisztázni kell, hogy az adatállomány sokaság vagy minta. Amennyiben az adatállományunk nem sokaságként, hanem mintaként elemzendő, akkor az adatállomány megjelenése hasonló (például egy táblázatkezelőben), de a jelölések tekintetében változás, hogy minta esetén \(n\) lesz az elemszám jele, illetve sok esetben a minta elemeit \(x\) jelöli \(X\) helyett. A 2. és 3. fejezetekben bemutatott módszerek, mutatók sem pontosan ugyanúgy alkalmazandók a két esetben. A mintából való következtetés módszereit a 8. fejezettől kezdődően tárgyaljuk.
Az idősoros adatállományok ránézésre nem sokban különböznek a keresztmetszeti adatállományoktól, a könnyebb megkülönböztetés miatt sok esetben \(N\) helyett \(T\) jelöli az elemszámot, illetve \(i\) helyett \(t\) futóindexet használ sok tankönyv. Fontos különbség ugyanakkor, hogy míg keresztmetszeti adatállományok esetén a megfigyelések sorrendje gyakorlatilag irreleváns, addig az idősoros adatállományokban a megfigyelések sorrendje kötött, jellemzően a legrégebbi megfigyeléstől halad a legújabb felé.
időszak | \(X\) | \(Y\) | \(\dots\) | \(Z\) |
---|---|---|---|---|
1. | \(X_1\) | \(Y_1\) | \(\dots\) | \(Z_1\) |
2. | \(X_2\) | \(Y_2\) | \(\dots\) | \(Z_2\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(t.\) | \(X_t\) | \(Y_t\) | \(\dots\) | \(Z_t\) |
\(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) | \(\dots\) |
\(T.\) | \(X_T\) | \(Y_T\) | \(\dots\) | \(Z_T\) |
A \(t\) futóindexet és a tényleges dátumot/napot/időpontot jellemzően feltüntetjük az idősori értékek mellett, míg az előbbi az elemzést, utóbbi az értelmezést, azonosítást segíti. Az 1.4. táblázatban a magyarországi vendégéjszakák száma látható 2001-2021 között.
t | év | vendégéjszaka |
---|---|---|
1 | 2001 | \(18\,648\) |
2 | 2002 | \(18\,450\) |
3 | 2003 | \(18\,611\) |
4 | 2004 | \(18\,899\) |
5 | 2005 | \(19\,737\) |
6 | 2006 | \(19\,652\) |
7 | 2007 | \(20\,129\) |
8 | 2008 | \(19\,974\) |
9 | 2009 | \(18\,710\) |
10 | 2010 | \(19\,554\) |
11 | 2011 | \(20\,616\) |
12 | 2012 | \(21\,805\) |
13 | 2013 | \(22\,968\) |
14 | 2014 | \(24\,434\) |
15 | 2015 | \(25\,888\) |
16 | 2016 | \(27\,629\) |
17 | 2017 | \(29\,769\) |
18 | 2018 | \(31\,011\) |
19 | 2019 | \(31\,538\) |
20 | 2020 | \(13\,690\) |
21 | 2021 | \(16\,193\) |