1.1 Sokaság, minta, ismérv

Mint minden tudományág, úgy a statisztika is sajátos nyelvezettel bír, amelynek elsajátítása nélkülözhetetlen a tárgy megismerése során. Ezen a helyen csak a legszükségesebb fogalmakat vezetjük be. Hagyományosan két nagy területet különböztetünk meg, a leíró statisztikát és a következtetéses statisztikát. Leíró statisztikáról beszélünk, ha a vizsgálni kívánt emberek, országok, vállalatok stb. elemzendő adatai teljeskörűen rendelkezésünkre állnak. A vizsgálat tárgyát ilyenkor (teljes) sokaságnak hívjuk, az egyes megfigyeléseket pedig általánosan egyednek. Statisztikai sokaságnak nevezzük tehát a statisztikai megfigyelés tárgyát képező egyedek összességét. A sokaság fogalmilag legfontosabb jellemzői által definiálható. Amennyiben nem teljes körű a megfigyelésünk, akkor mintáról, vagy részsokaságról beszélünk.

Amennyiben egy adott ország népességéről szeretnénk információt szerezni, akkor könnyen tudunk sokasági felmérésre és mintavételre is példát hozni. Sokasági adatokat szerzünk, amikor valamennyi egyedet felmérjük, például (a Magyarországon 10 évente, utoljára 2022-ben tartott) népszámlálás keretében. Mintára vonatkozó adatokat szerzünk egy-egy közvéleménykutatás lebonyolításakor. A két megközelítés fő előnyei és hátrányai ebből a példából is érzékelhetők: a népszámlálás rendkívül lassú és költséges, az eredmények azonban nem függnek a mintavételt terhelő véletlen hatásoktól.

Következtetéses statisztikáról akkor beszélünk, ha a sokaság egésze nem, csak a sokaságot jól bemutató, reprezentáló minta figyelhető meg, amiből a sokaságra szeretnénk következtetéseket levonni. Az ilyen "jól viselkedő" mintát reprezentatív mintának hívjuk, erre a fogalomra a későbbiekben részletesebben visszatérünk. A mintavétel oka jellemzően az, hogy nincs elegendő erőforrás a teljes sokaság megfigyelésére. A mintába kerülés megfelelő mintaválasztás esetén véletlen eseményként kezelhető, így a következtetéses statisztika alkalmazása előtt szükséges némi valószínűségelméleti ismeretre szert tenni. Ez a gondolatmenet adja a kurzus struktúráját: a leíró statisztika után a valószínűségszámítás, majd a következtetéses statisztika alapjai kerülnek tárgyalásra.

A minta mérete nem garantálja annak reprezentativitását. Ennek tipikus példája az 1936-os amerikai elnökválasztás, ahol Alfred Landon és Franklin D. Roosevelt között folyt a versengés. A Literary Digest által végzett közvéleménykutatás során 10 millió amerikai állampolgárt kérdeztek meg, elsősorban telefonon. Végül mintegy 2,4 millió fős mintával rendelkeztek, ami alapján azt jelezték előre, hogy Landon fölényes győzelmet fog aratni. Ez volt minden idők legdrágább közvéleménykutatása. Egy jóval kisebb, mintegy 50,000 fős minta alapján George Gallup sikeresen jelezte előre Roosevelt győzelmét.

A Literary Digest kudarcát két fő hiba, torzítás okozta: akkoriban a telefonos megkeresés főképp a gazdagabb rétegeket érte el, így hiába volt nagy mintájuk, az nem megfelelően mutatta be a sokaságot (szelekciós torzítás), vagyis nem volt reprezentatív. A másik hiba a nemválaszolók figyelmen kívül hagyása volt. Úgy vélték, azok, akik nem válaszoltak, hasonlóan fognak szavazni, mint azok, akik válaszoltak, ez azonban nyilvánvalóan tévedés volt.

A tanulság: inkább egy gondosan kiválasztott kis méretű minta, mint egy rosszul kiválasztott nagy minta! A mai közvéleménykutatások többnyire néhány ezer (jól kiválasztott) főt kérdeznek meg.

A sokaságnak alapvetően két típusát szokás megkülönböztetni. Eszerint beszélhetünk

  • álló (stock) sokaságról és
  • mozgó (flow) sokaságról.

Amennyiben a sokaság egy adott időpontra (ezt az időpontot szokás ún. eszmei időpontnak is nevezni) vonatkozó állapotát vizsgáljuk, álló sokaságról beszélünk. A mozgó sokaság folyamatot fejez ki, ebből következően időtartamra értelmezhető.

Álló sokaság például a lakásállomány 2016. október 1-jén: a legutóbbi mikrocenzus adatai alapján \(4\,405\) ezer darab lakás volt ebben az időpontban Magyarországon.

Mozgó sokaság például a 2018-ban felépült lakások száma: a statisztikai adatszolgáltatásból ismerjük ezt az adatot is, \(17\,681\) lakás épült az év folyamán hazánkban.

Segíthet annak eldöntésében, hogy álló vagy mozgó sokaságról beszélünk, hogy az adatok összegzése értelmezhető-e. A lakásállomány esetén például a 2015-re és 2016-ra vonatkozó adatok összege nem ad helyes eredményt a halmozódás miatt: a 2016-ban megfigyelt lakások döntő többsége 2015-ben is már létezett. Ezzel szemben az adott évben felépült lakások száma esetén több év összege is értelmezhető.

Az álló- és a mozgó sokaság természetesen nem független egymástól. A folyamatok eredményeit egy adott időpontban mérve már álló sokaságról beszélhetünk. Például az évente épített lakások száma (flow) meghatározza (a megszűnő lakások számával együtt) egy adott időpont lakásállományát (stock).

A sokaság tartalmazhat

  • véges és
  • végtelen számú egyedet.

A társadalmi-gazdasági vizsgálatok akkor dolgoznak véges számú egyeddel, ha területileg és időben pontosan körülhatárolhatók a sokaságok. A különféle kísérleti statisztikákban, valamint a folyamatok modellezése során azonban találkozhatunk (legalábbis elvben) végtelen számú egyedet tartalmazó sokasággal is.

A sokaságot, vagy mintát leíró jellemzőket változóknak, vagy ismérveknek hívja a statisztika, a két kifejezést az alábbiakban szinonimaként fogjuk használni. A sokaság egységei (egyedei) az ismérvek hordozói. Adott ismérv lehetséges különböző kimenetelei az ismérvváltozatok.

Ismérv lehet például egy adott népesség esetén az életkor, a nemhez való tartozás, a lakóhely, vállalatok esetén a termelés értéke, vagy az elektromos energia fogyasztás időbeli alakulása. A lakóhely ismérv esetén az ismérvváltozatok, változóértékek például Budapest, megyeszékhely, város, község, stb. lehetnek.

Az ismérvek, vagy változók jellegük szerint három nagy csoportba sorolhatók: megkülönböztethetünk kategóriás (minőségi, kvalitatív), numerikus (mennyiségi, kvantitatív) és időbeli ismérveket.

Ismérvek fajtái:

  • minőségi: gazdasági társaságok jogi formája (bt, kft, stb.); nem
  • mennyiségi: termelési érték; éves jövedelem; életkor
  • időbeli: születési év; cég bejegyzésének éve

Amennyiben csak két ismérvváltozat van, alternatív ismérvről beszélhetünk. A szakirodalomban több elnevezés is elterjedt: kétkimenetelű, bináris vagy dummy változóként is találkozhatunk velük. Alternatív ismérvekkel a későbbiekben még foglalkozunk összetettebb módszerek esetén.

Az alternatív ismérvek jellemzően minőségi ismérvek, például nem (férfi-nő); tőzsdei cég (igen-nem). Bármilyen változó alternatív ismérvvé alakítható, a gazdasági társaságok jogi formáját például vizsgálhatjuk úgy is, hogy kft, vagy nem kft az adott társaság.

A numerikus ismérvek esetén megkülönböztetünk továbbá diszkrét és folytonos mennyiségi ismérveket. A diszkrét mennyiségi ismérvek számlálás útján jönnek létre (azaz jellemzően a természetes számok körét ölelik fel az ismérvváltozataik), míg a folytonos mennyiségi ismérvek mérés útján keletkeznek (a valós számok körében lehetségesek az ismérvváltozatok).

Diszkrét mennyiségi ismérv például a testvérek száma, ami nem lehet tört, míg folytonos mennyiségi ismérvként kezeljük például a testmagasságot, ami -- feltéve hogy elég pontos mérőeszközünk van -- végtelen sok értéket felvehet egy adott intervallumban.

A változók jellegének ismerete, azonosítása különösen fontos, hiszen az alkalmazandó elemzési módszer kiválasztásánál ennek döntő jelentősége van.

  1. Állapítsa meg, hogy az alábbi félmondatok sokaságra, vagy mintára utalnak-e!
    • A száz legnagyobb magyar vállalat...
    • A legutóbbi népszámlálás alapján...
    • Egy kérdőíves felmérés adatai alapján...
    • Az üzletben megkérdezett ügyfelek véleménye alapján...
    • A PTE-KTK hallgatóinak adatai alapján...
  • Valószínűleg sokaságra, hiszen a 100 legnagyobb vállalat nem lenne reprezentatív mintája például a teljes magyar vállalatok sokaságának.
  • A népszámlálás teljes körű, így valószínűleg a teljes sokaságra utal.
  • A kérdőíves felmérés egy tipikus mintavételi technika, szinte bizonyos, hogy mintára utal.
  • Az üzletben várhatóan nem minden vásárlót sikerült megkérdezni, így inkább mintára utal.
  • Mindkét megoldás helyes lehet. Amennyiben a cél a PTE-KTK hallgatóinak elemzése, úgy sokaságról, ha viszont a célunk valamennyi magyar egyetemistáról következtetések levonása, úgy a PTE-KTK hallgatói mintát alkotnak. Az további kérdés, hogy ez a minta reprezentatívnak tekinthető-e?
  1. Az alábbi változókkal kapcsolatban állapítsa meg, hogy minőségi, vagy mennyiségi ismérvek-e, ha mennyiségi ismérvről van szó, akkor diszkrét, vagy folytonos a változó?
    • egyének havi mobiltelefonbeszélgetésének összes hossza
    • havonta elküldött szöveges üzenetek száma
    • mobiltelefon márkája
    • hűségkártya fokozata
  • A havi beszélgetések összes hossza mennyiségi ismérv, hiszen számmal jellemezhető. Lehetséges értékei nem csak egész számok, hanem törtek is lehetnek, így folytonos változóként tekintünk rá.
  • A havi szöveges üzenetek összes száma mennyiségi ismérv, hiszen számmal jellemezhető. Lehetséges értékei csak nemnegatív egész számok lehetnek, így diszkrét változóként tekintünk rá.
  • A mobiltelefon márkája minőségi ismérv.
  • A hűságkártya fokozata minőségi ismérv.