Bevezetés a statisztikákba

Bevezetés a statisztikákba

tanulási eredmények

  • felismerik, leírják és kiszámítják az adatok terjedésének méréseit: szórás, szórás és tartomány.

bármely adatkészlet fontos jellemzője az adatok változása. Egyes adatkészletekben az adatértékek az átlag közelében koncentrálódnak; más adatkészletekben az adatértékek szélesebb körben elterjedtek az átlagtól. A variáció vagy szórás leggyakoribb mértéke a szórás., A szórás olyan szám, amely azt méri, hogy az adatértékek milyen messze vannak az átlagtól.

a szórás numerikus mérést ad az adathalmaz változásának teljes mennyiségéről, és felhasználható annak meghatározására, hogy egy adott adatérték közel van-e az átlaghoz vagy távol van-e az átlagtól.

a szórás az adathalmaz általános változásának mértékét mutatja.

a szórás mindig pozitív vagy nulla. A szórás kicsi, ha az adatok összessége az átlaghoz közel koncentrálódik, kevés variációt vagy szórást mutat., A szórás nagyobb, ha az adatértékek jobban eloszlanak az átlagtól, több variációt mutatnak.

tegyük fel, hogy tanulmányozzuk azt az időt, amikor az ügyfelek sorban állnak az a szupermarket pénztáránál, a B szupermarketben. Az a szupermarketben a várakozási idő szórása két perc; a B szupermarketben a várakozási idő standard eltérése négy perc.

mivel a B szupermarketben nagyobb a szórás, tudjuk, hogy a B szupermarketben a várakozási idő nagyobb., Összességében a B szupermarketben a várakozási idő jobban eloszlik az átlagtól; az a szupermarketben a várakozási idő az átlag közelében koncentrálódik.

a szórás felhasználható annak meghatározására, hogy az adatérték közel vagy messze van-e az átlagtól.

tegyük fel, hogy Rosa és Binh egyaránt az A. szupermarketben vásárolnak. Az a szupermarketben az átlagos várakozási idő öt perc, a szórás pedig két perc., A szórás felhasználható annak meghatározására, hogy az adatérték közel vagy messze van-e az átlagtól.

Rosa hét percig vár:

  • hét két perccel hosszabb, mint az öt átlag; két perc egyenlő egy szórással.
  • Rosa hét perces várakozási ideje két perccel hosszabb, mint az átlagos öt perc.
  • Rosa hét perces várakozási ideje egy szórás az öt perc átlaga felett.

Binh egy percig vár.,

  • az egyik négy perccel kevesebb, mint az öt átlag; négy perc egyenlő két szórással.
  • Binh egy perces várakozási ideje négy perccel kevesebb, mint az öt perc átlaga.
  • Binh egy perces várakozási ideje két szórás az öt perc átlaga alatt.

egy adatérték, amely két szórás az átlagtól, csak a határvonalon van, amit sok statisztikus az átlagtól távol tartana., Figyelembe véve, hogy az adatok messze vannak az átlagtól, ha több mint két szórás van, inkább hozzávetőleges “hüvelykujjszabály”, mint egy merev szabály. Általánosságban elmondható, hogy az adatok eloszlásának alakja befolyásolja, hogy az adatok mennyivel távolabb vannak, mint két szórás. (Erről bővebben a későbbi fejezetekben olvashat.)

a számsor segíthet megérteni a szórást. Ha az ötöst és a hetest számsorra állítjuk, akkor a hét az ötöstől jobbra van. Akkor azt mondjuk, hogy a hét
egy szórás az öt jobb oldalán, mert 5 + (1)(2) = 7.,

Ha az egyik is része volt az adatkészletnek, akkor az egyik két szórás az öt bal oldalán, mert 5 + (-2)(2) = 1.

az egyenlet értéke = átlag + (#ofSTDEVs)(szórás) mintára és populációra is kifejezhető.

az S alsó eseti betű a minta szórását, a σ (sigma, alsó eset) görög betű pedig a populáció szórását jelenti.,

A szórás kiszámítása

a szórás kiszámításának eljárása attól függ, hogy a számok a teljes populáció, vagy egy mintából származó adatok. A számítások hasonlóak, de nem azonosak. Ezért a szórás ábrázolásához használt szimbólum attól függ, hogy populációból vagy mintából számítják-e ki. Az S alsó eseti betű a minta szórását, a σ (sigma, alsó eset) görög betű pedig a populáció szórását jelenti., Ha a minta ugyanazokkal a jellemzőkkel rendelkezik, mint a népesség, akkor S-nek jó σ becslésnek kell lennie.

Ha a számok a teljes népesség népszámlálásából származnak, nem pedig mintából, amikor kiszámítjuk a négyzet alakú eltérések átlagát a variancia megtalálásához, N-vel osztjuk meg a lakosság tételeinek számát. Ha az adatok egy mintából származnak, nem pedig egy populációból, amikor kiszámítjuk a négyzetes eltérések átlagát, akkor N – 1-vel osztjuk meg, eggyel kevesebb, mint a mintában szereplő tételek száma.,

a következő videóban egy adathalmaz varianciájának és szórásának kiszámítására mutatunk be egy példát.

Képletek a Minta Szórás

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

a minta szórás, a nevező n – 1, ez a minta mérete MÍNUSZ 1.,

Képletek a Lakosság Szórás

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

a lakosság szórás, a nevező N, a tételek számát a lakosság.

egy statisztika mintavételi variabilitása

a statisztika mintavételi változékonyságának nevezik, hogy a statisztika mennyire változik egyik mintától a másikig. Általában a statisztika mintavételi változékonyságát méri a szokásos hiba alapján., Az átlag szabványos hibája példa egy szabványos hibára. Ez egy speciális szórás, amelyet az átlag mintavételi eloszlásának szórásaként ismerünk. Az átlag standard hibáját fedezi, amikor megismeri a központi Limit tételt (nem most). Az átlag standard hibájának jelölése\displaystyle\frac {\sigma} {{\sqrt {n}}}}}, ahol σ a populáció szórása, n pedig a minta mérete.

Megjegyzés

a gyakorlatban számológépet vagy számítógépes szoftvert használjon a szórás kiszámításához., Ha TI-83, 83+, 84 + számológépet használ, ki kell választania a megfelelő σ_x vagy s_x szórást az összefoglaló statisztikákból. A szórás által adott információk felhasználására és értelmezésére koncentrálunk. Azonban meg kell tanulni a következő lépésről-lépésre példát, hogy segítsen megérteni, hogy a szórás intézkedések eltérése az átlagtól. (A számológép utasításai a példa végén jelennek meg.,)

A táblázatban látható szórásszámítás magyarázata

az eltérések azt mutatják, hogy az adatok eloszlása az átlagról szól. A 11,5-ös adatérték távolabb van az átlagtól, mint a 11-es adatérték, amelyet a 0,97-es és a 0,47-es eltérések jeleznek. Pozitív eltérés akkor fordul elő, ha az adatérték nagyobb, mint az átlag, míg negatív eltérés akkor fordul elő, ha az adatérték kisebb, mint az átlag. Az eltérés -1.525 a kilenc adatérték esetében. Ha hozzáadja az eltéréseket, az összeg mindig nulla. (Például 1, vannak N = 20 eltérések.,) Tehát nem lehet egyszerűen hozzáadni az eltéréseket az adatok terjedéséhez. Az eltérések elosztásával pozitív számokat hoz létre, az összeg pedig pozitív is lesz. A variancia tehát az átlagos négyzetes eltérés.

a variancia egy négyzetes intézkedés, és nem ugyanazokkal az egységekkel rendelkezik, mint az adatok. A négyzetgyök felvétele megoldja a problémát. A szórás az adatokkal azonos egységekben méri a szórást.

figyeljük meg, hogy ahelyett, hogy elosztjuk n= 20, a számítás osztva n – 1 = 20-1 = 19 mert az adatok egy minta., A minta varianciájához a minta mérete mínusz egy (n – 1). Miért nem oszd meg n-nel? A válasz köze van a lakosság variancia. A minta varianciája a populáció varianciájának becslése. A számítások mögött meghúzódó elméleti matematika alapján az (n – 1) elválasztás jobb becslést ad a népesség varianciájáról.

Megjegyzés

a koncentrációnak azon kell lennie, amit a szórás az adatokról mond. A szórás olyan szám, amely azt méri, hogy az adatok milyen mértékben terjednek el az átlagtól., Hagyja, hogy egy számológép vagy számítógép végezze el az aritmetikát.

a szórás, s vagy σ, nulla vagy nagyobb, mint nulla. Ha a szórás nulla, nincs szórás; vagyis az összes adatérték egyenlő egymással. A szórás kicsi, ha az adatok összessége az átlaghoz közel koncentrálódik, és nagyobb, ha az adatértékek nagyobb eltérést mutatnak az átlagtól. Ha a szórás sokkal nagyobb, mint nulla, az adatértékek nagyon eloszlanak az átlagról; a kiugró értékek s vagy σ nagyon nagyok lehetnek.,

a szórás, amikor először bemutatásra kerül, nem tűnik egyértelműnek. Az adatok grafizálásával jobb “érzést” kaphat az eltérések és a szórás tekintetében. Meg fogja találni, hogy szimmetrikus eloszlásokban a szórás nagyon hasznos lehet, de ferde eloszlásokban a szórás nem sok segítséget jelenthet. Ennek oka az, hogy a ferde Eloszlás két oldala különböző terjedésű. Egy ferde eloszlásban jobb az első kvartilis, a medián, a harmadik kvartilis, a legkisebb érték, a legnagyobb érték., Mivel a számok zavaró lehet, mindig grafikon az adatokat. Jelenítse meg adatait hisztogramban vagy négyzetben.

csoportosított Frekvenciatáblák szórása

emlékezzünk arra, hogy a csoportosított adatok esetében nem ismerjük az egyes adatértékeket, így nem tudjuk pontosan leírni az adatok tipikus értékét. Más szavakkal, nem találjuk a pontos átlagot, medián, vagy mód., A központ méréseinek legjobb becslését azonban úgy határozhatjuk meg, hogy megtaláljuk a csoportosított adatok átlagát a következő képlettel:

A Frekvenciatáblázat átlaga =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

ahol f = intervallumfrekvencia és m = intervallum középpont.

ahogy a pontos átlagot sem találtuk meg, a pontos szórást sem találjuk. Ne feledje, hogy a szórás numerikusan írja le az adatérték várható eltérését az átlagtól. Egyszerű angol nyelven a szórás lehetővé teszi számunkra, hogy összehasonlítsuk a” szokatlan ” egyéni adatokat az átlaghoz képest.,

különböző adatkészletek értékeinek összehasonlítása

a szórás hasznos a különböző adatkészletekből származó adatértékek összehasonlításakor. Ha az adatkészletek eltérő eszközökkel és szórásokkal rendelkeznek, akkor az adatértékek közvetlen összehasonlítása félrevezető lehet.

# ofSTDEVs gyakran nevezik a “z-score” ; tudjuk használni a szimbólum z., A szimbólumok, a képletek lesz:

Minta x=\overline{x}+zs z = \frac{x \overline{x}}{s}
Népesség x = μ + zσ z = \frac{x – μ}{σ}

A következő listák adni néhány tényt, amelyek még egy kis betekintést abba, hogy mi a szórás azt mondja, hogy az eloszlás az adatokat.,

bármely adatkészlet esetében, függetlenül attól, hogy az adatok eloszlása milyen:

olyan adatok esetében, amelyek eloszlása harang alakú és szimmetrikus:

  • Az adatok körülbelül 68%-a az átlag egy szórásán belül van.
  • Az adatok körülbelül 95% – a az átlag két szórásán belül van.
  • az adatok több mint 99% – a az átlag három szórásán belül van.
  • ezt empirikus szabálynak nevezik.
  • fontos megjegyezni, hogy ez a szabály csak akkor érvényes, ha az adatok eloszlásának alakja harang alakú és szimmetrikus., Többet fogunk megtudni erről a “normál” vagy “Gaussian” valószínűségi eloszlás tanulmányozása során a későbbi fejezetekben.

Concept Review

a szórás segít kiszámítani az adatok terjedését. Különböző egyenletek használhatók, ha kiszámítják a minta vagy a populáció szórását.

Formula Review

\displaystyle{s}_{x}=\sqrt{{\FRAC {\sum {fm}^{2}}}} {{{n}}}} – {x}^{2}}}}

ahol \displaystyle{s}_{x} = Minta szórás, \displaystyle\overline{x} = Minta átlag

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük