Introduktion til Statistik

Introduktion til Statistik

Læringsresultater

  • Genkende, beskrive og beregne de foranstaltninger, der er af spredningen af data: varians, standardafvigelse og udvalg.

et vigtigt kendetegn ved ethvert datasæt er variationen i dataene. I nogle datasæt, dataværdierne er koncentreret tæt nær gennemsnittet; i andre datasæt, dataværdierne er mere udbredt ud fra gennemsnittet. Det mest almindelige mål for variation eller spredning er standardafvigelsen., Standardafvigelsen er et tal, der måler, hvor langt dataværdier er fra deres middelværdi.

standardafvigelsen giver et numerisk mål for den samlede mængde variation i et datasæt og kan bruges til at bestemme, om en bestemt dataværdi er tæt på eller langt fra gennemsnittet.

standardafvigelsen giver et mål for den samlede variation i et datasæt.

standardafvigelsen er altid positiv eller nul. Standardafvigelsen er lille, når dataene alle er koncentreret tæt på gennemsnittet og udviser lille variation eller spredning., Standardafvigelsen er større, når dataværdierne er mere spredt ud fra gennemsnittet og udviser mere variation.

Antag, at vi studerer, hvor lang tid kunderne venter i kø ved kassen i Supermarked A og supermarked B. Den gennemsnitlige ventetid i begge supermarkeder er fem minutter. I Supermarked A er standardafvigelsen for ventetiden to minutter; i supermarked B er standardafvigelsen for ventetiden fire minutter.da supermarked B har en højere standardafvigelse, ved vi, at der er mere variation i ventetiderne hos supermarked B., Generelt er ventetider i supermarked B mere spredt ud fra gennemsnittet; ventetider i Supermarked A er mere koncentreret nær gennemsnittet.

standardafvigelsen kan bruges til at bestemme, om en dataværdi er tæt på eller langt fra gennemsnittet.

Antag, at Rosa og Binh begge handler i supermarked A. Rosa venter ved kassen i syv minutter, og Binh venter i et minut. I Supermarked A er den gennemsnitlige ventetid fem minutter, og standardafvigelsen er to minutter., Standardafvigelsen kan bruges til at bestemme, om en dataværdi er tæt på eller langt fra gennemsnittet.

Rosa venter i syv minutter:

  • syv er to minutter længere end gennemsnittet på fem; to minutter er lig med en standardafvigelse.
  • Rosa ‘ s ventetid på syv minutter er to minutter længere end gennemsnittet på fem minutter.
  • Rosa ‘ s ventetid på syv minutter er en standardafvigelse over gennemsnittet på fem minutter.

Binh venter i et minut.,

  • en er fire minutter mindre end gennemsnittet på fem; fire minutter er lig med to standardafvigelser.
  • Binhs ventetid på et minut er fire minutter mindre end gennemsnittet på fem minutter.
  • Binhs ventetid på et minut er to standardafvigelser under gennemsnittet på fem minutter.

en dataværdi, der er to standardafvigelser fra gennemsnittet, er lige på grænsen for, hvad mange statistikere ville betragte som langt fra gennemsnittet., I betragtning af at data er langt fra gennemsnittet, hvis det er mere end to standardafvigelser væk, er mere en omtrentlig “tommelfingerregel” end en stiv regel. Generelt påvirker formen af fordelingen af dataene, hvor meget af dataene er længere væk end to standardafvigelser. (Du vil lære mere om dette i senere kapitler.)

nummerlinjen kan hjælpe dig med at forstå standardafvigelse. Hvis vi skulle sætte fem og syv på en talelinje, er syv til højre for fem. Vi siger, derefter, at syv er
en standardafvigelse til højre for fem fordi 5 + (1)(2) = 7.,

hvis en også var en del af datasættet, er en to standardafvigelser til venstre for fem fordi 5 + (-2)(2) = 1.

ligningsværdien = middel + (#ofSTDEVs)(standardafvigelse) kan udtrykkes for en prøve og for en population.

små bogstaver S repræsenterer prøvens standardafvigelse, og det græske bogstav. (Sigma, små bogstaver) repræsenterer populationsstandardafvigelsen.,

beregning af standardafvigelsen

proceduren til beregning af standardafvigelsen afhænger af, om tallene er hele populationen eller er data fra en prøve. Beregningerne er ens, men ikke identiske. Derfor afhænger symbolet, der bruges til at repræsentere standardafvigelsen, af, om det beregnes ud fra en population eller en prøve. De små bogstaver S repræsenterer prøven standardafvigelse og det græske bogstav. (Sigma, små bogstaver) repræsenterer befolkningen standardafvigelse., Hvis prøven har de samme egenskaber som befolkningen, skal s være et godt skøn over σ.

Hvis tallene kommer fra en folketælling for hele befolkningen og ikke en prøve, når vi beregner gennemsnittet af de kvadrerede afvigelser for at finde variansen, dividerer vi med N, antallet af poster i befolkningen. Hvis dataene er fra en prøve snarere end en befolkning, når vi beregner gennemsnittet af de kvadrerede afvigelser, dividerer vi med n – 1, en mindre end antallet af elementer i prøven.,

i den følgende video præsenteres et eksempel på beregning af variansen og standardafvigelsen for et sæt data.

formler for prøvens standardafvigelse

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

for prøvens standardafvigelse er nævneren n-1, dvs. prøvestørrelsen MINUS 1.,

Formler for populationens Standardafvigelse

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

For standardafvigelsen, er nævneren N er antallet af elementer i befolkningen.

Prøvevariation af en statistik

hvor meget statistikken varierer fra en prøve til en anden er kendt som prøvevariation af en statistik. Du måler typisk samplingvariabiliteten af en statistik ved dens standardfejl., Standardfejlen i middelværdien er et eksempel på en standardfejl. Det er en særlig standardafvigelse og er kendt som standardafvigelsen for prøveudtagningsfordelingen af middelværdien. Du vil dække standardfejlen i middelværdien, når du lærer om Central Limit Theorem (ikke nu). Notationen for standardfejlen i middelværdien er \ displaystyle \ frac {{\sigma}}{{\s .rt{n}}} hvor population er standardafvigelsen for befolkningen, og n er størrelsen på prøven.

Bemærk

brug i praksis en lommeregner eller computersoft .are til at beregne standardafvigelsen., Hvis du bruger en TI-83, 83+, 84+ lommeregner, skal du vælge den relevante standardafvigelse or_.eller S_. fra den sammenfattende statistik. Vi vil koncentrere os om at bruge og fortolke de oplysninger, som standardafvigelsen giver os. Du bør dog studere følgende trin-for-trin eksempel for at hjælpe dig med at forstå, hvordan standardafvigelsen måler variation fra gennemsnittet. (Lommeregnerens instruktioner vises i slutningen af dette eksempel.,)

forklaring af standardafvigelsesberegningen vist i tabellen

afvigelserne viser, hvor spredt dataene er om gennemsnittet. Dataværdien 11.5 er længere fra middelværdien end dataværdien 11, som er angivet med afvigelserne 0,97 og 0,47. En positiv afvigelse opstår, når dataværdien er større end gennemsnittet, mens en negativ afvigelse opstår, når dataværdien er mindre end gennemsnittet. Afvigelsen er -1.525 for dataværdien ni. Hvis du tilføjer afvigelserne, er summen altid nul. (For eksempel 1 er der n = 20 afvigelser.,) Så du kan ikke blot tilføje afvigelserne for at få spredningen af dataene. Ved at kvadrere afvigelserne gør du dem positive tal, og summen vil også være positiv. Variansen er så den gennemsnitlige kvadrerede afvigelse.

variansen er et kvadratisk mål og har ikke de samme enheder som dataene. At tage kvadratroden løser problemet. Standardafvigelsen måler spredningen i de samme enheder som dataene.

Bemærk, at i stedet for at dividere med n= 20, beregnes beregningen divideret med n – 1 = 20 – 1 = 19, fordi dataene er en prøve., For prøvevariansen dividerer vi med prøvestørrelsen minus en (n – 1). Hvorfor ikke dividere med n? Svaret har at gøre med befolkningens varians. Prøvevariansen er et skøn over populationsvariansen. Baseret på den teoretiske matematik, der ligger bag disse beregninger, giver dividere med (n – 1) et bedre skøn over befolkningsvariansen.

Bemærk

din koncentration skal være på, hvad standardafvigelsen fortæller os om dataene. Standardafvigelsen er et tal, der måler, hvor langt dataene er spredt fra gennemsnittet., Lad en lommeregner eller computer gøre det aritmetiske.

standardafvigelsen, s eller or, er enten nul eller større end nul. Når standardafvigelsen er nul, er der ingen spredning; det vil sige, at alle dataværdierne er lig med hinanden. Standardafvigelsen er lille, når dataene alle er koncentreret tæt på middelværdien, og er større, når dataværdierne viser mere variation fra middelværdien. Når standardafvigelsen er meget større end nul, er dataværdierne meget spredt ud om middelværdien; outliers kan gøre S eller σ meget store.,

standardafvigelsen, når den først præsenteres, kan virke uklar. Ved at tegne dine data kan du få en bedre “fornemmelse” for afvigelserne og standardafvigelsen. Du vil opdage, at i symmetriske distributioner kan standardafvigelsen være meget nyttig, men i skæve distributioner kan standardafvigelsen ikke være meget hjælp. Årsagen er, at de to sider af en skæv fordeling har forskellige spreads. I en skæv fordeling er det bedre at se på den første kvartil, medianen, den tredje kvartil, den mindste værdi og den største værdi., Fordi tal kan være forvirrende, altid graf dine data. Vis dine data i et histogram eller et boksplot.

standardafvigelse af grupperede Frekvenstabeller

Husk, at for grupperede data kender vi ikke individuelle dataværdier, så vi kan ikke beskrive den typiske værdi af dataene med præcision. Med andre ord kan vi ikke finde den nøjagtige middelværdi, median eller tilstand., Vi kan dog bestemme det bedste skøn over målingerne af center ved at finde gennemsnittet af de grupperede data med formlen:

Middelfrekvenstabel =\displaystyle\frac{{\sum(FM)}}{{\sum(f)}}

hvor f = intervalfrekvenser og m = interval midtpunkter.

ligesom vi ikke kunne finde det nøjagtige middel, kan vi heller ikke finde den nøjagtige standardafvigelse. Husk, at standardafvigelsen beskriver numerisk den forventede afvigelse en dataværdi har fra middelværdien. På simpelt engelsk giver standardafvigelsen os mulighed for at sammenligne, hvordan “usædvanlige” individuelle data sammenlignes med gennemsnittet.,

sammenligning af værdier fra forskellige datasæt

standardafvigelsen er nyttig, når man sammenligner dataværdier, der kommer fra forskellige datasæt. Hvis datasættene har forskellige midler og standardafvigelser, kan det være vildledende at sammenligne dataværdierne direkte.

#ofSTDEVs kaldes ofte en “z-score”; Vi kan bruge symbolet.., I symboler bliver formlerne:

prøve Sample=\overline {{}++s = = \frac {- – \overline{6}} {s}
Population Population = μ + Z ==\frac {. -}} {{}

følgende lister giver et par fakta, der giver lidt mere indsigt i, hvad standardafvigelsen fortæller os om fordelingen af dataene.,

For ETHVERT datasæt, uanset hvad distribution af data er:

For data, der har en fordeling, der er klokkeformet og SYMMETRISK:

  • Omkring 68% af data ligger inden for én standardafvigelse af middelværdien.95% af dataene ligger inden for to standardafvigelser af middelværdien.
  • mere end 99% af dataene ligger inden for tre standardafvigelser af gennemsnittet.
  • dette er kendt som den empiriske regel.
  • det er vigtigt at bemærke, at denne regel kun gælder, når formen på fordelingen af dataene er klokkeformet og symmetrisk., Vi vil lære mere om dette, når vi studerer den “normale” eller “gaussiske” sandsynlighedsfordeling i senere kapitler.

Concept Revie.

standardafvigelsen kan hjælpe dig med at beregne spredningen af data. Der er forskellige ligninger, der skal bruges, hvis man beregner standardafvigelsen for en prøve eller en population.

formel anmeldelse

\displaystyle{S}_{{}=\S displrt {{\frac {{\sum{fm}^{2}}}{{n}} – {where}^{2}}}

hvor \displaystyle{s}_{where} = prøve standardafvigelse, \displaystyle\overline { \ } = prøve middelværdi

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *