Introduksjon til Statistikk

Introduksjon til Statistikk

læringsutbytte

  • Gjenkjenne, beskrive og beregne tiltak for spredning av data: varians, standardavvik og utvalg.

En viktig karakteristikk av et sett av data, er variasjonen i data. I noen datasett, data verdiene er konsentrert tett nær bety; i andre datasett, data verdier er mer utbredt ut fra gjennomsnittet. Den mest vanlige mål på variasjon, eller spre seg, er standardavviket., Standardavviket er et tall som måler hvor langt data verdier er fra deres mener.

standard avvik gir en numerisk mål på den totale mengden av variasjoner i et datasett, og kan brukes til å avgjøre om en bestemt data-verdien er nær eller langt fra gjennomsnittet.

standard avvik gir et mål på den totale variasjonen i datasettet.

standard avvik er alltid positiv eller null. Standardavviket er liten når data er konsentrert nær gjennomsnittet, og viser liten variasjon eller spredning., Standardavviket er større når data verdier er mer spredt ut fra gjennomsnittet, viser mer variasjon.

la oss Anta at vi studerer den tiden kunder å vente i kø i kassa på Et supermarked og supermarked B. gjennomsnittlig ventetid på både supermarkeder er fem minutter. På Et supermarked, standard avvik for vent to minutter, på supermarkedet B standardavvik for ventetiden er fire minutter.

Fordi supermarked B har en høyere standardavvik, vi vet at det er mer variasjon i ventetid på supermarked B., Samlet ventetid på supermarked B er mer spredt ut fra gjennomsnittet, vent ganger på supermarkedet er En mer konsentrert nær gjennomsnittet.

standard avvik kan brukes til å avgjøre om et data-verdien er nær eller langt fra gjennomsnittet.

Tenk deg at Rosa og Binh både handle på supermarkedet A. Rosa venter på kassa i syv minutter og Binh venter på ett minutt. På Et supermarked, gjennomsnittlig ventetid er fem minutter, og standardavviket er to minutter., Standardavviket kan brukes til å avgjøre om et data-verdien er nær eller langt fra gjennomsnittet.

Rosa venter på sju minutter:

  • Sju er to minutter lenger enn gjennomsnittet på fem, to minutter er lik ett standardavvik.
  • Rosa er ventetiden på sju minutter er to minutter lenger enn gjennomsnittet av fem minutter.
  • Rosa er ventetiden på sju minutter er ett standardavvik over gjennomsnittet på fem minutter.

Binh venter på ett minutt.,

  • En er fire minutter mindre enn gjennomsnittet av fem, fire minutter er lik to standardavvik.
  • Binh er ventetiden på ett minutt er fire minutter mindre enn gjennomsnittet av fem minutter.
  • Binh er ventetiden på ett minutt er to standardavvik under gjennomsnittet på fem minutter.

En data-verdi som er to standardavvik fra gjennomsnittet er akkurat i grenseland for hva mange statistikere ville vurdere å være langt fra gjennomsnittet., Vurderer data for å være langt fra det bety hvis det er mer enn to standardavvik unna er mer av en tilnærmet «tommelfingerregel» enn en rigid regel. Generelt, i form av fordelingen av data, påvirker hvor mye av dataene er lenger unna enn to standardavvik. (Vil du vite mer om dette i senere kapitler.)

antall linjen kan hjelpe deg å forstå standardavvik. Hvis vi skulle sette fem og sju på en linje nummer syv er til høyre for fem. Vi sier da at sju er
ett standardavvik til høyre for fem, fordi 5 + (1)(2) = 7.,

Hvis en var også en del av data, så er man to standardavvik til venstre på fem, fordi 5 + (-2)(2) = 1.

ligningen verdi = mean + (#ofSTDEVs)(standardavvik), kan være uttrykk for en prøve, og for en befolkning.

Den nederste bokstav s representerer utvalgets standardavvik og den greske bokstaven σ (sigma, små bokstaver) representerer standardavviket.,

Beregning av Standardavvik

prosedyren for å beregne standardavviket avhenger av om tallene er hele befolkningen eller er data fra et utvalg. Beregningene er lignende, men ikke identisk. Derfor er symbolet som brukes til å representere standardavviket avhenger av om den er beregnet ut fra en populasjon eller et utvalg. Den lavere bokstav s representerer utvalgets standardavvik og den greske bokstaven σ (sigma, små bokstaver) representerer standardavviket., Hvis prøven har de samme egenskapene som befolkningen, s skal være et godt estimat for σ.

Hvis tallene kommer fra en folketelling av hele befolkningen og ikke et eksempel, når vi beregner gjennomsnittet av de kvadrerte avvik for å finne variansen, vi dividere med N antall elementer i befolkningen. Hvis dataene er fra et utvalg snarere enn en befolkning, når vi beregner gjennomsnittet av de kvadrerte avvik, vi dividere med n – 1, en mindre enn antall elementer i utvalget.,

I denne videoen et eksempel på beregning av varians og standardavvik av et sett av data som er presentert.

Formler for Eksempel Standardavvik

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

For eksempel standardavvik, nevneren er n – 1, som er utvalgsstørrelsen MINUS 1.,

Formler for standardavviket

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

For standardavviket, nevneren er N antall elementer i befolkningen.

tilfeldige Variasjon av en Statistikk

Hvor mye statistikken varierer fra én prøve til en annen er kjent som den tilfeldige variasjon av en statistikk. Du typisk måle den tilfeldige variasjon av en statistikk med sin standard feil., Standard error of the mean) er et eksempel på en standard feil. Det er en spesiell standardavvik og er kjent som standardavvik for den tilfeldige fordeling av gjennomsnittet. Du vil dekke standard error of the mean når du lærer om Sentrale grensesetningen (ikke nå). Notasjonen for standard error of the mean er \displaystyle\frac{{\sigma}}{{\sqrt{n}}} der σ er standardavviket for populasjonen og n er størrelsen på utvalget.

Obs!

I praksis, bruk en kalkulator eller datamaskin programvare for å beregne standardavviket., Hvis du bruker en TI-83, 83+, 84+ kalkulator, du trenger for å velge riktig standardavvik σ_x eller s_x fra oppsummerende statistikk. Vi vil konsentrere oss om å bruke og tolke informasjon som standardavviket gir oss. Men du bør studere følgende steg-for-steg eksempel for å hjelpe deg å forstå hvordan standardavvik måler avvik fra gjennomsnittet. (Kalkulatoren instruksjonene vises på slutten av dette eksemplet.,)

Forklaring av standardavvik beregningen er vist i tabell

avvikene viser hvordan spredt ut data om de mener. Data verdi 11.5 er lenger fra gjennomsnittet enn det som er verdien 11 som er angitt av avvik 0.97 og 0.47. Et positivt avvik oppstår når data verdien er større enn gjennomsnittet, mens et negativt avvik oppstår når data-verdien er mindre enn gjennomsnittet. Avviket er -1.525 for verdien ni. Hvis du vil legge til avvikene, summen er alltid null. (For Eksempel 1, det er n = 20 avvik.,), Så du kan ikke bare legge avvik for å få spredningen av dataene. Ved å kvadrere avvikene, kan du gjøre dem til positive tall, og summen vil også være positivt. Variansen, da, er den gjennomsnittlige kvadrerte avvik.

variansen er en kvadratisk måle og har ikke de samme enheter som data. Ta kvadratroten løser problemet. Standardavviket måler spredningen i de samme enhetene som data.

legg Merke til at i stedet for å dele med n= 20, beregning fordelt med n – 1 = 20 – 1 = 19 fordi data er et eksempel., For eksempel varians, vi deler av utvalgsstørrelsen minus en (n – 1). Hvorfor ikke dele med n? Svaret har å gjøre med befolkningen varians. Prøven avvik er et estimat av befolkningen varians. Basert på teoretisk matematikk som ligger bak disse beregningene, deling av (n – 1) gir et bedre estimat av befolkningen varians.

Obs!

Din konsentrasjon bør være på hva standardavviket forteller oss om data. Standardavviket er et tall som måler hvor langt data er spredt fra gjennomsnittet., La en kalkulator eller en datamaskin gjøre regning.

standardavvik, s eller σ, er enten null eller større enn null. Når standardavviket er null, det er ingen spredning, det vil si at alle data verdier er lik hverandre. Standardavviket er liten når data er konsentrert nær gjennomsnittet, og er større når data verdier vis mer variasjon fra gjennomsnittet. Når standardavviket er et mye større enn null, data verdier er svært spredt ut om det betyr; uteliggere kan gjøre s eller σ veldig stor.,

standard avvik, når de først ble presentert, kan synes uklart. Ved å tegne grafer av dine data, kan du få en bedre «føler» for avvik og standardavvik. Du vil finne at i symmetriske fordelinger, standard avvik kan være svært nyttig, men i skjeve fordelinger, standard avvik kan ikke være mye til hjelp. Årsaken er at de to sidene av en skjev fordeling har ulike sprer seg. I en skjev fordeling, det er bedre å se på den første kvartil, median tredje kvartil, den minste verdien, og den største verdien., Fordi tallene kan være forvirrende, alltid grafen dine data. Vise dataene i et histogram eller et boksplott.

Standard Avvik Gruppert Frekvens Tabeller

Husker at for grupperte data vet vi ikke individuelle dataverdier, så vi kan ikke beskrive den typiske verdien av data med presisjon. Med andre ord, vi kan ikke finne den eksakte mean, median, eller modus., Vi kan imidlertid bestemme beste estimat av tiltakene i sentrum ved å finne gjennomsnittet av de grupperte data med formelen:

gjennomsnittet av Frequency Table =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

hvor f = intervall frekvenser og m = intervall midtpunkt.

Akkurat som vi ikke kan finne den nøyaktige mener, heller ikke kan vi finne den eksakte standardavvik. Husk at standard avvik beskriver numerisk det forventede avviket en dataverdi fra gjennomsnittet. I enkle engelsk, standard avvik gir oss mulighet til å sammenligne hvordan «uvanlig» individuelle dataene er i forhold til gjennomsnittet.,

å Sammenligne Verdier fra Ulike datasett

standard avvik er nyttig når du skal sammenligne data verdier som kommer fra ulike datasett. Hvis dataene angir ha ulike middel og standardavvik, og deretter sammenligne dataene verdier direkte kan være misvisende.

#ofSTDEVs er ofte kalt en «z-score»; vi kan bruke symbolet z., I symboler, formler bli:

Eksempel x=\overline{x}+zs z = \frac{x – \overline{x}}{s}
Befolkningen x = μ + zσ z = \frac{x – μ}{σ}

følgende lister gi et par fakta som gir en litt mer innsikt i hva som standardavviket forteller oss om distribusjon av data.,

For NOEN datasett, uansett hva distribusjon av data:

For data å ha en distribusjon som er BELL-FORMET og SYMMETRISK:

  • Ca 68% av de data som ligger innenfor ett standardavvik fra gjennomsnittet.
  • Ca 95% av de data som er innenfor to standardavvik over gjennomsnittet.
  • Mer enn 99% av de data som er innen tre standardavvik fra gjennomsnittet.
  • Dette er kjent som den Empiriske Regelen.
  • Det er viktig å merke seg at denne regelen bare gjelder når formen for distribusjon av data er bell-formet og symmetrisk., Vi vil lære mer om dette når vi studerer den «Normale» eller «Gauss» sannsynlighetsfordeling i senere kapitler.

Konsept

standard avvik kan hjelpe deg å beregne spredningen av data. Det er forskjellige formler for å bruke hvis beregner standardavviket for et utvalg eller i en befolkning.

Formula Omtale

\displaystyle{s}_{x}=\sqrt{{\frac{{\sum{fm}^{2}}}{{n}} – {x}^{2}}}

hvor \displaystyle{s}_{x} = utvalgets standardavvik, \displaystyle\overline{x} = utvalgsgjennomsnitt

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *