introduktion till statistik

introduktion till statistik

läranderesultat

  • känna igen, beskriva och beräkna mått på spridningen av data: varians, standardavvikelse och intervall.

en viktig egenskap hos en uppsättning data är variationen i data. I vissa datamängder koncentreras datavärdena nära medelvärdet. i andra datamängder sprids datavärdena mer ut från medelvärdet. Det vanligaste måttet på variation eller spridning är standardavvikelsen., Standardavvikelsen är ett tal som mäter hur långt datavärden är från deras medelvärde.

standardavvikelsen ger ett numeriskt mått på den totala variationen i en datamängd och kan användas för att avgöra om ett visst datavärde ligger nära eller långt från medelvärdet.

standardavvikelsen ger ett mått på den totala variationen i en datamängd.

standardavvikelsen är alltid positiv eller noll. Standardavvikelsen är liten när data är alla koncentrerade nära medelvärdet, uppvisar liten variation eller spridning., Standardavvikelsen är större när datavärdena är mer utspridda från medelvärdet och uppvisar mer variation.

Antag att vi studerar hur mycket tid kunderna väntar i linje vid kassan på supermarket a och supermarket B. Den genomsnittliga väntetiden på båda stormarknaderna är fem minuter. Vid stormarknad A är standardavvikelsen för väntetiden två minuter; vid stormarknad B är standardavvikelsen för väntetiden fyra minuter.

eftersom supermarket B har en högre standardavvikelse vet vi att det finns mer variation i väntetiderna på supermarket B., Sammantaget är väntetider på supermarket B mer utspridda från genomsnittet; väntetider på supermarket a är mer koncentrerade nära genomsnittet.

standardavvikelsen kan användas för att avgöra om ett datavärde ligger nära eller långt från medelvärdet.

Antag att Rosa och Binh båda handlar på supermarket A. Rosa väntar vid kassan i sju minuter och Binh väntar i en minut. Vid stormarknad A är den genomsnittliga väntetiden fem minuter och standardavvikelsen är två minuter., Standardavvikelsen kan användas för att avgöra om ett datavärde ligger nära eller långt från medelvärdet.

Rosa väntar i sju minuter:

  • sju är två minuter längre än genomsnittet av fem; två minuter är lika med en standardavvikelse.
  • Rosas väntetid på sju minuter är två minuter längre än genomsnittet på fem minuter.
  • Rosas väntetid på sju minuter är en standardavvikelse över genomsnittet av fem minuter.

Binh väntar i en minut.,

  • en är fyra minuter mindre än genomsnittet av fem; fyra minuter är lika med två standardavvikelser.
  • Binhs väntetid på en minut är fyra minuter mindre än genomsnittet av fem minuter.
  • Binhs väntetid på en minut är två standardavvikelser under genomsnittet av fem minuter.

ett datavärde som är två standardavvikelser från genomsnittet ligger bara på gränsen för vad många statistiker skulle anse vara långt ifrån genomsnittet., Med tanke på att data är långt ifrån medelvärdet om det är mer än två standardavvikelser bort är mer av en ungefärlig ”tumregel” än en stel regel. I allmänhet påverkar formen på fördelningen av data hur mycket av data som ligger längre bort än två standardavvikelser. (Du kommer att lära dig mer om detta i senare kapitel.)

nummerlinjen kan hjälpa dig att förstå standardavvikelsen. Om vi skulle sätta fem och sju på en nummerlinje, är sju till höger om fem. Vi säger då att sju är
en standardavvikelse till höger om fem eftersom 5 + (1)(2) = 7.,

om man också var en del av datauppsättningen, är en två standardavvikelser till vänster om fem eftersom 5 + (-2)(2) = 1.

ekvationsvärdet = medelvärde + (#ofSTDEVs)(standardavvikelse) kan uttryckas för ett prov och för en population.

den nedre bokstaven S representerar prov standardavvikelsen och den grekiska bokstaven σ (sigma, gemener) representerar populationens standardavvikelse.,

beräkna standardavvikelsen

förfarandet för att beräkna standardavvikelsen beror på om siffrorna är hela befolkningen eller är data från ett prov. Beräkningarna är likartade, men inte identiska. Den symbol som används för att representera standardavvikelsen beror därför på om den beräknas från en population eller ett prov. Den nedre bokstaven S representerar prov standardavvikelsen och den grekiska bokstaven σ (sigma, gemener) representerar befolkningen standardavvikelse., Om provet har samma egenskaper som befolkningen, bör s vara en bra uppskattning av σ.

om siffrorna kommer från en folkräkning av hela befolkningen och inte ett prov, när vi beräknar genomsnittet av de kvadrerade avvikelserna för att hitta variansen delar vi med N, antalet objekt i befolkningen. Om uppgifterna är från ett prov snarare än en population, när vi beräknar genomsnittet av de kvadrerade avvikelserna delar vi med n – 1, en mindre än antalet objekt i provet.,

i följande video presenteras ett exempel på beräkning av variansen och standardavvikelsen för en uppsättning data.

formler för standardavvikelsen för provet

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

för standardavvikelsen för provet är nämnaren n – 1, det vill säga provstorleken MINUS 1.,

formler för populationens standardavvikelse

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

för populationens standardavvikelse är nämnaren N, antalet objekt i befolkningen.

Provtagningsvariabiliteten hos en statistik

hur mycket statistiken varierar från ett prov till ett annat kallas provtagningsvariabiliteten hos en statistik. Du mäter vanligtvis provtagningsvariationen för en statistik med sitt standardfel., Medelvärdets standardfel är ett exempel på ett standardfel. Det är en särskild standardavvikelse och är känd som standardavvikelsen för provtagningsfördelningen av medelvärdet. Du kommer att täcka medelvärdets standardfel när du lär dig om Central Limit Theorem (inte nu). Notationen för medelvärdets standardfel är \displaystyle \ frac {{\sigma}} {{\sqrt{n}}} där σ är standardavvikelsen för befolkningen och n är storleken på provet.

Obs

använd i praktiken en kalkylator eller datorprogramvara för att beräkna standardavvikelsen., Om du använder en TI-83, 83+, 84+ – kalkylator måste du välja lämplig standardavvikelse σ_x eller s_x från sammanfattningsstatistiken. Vi kommer att koncentrera oss på att använda och tolka den information som standardavvikelsen ger oss. Du bör dock studera följande steg-för-steg-exempel för att hjälpa dig att förstå hur standardavvikelsen mäter variation från medelvärdet. (Kalkylatorns instruktioner visas i slutet av detta exempel.,)

förklaring av beräkningen av standardavvikelsen som visas i tabellen

avvikelserna visar hur utspridda data handlar om medelvärdet. Datavärdet 11.5 är längre från medelvärdet än datavärdet 11 som indikeras av avvikelserna 0,97 och 0,47. En positiv avvikelse uppstår när datavärdet är större än medelvärdet, medan en negativ avvikelse uppstår när datavärdet är mindre än medelvärdet. Avvikelsen är -1.525 för datavärdet nio. Om du lägger till avvikelserna är summan alltid noll. (Till exempel 1 finns det n = 20 avvikelser.,) Så du kan inte helt enkelt lägga till avvikelserna för att få spridningen av data. Genom att kvadrera avvikelserna gör du dem positiva tal, och summan kommer också att vara positiv. Variansen är då den genomsnittliga kvadrerade avvikelsen.

variansen är en kvadratmått och har inte samma enheter som data. Ta kvadratroten löser problemet. Standardavvikelsen mäter spridningen i samma enheter som data.

Observera att i stället för att dela med n= 20, beräkningen dividerad med n – 1 = 20 – 1 = 19 eftersom data är ett prov., För provvariansen delar vi med provstorleken minus en (n – 1). Varför inte dela med n? Svaret har att göra med befolkningsvariansen. Provvariansen är en uppskattning av populationsvariansen. Baserat på den teoretiska matematiken som ligger bakom dessa beräkningar, dividera med (n – 1) ger en bättre uppskattning av befolkningsvariansen.

notera

din koncentration bör ligga på vad standardavvikelsen berättar om data. Standardavvikelsen är ett tal som mäter hur långt uppgifterna sprids från medelvärdet., Låt en kalkylator eller dator göra aritmetiken.

standardavvikelsen, s eller σ, är antingen noll eller större än noll. När standardavvikelsen är noll finns det ingen spridning; det vill säga alla datavärden är lika med varandra. Standardavvikelsen är liten när data är alla koncentrerade nära medelvärdet, och är större när datavärdena visar mer variation från medelvärdet. När standardavvikelsen är mycket större än noll, datavärdena är mycket utspridda om medelvärdet; outliers kan göra S eller σ mycket stora.,

standardavvikelsen, när den först presenteras, kan verka oklart. Genom att grafera dina data kan du få en bättre ”känsla” för avvikelserna och standardavvikelsen. Du kommer att upptäcka att i symmetriska fördelningar kan standardavvikelsen vara till stor hjälp men i sneda fördelningar kan standardavvikelsen inte vara till stor hjälp. Anledningen är att de två sidorna av en skev fördelning har olika spridningar. I en skev fördelning är det bättre att titta på den första kvartilen, medianen, den tredje kvartilen, det minsta värdet och det största värdet., Eftersom siffror kan vara förvirrande, alltid graf dina data. Visa dina data i ett histogram eller en ruta tomt.

standardavvikelse för grupperade frekvenstabeller

minns att för grupperade data känner vi inte till enskilda datavärden, så vi kan inte beskriva det typiska värdet av data med precision. Med andra ord kan vi inte hitta det exakta medelvärdet, medianen eller läget., Vi kan dock bestämma den bästa uppskattningen av centrumets mått genom att hitta medelvärdet av de grupperade data med formeln:

medelvärde för frekvenstabell =\displaystyle\frac{{\sum(fm)}} {{{\sum(f)}}

där f = intervallfrekvenser och m = intervallmidpunkter.

precis som vi inte kunde hitta det exakta medelvärdet, kan vi inte heller hitta den exakta standardavvikelsen. Kom ihåg att standardavvikelsen numeriskt beskriver den förväntade avvikelsen som ett datavärde har från medelvärdet. På enkel engelska tillåter standardavvikelsen oss att jämföra hur” ovanliga ” enskilda data jämförs med medelvärdet.,

jämföra värden från olika datamängder

standardavvikelsen är användbar vid jämförelse av datavärden som kommer från olika datamängder. Om datauppsättningarna har olika medel och standardavvikelser kan jämförelsen av datavärdena direkt vara vilseledande.

#ofSTDEVs kallas ofta ”z-score”; vi kan använda symbolen z., I symboler blir formlerna:

prov x=\overline{x}+zs z = \frac{x – \overline{x}}{s}
befolkning X = μ + zσ Z = \frac{x – μ}{σ}

följande listor ger några fakta som ger lite mer inblick i vad standardavvikelsen berättar om fördelningen av data.,

för alla datamängder, oavsett vad fördelningen av data är:

för data som har en fördelning som är klockformad och symmetrisk:

  • cirka 68% av data ligger inom en standardavvikelse av medelvärdet.
  • cirka 95% av data ligger inom två standardavvikelser av medelvärdet.
  • mer än 99% av data ligger inom tre standardavvikelser av medelvärdet.
  • detta kallas den empiriska regeln.
  • Det är viktigt att notera att denna regel endast gäller när formen på fördelningen av data är klockformad och symmetrisk., Vi kommer att lära oss mer om detta när vi studerar” Normal ”eller” Gaussisk ” sannolikhetsfördelning i senare kapitel.

Konceptgranskning

standardavvikelsen kan hjälpa dig att beräkna spridningen av data. Det finns olika ekvationer att använda om Beräknar standardavvikelsen för ett prov eller en population.

Formelgranskning

\ displaystyle{s}_{x}=\sqrt {{{\frac {{\sum{fm}^{2}}}{{n}} – {x}^{2}}}

var \ displaystyle{s} _ {x} = prov standardavvikelse, \ displaystyle \ overline{x} = provmedelvärde

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *