Inleiding tot de statistieken

Inleiding tot de statistieken

leerresultaten

  • herkennen, beschrijven en berekenen van de metingen van de spreiding van de gegevens: variantie, standaardafwijking en bereik.

een belangrijk kenmerk van een reeks gegevens is de variatie in de gegevens. In sommige gegevensverzamelingen zijn de gegevenswaarden dicht bij het gemiddelde geconcentreerd; in andere gegevensverzamelingen zijn de gegevenswaarden breder verspreid van het gemiddelde. De meest voorkomende maat voor variatie, of spread, is de standaardafwijking., De standaardafwijking is een getal dat meet hoe ver gegevenswaarden van hun gemiddelde zijn.

de standaardafwijking geeft een numerieke maat voor de totale variatie in een gegevensverzameling en kan worden gebruikt om te bepalen of een bepaalde gegevenswaarde dicht bij of ver van het gemiddelde ligt.

de standaardafwijking geeft een maat voor de totale variatie in een gegevensverzameling.

de standaardafwijking is altijd positief of nul. De standaardafwijking is klein wanneer de gegevens dicht bij het gemiddelde zijn geconcentreerd en weinig variatie of spreiding vertonen., De standaardafwijking is groter wanneer de gegevenswaarden meer verspreid zijn van het gemiddelde, wat meer variatie vertoont.

stel dat we bestuderen hoeveel tijd klanten in de rij wachten bij de kassa bij supermarkt A en Supermarkt B. De gemiddelde wachttijd bij beide supermarkten is vijf minuten. Bij supermarkt A is de standaardafwijking voor de wachttijd twee minuten; bij supermarkt B is de standaardafwijking voor de wachttijd vier minuten.

omdat supermarkt B een hogere standaarddeviatie heeft, weten we dat er meer variatie is in de wachttijden bij Supermarkt B., Over het algemeen zijn de wachttijden bij supermarkt B meer verdeeld dan het gemiddelde; wachttijden bij supermarkt A zijn meer geconcentreerd in de buurt van het gemiddelde.

de standaardafwijking kan worden gebruikt om te bepalen of een gegevenswaarde dicht bij of ver van het gemiddelde ligt.

stel dat Rosa en Binh beide shoppen bij supermarkt A. Rosa wacht aan de kassa voor zeven minuten en Binh wacht voor een minuut. Bij supermarkt A bedraagt de gemiddelde wachttijd vijf minuten en de standaardafwijking twee minuten., De standaardafwijking kan worden gebruikt om te bepalen of een gegevenswaarde dicht bij of ver van het gemiddelde ligt.

Rosa wacht zeven minuten:

  • zeven is twee minuten langer dan het gemiddelde van vijf; twee minuten is gelijk aan één standaardafwijking.
  • Rosa ‘ s wachttijd van zeven minuten is twee minuten langer dan het gemiddelde van vijf minuten.
  • Rosa ‘ s wachttijd van zeven minuten is één standaardafwijking boven het gemiddelde van vijf minuten.

Binh wacht één minuut.,

  • Eén is vier minuten minder dan het gemiddelde van vijf; vier minuten is gelijk aan twee standaardafwijkingen.
  • Binh ‘ s wachttijd van één minuut is vier minuten minder dan het gemiddelde van vijf minuten.
  • Binh ‘ s wachttijd van één minuut is twee standaarddeviaties onder het gemiddelde van vijf minuten.

een gegevenswaarde die twee standaardafwijkingen van het gemiddelde is, ligt net op de grens voor wat veel statistici als ver van het gemiddelde zouden beschouwen., Wanneer men ervan uitgaat dat de gegevens ver van het gemiddelde liggen als deze meer dan twee standaardafwijkingen verwijderd zijn, is dit meer een benaderende “vuistregel” dan een rigide regel. In het algemeen is de vorm van de verdeling van de gegevens van invloed op hoeveel van de gegevens verder weg is dan twee standaarddeviaties. (U zult hier meer over leren in latere hoofdstukken.)

De getallenregel kan u helpen de standaardafwijking te begrijpen. Als we vijf en zeven op een getallenlijn zetten, is zeven rechts van vijf. We zeggen dan, dat zeven is
een standaardafwijking naar rechts van vijf omdat 5 + (1)(2) = 7.,

als één ook deel uitmaakte van de gegevensverzameling, dan is één twee standaardafwijkingen links van vijf omdat 5 + (-2)(2) = 1.

de vergelijkingswaarde = gemiddelde + (#ofSTDEVs)(standaardafwijking) kan worden uitgedrukt voor een steekproef en voor een populatie.

De kleine letter s staat voor de standaarddeviatie van de steekproef en de Griekse letter σ (sigma, kleine letter) staat voor de standaarddeviatie van de populatie.,

berekening van de standaardafwijking

de procedure om de standaardafwijking te berekenen hangt af van de vraag of de getallen de gehele populatie zijn of gegevens uit een steekproef. De berekeningen zijn vergelijkbaar, maar niet identiek. Daarom hangt het symbool dat wordt gebruikt om de standaardafwijking weer te geven af van de vraag of het wordt berekend op basis van een populatie of een steekproef. De kleine letter s staat voor de standaarddeviatie van de steekproef en de Griekse letter σ (sigma, kleine letter) staat voor de standaarddeviatie van de populatie., Als het monster dezelfde kenmerken heeft als de populatie, dan moet s een goede schatting van σ zijn.

als de getallen afkomstig zijn van een telling van de gehele populatie en niet van een steekproef, wanneer we het gemiddelde van de kwadraatafwijkingen berekenen om de variantie te vinden, delen we door N, het aantal items in de populatie. Als de gegevens van een steekproef in plaats van een populatie zijn, wanneer we het gemiddelde van de kwadraatafwijkingen berekenen, delen we door n – 1, één minder dan het aantal items in de steekproef.,

in de volgende video wordt een voorbeeld gegeven van het berekenen van de variantie en de standaardafwijking van een reeks gegevens.

formules voor de standaarddeviatie van het monster

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

voor de standaarddeviatie van de steekproef is de noemer n – 1, dat is de steekproefgrootte MINUS 1.,

formules voor de standaarddeviatie van de populatie

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

voor de standaarddeviatie van de populatie is de noemer N, het aantal items in de populatie.

Bemonsteringsvariabiliteit van een statistiek

hoeveel de statistiek van het ene monster tot het andere varieert, wordt de bemonsteringsvariabiliteit van een statistiek genoemd. U meet meestal de steekproefvariabiliteit van een statistiek aan de hand van de standaardfout., De standaardfout van het gemiddelde is een voorbeeld van een standaardfout. Het is een speciale standaardafwijking en staat bekend als de standaardafwijking van de steekproefverdeling van het gemiddelde. U zult de standaardfout van het gemiddelde behandelen wanneer u over de centrale limietstelling leert (niet nu). De notatie voor de standaardfout van het gemiddelde is \displaystyle \ frac {{\sigma}}{{\sqrt{n}}} waarin σ de standaarddeviatie van de populatie is en n de grootte van de steekproef.

Note

in de praktijk wordt de standaardafwijking berekend met behulp van een rekenmachine of computersoftware., Als u een TI-83, 83+, 84+ calculator gebruikt, moet u de juiste standaardafwijking σ_x of s_x uit de samenvattende statistieken selecteren. We zullen ons concentreren op het gebruik en de interpretatie van de informatie die de standaardafwijking ons geeft. U moet echter het volgende stap-voor-stap voorbeeld bestuderen om u te helpen begrijpen hoe de standaardafwijking variatie van het gemiddelde meet. (De rekenmachine instructies verschijnen aan het einde van dit voorbeeld.,)

verklaring van de berekening van de standaardafwijking in de tabel

de afwijkingen geven aan hoe de spreiding van de gegevens over het gemiddelde is. De gegevenswaarde 11.5 ligt verder van het gemiddelde dan de gegevenswaarde 11 die wordt aangegeven door de afwijkingen 0,97 en 0,47. Een positieve afwijking treedt op wanneer de gegevenswaarde groter is dan het gemiddelde, terwijl een negatieve afwijking optreedt wanneer de gegevenswaarde kleiner is dan het gemiddelde. De afwijking is -1,525 voor de gegevenswaarde negen. Als je de afwijkingen optelt, is de som altijd nul. (Bijvoorbeeld 1, Er zijn n = 20 afwijkingen.,) Dus je kunt niet gewoon de afwijkingen toe te voegen aan de verspreiding van de gegevens te krijgen. Door de afwijkingen te kwadrateren, maak je ze positieve getallen, en de som zal ook positief zijn. De variantie is dan de gemiddelde kwadraatafwijking.

de variantie is een kwadraatmaat en heeft niet dezelfde eenheden als de gegevens. Het nemen van de vierkantswortel lost het probleem op. De standaardafwijking meet de spreiding in dezelfde eenheden als de gegevens.

merk op dat in plaats van te delen door n= 20, de berekening gedeeld door N – 1 = 20 – 1 = 19 omdat de gegevens een monster zijn., Voor de steekproefvariantie delen we door de steekproefgrootte min één (n – 1). Waarom niet delen door n? Het antwoord heeft te maken met de populatievariantie. De steekproefvariantie is een schatting van de populatievariantie. Op basis van de theoretische wiskunde die achter deze berekeningen ligt, geeft delen door (n – 1) een betere schatting van de populatievariantie.

Note

uw concentratie moet liggen op wat de standaardafwijking ons over de gegevens vertelt. De standaardafwijking is een getal dat meet hoe ver de gegevens van het gemiddelde zijn verdeeld., Laat een rekenmachine of computer de rekenkunde doen.

de standaardafwijking, s of σ, is nul of groter dan nul. Wanneer de standaardafwijking nul is, is er geen spreiding; dat wil zeggen dat alle gegevenswaarden gelijk zijn aan elkaar. De standaardafwijking is klein wanneer de gegevens dicht bij het gemiddelde zijn geconcentreerd, en groter wanneer de gegevenswaarden meer variatie van het gemiddelde tonen. Wanneer de standaardafwijking veel groter is dan nul, zijn de gegevenswaarden zeer verspreid over het gemiddelde; uitschieters kunnen s of σ zeer groot maken.,

de standaardafwijking, wanneer deze voor het eerst wordt gepresenteerd, kan onduidelijk lijken. Door het grafieken van uw gegevens, kunt u een beter “gevoel” voor de afwijkingen en de standaardafwijking te krijgen. U zult merken dat in symmetrische distributies, de standaardafwijking kan zeer nuttig zijn, maar in scheve distributies, de standaardafwijking kan niet veel helpen. De reden is dat de twee kanten van een scheve distributie verschillende spreads hebben. In een scheve verdeling is het beter om te kijken naar het eerste kwartiel, de mediaan, het derde kwartiel, de kleinste en de grootste waarde., Omdat getallen verwarrend kunnen zijn, grafieken altijd uw gegevens. Toon uw gegevens in een histogram of een box plot.

standaardafwijking van gegroepeerde Frequentietabellen

bedenk dat we voor gegroepeerde gegevens geen individuele gegevenswaarden kennen, zodat we de typische waarde van de gegevens niet nauwkeurig kunnen beschrijven. Met andere woorden, we kunnen het exacte gemiddelde, mediaan of modus niet vinden., We kunnen echter de beste schatting van de maten van het centrum bepalen door het gemiddelde van de gegroepeerde gegevens te vinden met de formule:

gemiddelde van de frequentietabel =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

waarbij f = intervalfrequenties en m = interval midpoints.

net zoals we het exacte gemiddelde niet konden vinden, kunnen we ook de exacte standaardafwijking niet vinden. Onthoud dat de standaardafwijking numeriek de verwachte afwijking van een gegevenswaarde ten opzichte van het gemiddelde beschrijft. In eenvoudig Engels stelt de standaardafwijking ons in staat om te vergelijken hoe “ongewone” individuele gegevens worden vergeleken met het gemiddelde.,

waarden uit verschillende gegevensverzamelingen vergelijken

de standaardafwijking is nuttig bij het vergelijken van gegevenswaarden uit verschillende gegevensverzamelingen. Als de gegevensreeksen verschillende middelen en standaardafwijkingen hebben, kan het direct vergelijken van de gegevenswaarden misleidend zijn.

#ofSTDEVs wordt vaak een “Z-score” genoemd; we kunnen het symbool z gebruiken., In symbolen, formules worden:

Voorbeeld x=\overline{x}+zs z = \frac{x – \overline{x}}{s}
Inwoners x = μ + zσ z = \frac{x – μ}{σ}

De volgende lijst geeft een aantal feiten die een beetje meer inzicht in wat de standaarddeviatie vertelt ons over de verdeling van de gegevens.,

voor elke gegevensverzameling, ongeacht de verdeling van de gegevens:

Voor gegevens met een klokvormige en symmetrische verdeling:

  • ongeveer 68% van de gegevens ligt binnen één standaardafwijking van het gemiddelde.
  • ongeveer 95% van de gegevens ligt binnen twee standaardafwijkingen van het gemiddelde.
  • meer dan 99% van de gegevens ligt binnen drie standaardafwijkingen van het gemiddelde.
  • Dit staat bekend als de empirische regel.
  • het is belangrijk op te merken dat deze regel alleen van toepassing is wanneer de vorm van de verdeling van de gegevens klokvormig en symmetrisch is., We zullen hier meer over leren bij het bestuderen van de” normale “of” Gaussiaanse ” kansverdeling in latere hoofdstukken.

Concept Review

de standaardafwijking kan u helpen de spreiding van gegevens te berekenen. Er zijn verschillende vergelijkingen te gebruiken als de standaardafwijking van een steekproef of van een populatie wordt berekend.

Formula Review

\displaystyle{s}_{x} = \sqrt{{\frac {{\sum{fm}^{2}}}{{n}} – {x}^{2}}}

waar \displaystyle{s}_{x} = standaarddeviatie van het monster,\displaystyle \ overline{x} = gemiddelde van het monster

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *