Einführung in die Statistik

Einführung in die Statistik

Lernergebnisse

  • Erkennen, beschreiben und berechnen Sie die Maße der Datenverbreitung: Varianz, Standardabweichung und Bereich.

Ein wichtiges Merkmal eines beliebigen Datensatzes ist die Variation der Daten. In einigen Datensätzen sind die Datenwerte nahe am Mittelwert konzentriert; in anderen Datensätzen sind die Datenwerte weiter vom Mittelwert entfernt. Das häufigste Maß für die Variation oder Streuung ist die Standardabweichung., Die Standardabweichung ist eine Zahl, die misst, wie weit Datenwerte von ihrem Mittelwert entfernt sind.

Die Standardabweichung liefert ein numerisches Maß für die Gesamtschwankungsmenge in einem Datensatz und kann verwendet werden, um zu bestimmen, ob ein bestimmter Datenwert nahe oder weit vom Mittelwert entfernt ist.

Die Standardabweichung liefert ein Maß für die Gesamtvariation in einem Datensatz.

Die Standardabweichung ist immer positiv oder Null. Die Standardabweichung ist gering, wenn die Daten alle nahe am Mittelwert konzentriert sind und nur geringe Abweichungen oder Streuungen aufweisen., Die Standardabweichung ist größer, wenn die Datenwerte stärker vom Mittelwert verteilt sind und mehr Variationen aufweisen.

Angenommen, wir untersuchen, wie lange Kunden an der Kasse von Supermarkt A und Supermarkt B in der Schlange warten B. Die durchschnittliche Wartezeit in beiden Supermärkten beträgt fünf Minuten. Im Supermarkt A beträgt die Standardabweichung für die Wartezeit zwei Minuten; Im Supermarkt B beträgt die Standardabweichung für die Wartezeit vier Minuten.

Da Supermarkt B eine höhere Standardabweichung aufweist, wissen wir, dass die Wartezeiten im Supermarkt B stärker variieren., Insgesamt sind die Wartezeiten im Supermarkt B mehr vom Durchschnitt verteilt; Wartezeiten im Supermarkt A sind konzentrierter in der Nähe des Durchschnitts.

Mit der Standardabweichung kann ermittelt werden, ob ein Datenwert nahe oder weit vom Mittelwert liegt.

Angenommen, Rosa und Binh kaufen beide im Supermarkt A. Rosa wartet sieben Minuten an der Kasse und Binh wartet eine Minute. Bei Supermarkt A beträgt die mittlere Wartezeit fünf Minuten und die Standardabweichung zwei Minuten., Die Standardabweichung kann verwendet werden, um zu bestimmen, ob ein Datenwert nahe oder weit vom Mittelwert liegt.

Rosa wartet sieben Minuten:

  • Sieben ist zwei Minuten länger als der Durchschnitt von fünf; zwei Minuten sind gleich einer Standardabweichung.
  • Rosas Wartezeit von sieben Minuten ist zwei Minuten länger als der Durchschnitt von fünf Minuten.
  • Rosas Wartezeit von sieben Minuten ist eine Standardabweichung über dem Durchschnitt von fünf Minuten.

Binh wartet eine minute.,

  • Eins ist vier Minuten weniger als der Durchschnitt von fünf; vier Minuten sind gleich zwei Standardabweichungen.
  • Binhs Wartezeit von einer Minute ist vier Minuten weniger als der Durchschnitt von fünf Minuten.
  • Binhs Wartezeit von einer Minute liegt um zwei Standardabweichungen unter dem Durchschnitt von fünf Minuten.

Ein Datenwert, der zwei Standardabweichungen vom Durchschnitt darstellt, liegt nur an der Grenze dessen, was viele Statistiker für weit vom Durchschnitt entfernt halten würden., Wenn Daten weit vom Mittelwert entfernt sind, wenn sie mehr als zwei Standardabweichungen aufweisen, ist dies eher eine ungefähre „Faustregel“ als eine starre Regel. Im Allgemeinen beeinflusst die Form der Verteilung der Daten, wie viel von den Daten weiter entfernt ist als zwei Standardabweichungen. (Sie werden mehr darüber in späteren Kapiteln erfahren.)

Die Zahlenzeile kann Ihnen helfen, die Standardabweichung zu verstehen. Wenn wir fünf und sieben auf eine Zahlenlinie setzen würden, ist sieben rechts von fünf. Wir sagen also, dass sieben
eine Standardabweichung rechts von fünf ist, weil 5 + (1)(2) = 7.,

Wenn man auch Teil des Datensatzes wäre, dann sind es zwei Standardabweichungen links von fünf. 5 + (-2)(2) = 1.

Der Gleichungswert = mean + (#ofSTDEVs)(Standardabweichung) kann für eine Stichprobe und für eine Population ausgedrückt werden.

Der Kleinbuchstabe s steht für die Standardabweichung der Stichprobe und der griechische Buchstabe σ (sigma, Kleinbuchstaben) für die Standardabweichung der Grundgesamtheit.,

Berechnung der Standardabweichung

Das Verfahren zur Berechnung der Standardabweichung hängt davon ab, ob die Zahlen die gesamte Grundgesamtheit oder Daten aus einer Stichprobe sind. Die Berechnungen sind ähnlich, aber nicht identisch. Daher hängt das zur Darstellung der Standardabweichung verwendete Symbol davon ab, ob es aus einer Grundgesamtheit oder einer Stichprobe berechnet wird. Der Kleinbuchstabe s steht für die Standardabweichung der Stichprobe und der griechische Buchstabe σ (sigma, Kleinbuchstaben) für die Standardabweichung der Grundgesamtheit., Wenn die Stichprobe die gleichen Eigenschaften wie die Population aufweist, sollte s eine gute Schätzung von σ sein.

Wenn die Zahlen aus einer Volkszählung der gesamten Bevölkerung und nicht aus einer Stichprobe stammen, dividieren wir bei der Berechnung des Durchschnitts der quadratischen Abweichungen, um die Varianz zu ermitteln, durch N, die Anzahl der Elemente in der Bevölkerung. Wenn die Daten aus einer Stichprobe und nicht aus einer Grundgesamtheit stammen, dividieren wir bei der Berechnung des Durchschnitts der quadratischen Abweichungen durch n – 1, eines weniger als die Anzahl der Elemente in der Stichprobe.,

Im folgenden Video wird ein Beispiel zur Berechnung der Varianz und Standardabweichung eines Datensatzes dargestellt.

Formeln für die Stichprobenstandardabweichung

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

Für die Stichprobenstandardabweichung ist der Nenner n-1, also die Stichprobengröße MINUS 1.,

Formeln für die Grundgesamtheit Standardabweichung

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}

Für die Populationsstandardabweichung ist der Nenner N, die Anzahl der Elemente in der Population.

Stichprobenvariabilität einer Statistik

Wie stark die Statistik von einer Stichprobe zur anderen variiert, wird als Stichprobenvariabilität einer Statistik bezeichnet. In der Regel messen Sie die Stichprobenvariabilität einer Statistik anhand ihres Standardfehlers., Der Standardfehler des Mittelwerts ist ein Beispiel für einen Standardfehler. Es ist eine spezielle Standardabweichung und wird als Standardabweichung der Abtastverteilung des Mittels bezeichnet. Sie decken den Standardfehler des Mittelwerts ab, wenn Sie etwas über den zentralen Grenzwertsatz erfahren (nicht jetzt). Die Notation für den Standardfehler des Mittelwerts lautet \displaystyle\frac{{\sigma}}{{\sqrt{n}}} wobei σ die Standardabweichung der Grundgesamtheit und n die Größe der Stichprobe ist.

Hinweis

Verwenden Sie in der Praxis einen Taschenrechner oder eine Computersoftware, um die Standardabweichung zu berechnen., Wenn Sie einen TI-83 -, 83+ -, 84+ – Rechner verwenden, müssen Sie die entsprechende Standardabweichung σ_x oder s_x aus der zusammenfassenden Statistik auswählen. Wir konzentrieren uns auf die Verwendung und Interpretation der Informationen, die uns die Standardabweichung gibt. Sie sollten jedoch das folgende Schritt-für-Schritt-Beispiel studieren, um zu verstehen, wie die Standardabweichung Abweichungen vom Mittelwert misst. (Die Anweisungen für den Taschenrechner werden am Ende dieses Beispiels angezeigt.,)

Erläuterung der Standardabweichungsberechnung in der Tabelle

Die Abweichungen zeigen, wie verteilt die Daten über den Mittelwert sind. Der Datenwert 11.5 ist weiter vom Mittelwert entfernt als der Datenwert 11, der durch die Abweichungen 0.97 und 0.47 angezeigt wird. Eine positive Abweichung tritt auf, wenn der Datenwert größer als der Mittelwert ist, während eine negative Abweichung auftritt, wenn der Datenwert kleiner als der Mittelwert ist. Die Abweichung beträgt -1.525 für den Datenwert neun. Wenn Sie die Abweichungen addieren, ist die Summe immer Null. (Zum Beispiel 1 gibt es n = 20 Abweichungen.,) Sie können also nicht einfach die Abweichungen hinzufügen, um die Verbreitung der Daten zu erhalten. Indem Sie die Abweichungen quadrieren, machen Sie sie zu positiven Zahlen, und die Summe wird auch positiv sein. Die Varianz ist also die durchschnittliche quadratische Abweichung.

Die Varianz ist ein quadratisches Maß und hat nicht die gleichen Einheiten wie die Daten. Die Quadratwurzel löst das problem. Die Standardabweichung misst den Spread in den gleichen Einheiten wie die Daten.

Beachten Sie, dass anstelle der Division durch n= 20 die Berechnung durch n – 1 = 20 – 1 = 19 geteilt wird, da die Daten eine Stichprobe sind., Für die Stichprobenvarianz dividieren wir durch die Stichprobengröße minus eins (n – 1). Warum nicht durch n teilen? Die Antwort hat mit der Bevölkerungsvarianz zu tun. Die Stichprobenvarianz ist eine Schätzung der Populationsvarianz. Basierend auf der theoretischen Mathematik, die hinter diesen Berechnungen liegt, ergibt die Division durch (n-1) eine bessere Schätzung der Populationsvarianz.

Hinweis

Ihre Konzentration sollte darauf gerichtet sein, was uns die Standardabweichung über die Daten sagt. Die Standardabweichung ist eine Zahl, die misst, wie weit die Daten vom Mittelwert entfernt sind., Lassen Sie einen Taschenrechner oder Computer die Arithmetik durchführen.

Die Standardabweichung s oder σ ist entweder Null oder größer als Null. Wenn die Standardabweichung Null ist, gibt es keine Streuung; das heißt, alle Datenwerte sind gleich. Die Standardabweichung ist gering, wenn die Daten alle nahe am Mittelwert konzentriert sind, und größer, wenn die Datenwerte mehr Abweichungen vom Mittelwert aufweisen. Wenn die Standardabweichung viel größer als Null ist, sind die Datenwerte sehr weit über den Mittelwert verteilt; Ausreißer können s oder σ sehr groß machen.,

Die Standardabweichung kann bei der ersten Darstellung unklar erscheinen. Indem Sie Ihre Daten grafisch darstellen, erhalten Sie ein besseres „Gefühl“ für die Abweichungen und die Standardabweichung. Sie werden feststellen, dass bei symmetrischen Verteilungen die Standardabweichung sehr hilfreich sein kann, aber bei verzerrten Verteilungen ist die Standardabweichung möglicherweise keine große Hilfe. Der Grund dafür ist, dass die beiden Seiten einer schiefen Verteilung unterschiedliche Spreads haben. In einer verzerrten Verteilung ist es besser, das erste Quartil, den Median, das dritte Quartil, den kleinsten Wert und den größten Wert zu betrachten., Da Zahlen verwirrend sein können, zeichnen Sie immer Ihre Daten. Zeigen Sie Ihre Daten in einem Histogramm oder einem Felddiagramm an.

Standardabweichung gruppierter Frequenztabellen

Denken Sie daran, dass wir für gruppierte Daten keine einzelnen Datenwerte kennen, sodass wir den typischen Wert der Daten nicht genau beschreiben können. Mit anderen Worten, wir können den genauen Mittelwert, Median oder Modus nicht finden., Wir können jedoch die beste Schätzung der Mittelwerte ermitteln, indem wir den Mittelwert der gruppierten Daten mit der Formel ermitteln:

Mittelwert der Frequenztabelle =\displaystyle\frac{{\sum(fm)}}{{\sum(f)}}

wobei f = Intervallfrequenzen und m = Intervallmittelpunkte.

So wie wir den genauen Mittelwert nicht finden konnten, können wir auch nicht die genaue Standardabweichung finden. Denken Sie daran, dass die Standardabweichung numerisch die erwartete Abweichung beschreibt, die ein Datenwert vom Mittelwert hat. In einfachem Englisch können wir anhand der Standardabweichung vergleichen, wie „ungewöhnliche“ Einzeldaten mit dem Mittelwert verglichen werden.,

Werte aus verschiedenen Datensätzen vergleichen

Die Standardabweichung ist nützlich, wenn Datenwerte aus verschiedenen Datensätzen verglichen werden. Wenn die Datensätze unterschiedliche Mittel-und Standardabweichungen aufweisen, kann ein direkter Vergleich der Datenwerte irreführend sein.

#ofSTDEVs wird oft als „z-Score“ bezeichnet; Wir können das Symbol z verwenden., In Symbolen, die Formeln werden:

Beispiel x=\überstrichen{x}+zs z = \frac{x – \überstrichen{x}}{N}
Bevölkerung x = µ + zσ z = \frac{x – μ}{σ}

Die folgenden Listen geben, ein paar Fakten, die ein wenig mehr Einblick in das, was die Standardabweichung sagt uns über die Verteilung der Daten.,

Für JEDEN Datensatz, unabhängig von der Verteilung der Daten:

Für Daten mit einer glockenförmigen und SYMMETRISCHEN Verteilung:

  • Ungefähr 68% der Daten liegen innerhalb einer Standardabweichung des Mittelwerts.
  • Ungefähr 95% der Daten liegen innerhalb von zwei Standardabweichungen des Mittelwerts.
  • Mehr als 99% der Daten liegen innerhalb von drei Standardabweichungen des Mittelwerts.
  • Dies wird als Empirische Regel bezeichnet.
  • Es ist wichtig zu beachten, dass diese Regel nur gilt, wenn die Form der Verteilung der Daten glockenförmig und symmetrisch ist., Wir werden mehr darüber erfahren, wenn wir die „Normale“ oder „Gaußsche“ Wahrscheinlichkeitsverteilung in späteren Kapiteln studieren.

Konzeptüberprüfung

Die Standardabweichung kann Ihnen bei der Berechnung der Datenverteilung helfen. Es gibt verschiedene Gleichungen zu verwenden, wenn die Standardabweichung einer Stichprobe oder einer Population berechnet wird.

Formula Review

\displaystyle{s}_{x}=\sqrt {{\frac {\sum{fm}^{2}}}{{n}} – {x}^{2}}}

wobei \displaystyle{s}_{x} = Beispielstandardabweichung, \displaystyle\overline{x} = Beispielmittel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.