Miary rozprzestrzeniania danych / Wprowadzenie do statystyki

efekty uczenia się

Rozpoznaj, Opisz i Oblicz miary rozprzestrzeniania danych: wariancję, odchylenie standardowe i zakres.

ważną cechą każdego zbioru danych jest zmienność danych. W niektórych zestawach danych, wartości danych są skoncentrowane blisko średniej; w innych zestawach danych, wartości danych są bardziej szeroko rozłożone od średniej. Najczęstszą miarą zmienności lub rozprzestrzeniania się jest odchylenie standardowe., Odchylenie standardowe to liczba, która mierzy, jak daleko wartości danych są od ich średniej.

odchylenie standardowe zapewnia miarę liczbową ogólnej ilości zmian w zbiorze danych i może być używane do określenia, czy dana wartość danych jest bliska lub daleko od średniej.

odchylenie standardowe stanowi miarę ogólnej zmiany w zbiorze danych.

odchylenie standardowe jest zawsze dodatnie lub zerowe. Odchylenie standardowe jest małe, gdy wszystkie dane są skoncentrowane blisko średniej, wykazując niewielką zmienność lub rozprzestrzenianie., Odchylenie standardowe jest większe, gdy wartości danych są bardziej rozłożone od średniej, wykazując większą zmienność.

Załóżmy, że badamy ilość czasu oczekiwania klientów w kolejce do kasy w supermarkecie A i supermarkecie B. średni czas oczekiwania w obu supermarketach wynosi pięć minut. W supermarkecie A odchylenie standardowe dla czasu oczekiwania wynosi dwie minuty; w supermarkecie B odchylenie standardowe dla czasu oczekiwania wynosi cztery minuty.

ponieważ supermarket B ma wyższe odchylenie standardowe, wiemy, że w supermarkecie B jest więcej różnic w czasie oczekiwania., Ogólnie rzecz biorąc, czas oczekiwania w supermarkecie B jest bardziej rozłożony od średniej; czas oczekiwania w supermarkecie A jest bardziej skoncentrowany w pobliżu średniej.

odchylenie standardowe można wykorzystać do określenia, czy wartość danych jest bliska lub daleka od średniej.

Załóżmy, że Rosa i Binh robią zakupy w supermarkecie A. Rosa czeka przy kasie przez siedem minut, a Binh czeka na minutę. W supermarkecie a średni czas oczekiwania wynosi pięć minut, a odchylenie standardowe wynosi dwie minuty., Odchylenie standardowe może być wykorzystane do określenia, czy wartość danych jest zbliżona do średniej lub daleko od niej.

Rosa czeka na siedem minut:

siedem jest o dwie minuty dłuższe od średniej pięciu; dwie minuty są równe jednemu odchyleniu standardowemu.
czas oczekiwania rosy wynoszący siedem minut jest o dwie minuty dłuższy niż średnio pięć minut.
czas oczekiwania rosy wynoszący siedem minut to jedno odchylenie standardowe Powyżej średniej pięciu minut.

jedna jest o cztery minuty mniejsza od średniej pięciu; cztery minuty są równe dwóm odchyleniom standardowym.
czas oczekiwania Binh ' a wynoszący jedną minutę wynosi cztery minuty mniej niż średnio pięć minut.
czas oczekiwania Binha wynoszący jedną minutę to dwa odchylenia standardowe poniżej średniej pięciu minut.

wartość danych, która jest dwoma odchyleniami standardowymi od średniej, znajduje się na granicy tego, co wielu statystyków uznałoby za dalekie od średniej., Biorąc pod uwagę, że dane są dalekie od średniej, jeśli jest więcej niż dwa odchylenia standardowe, jest bardziej przybliżona „zasada kciuka” niż sztywna reguła. Ogólnie rzecz biorąc, kształt rozkładu danych wpływa na to, ile danych jest dalej niż dwa odchylenia standardowe. (Więcej na ten temat dowiesz się w kolejnych rozdziałach.)

linia liczbowa może pomóc w zrozumieniu odchylenia standardowego. Jeśli postawimy pięć i siedem na linii liczbowej, siedem jest na prawo od pięciu. Mówimy więc, że siedem to
jedno odchylenie standardowe na prawo od pięciu, ponieważ 5 + (1)(2) = 7.,

Jeśli jeden był również częścią zbioru danych, to jeden jest dwoma odchyleniami standardowymi na lewo od pięciu, ponieważ 5 + (-2)(2) = 1.

wartość równania = średnia + (#ofSTDEVs)(odchylenie standardowe) może być wyrażona dla próbki i dla populacji.

mała litera S reprezentuje odchylenie standardowe próbki, a grecka litera σ (sigma, małe litery) reprezentuje odchylenie standardowe populacji.,

Obliczanie odchylenia standardowego

procedura obliczania odchylenia standardowego zależy od tego, czy liczby stanowią całą populację, czy też są danymi z próby. Obliczenia są podobne, ale nie identyczne. Dlatego też symbol używany do reprezentowania odchylenia standardowego zależy od tego, czy jest on obliczany z populacji czy próbki. Mała litera s reprezentuje odchylenie standardowe próbki i grecka litera σ (sigma, małe litery) reprezentuje odchylenie standardowe populacji., Jeśli próbka ma takie same cechy jak populacja, to s powinien być dobrym oszacowaniem σ.

Jeśli liczby pochodzą ze spisu całej populacji, a nie próbki, kiedy obliczamy średnią kwadratowych odchyleń, aby znaleźć wariancję, dzielimy przez N, liczbę pozycji w populacji. Jeśli dane pochodzą z próby, a nie populacji, kiedy obliczamy średnią kwadratowych odchyleń, dzielimy przez n-1, jeden mniej niż liczba pozycji w próbie.,

w poniższym filmie przedstawiono przykład obliczania wariancji i odchylenia standardowego zbioru danych.

wzory dla odchylenia standardowego próbki

\displaystyle{s}=\sqrt{{\frac{{\sum{({x}-\overline{{x}})}^{{2}}}}{{{n}-{1}}}}}{\quad\text{or}\quad}{s}=\sqrt{{\frac{{\sum{f{{({x}-\overline{{x}})}}}^{{2}}}}{{{n}-{1}}}}}

dla odchylenia standardowego próbki mianownikiem jest N-1, czyli wielkość próbki MINUS 1.,

wzory dla odchylenia standardowego populacji

\displaystyle\sigma=\sqrt{{\frac{{\sum{({x}-\mu)}^{{2}}}}{{{N}}}}}{\quad\text{or}\quad}\sigma=\sqrt{{\frac{{\sum{f{{({x}-\mu)}}}^{{2}}}}{{{N}}}}}p

dla odchylenia standardowego populacji mianownikiem jest N, Liczba pozycji w populacji.

zmienność pobierania próbek statystyki

ile statystyka waha się od jednej próbki do drugiej jest znany jako zmienność pobierania próbek statystyki. Zazwyczaj mierzysz zmienność próbkowania statystyki przez jej standardowy błąd., Błąd standardowy średniej jest przykładem błędu standardowego. Jest to specjalne odchylenie standardowe i jest znany jako odchylenie standardowe rozkładu pobierania próbek średniej. Omówisz standardowy błąd średniej, gdy dowiesz się o Centralnym twierdzeniu granicznym (nie teraz). Zapis błędu standardowego średniej to \displaystyle \ frac {{\sigma}} {{\sqrt{n}}}, gdzie σ jest odchyleniem standardowym populacji, a n jest wielkością próby.

Uwaga

w praktyce do obliczenia odchylenia standardowego stosuje się Kalkulator lub oprogramowanie komputerowe., Jeśli używasz kalkulatora TI-83, 83+, 84+, musisz wybrać odpowiednie odchylenie standardowe σ_x lub s_x ze statystyk podsumowujących. Skupimy się na wykorzystaniu i interpretacji informacji, które daje nam odchylenie standardowe. Jednak należy przestudiować poniższy przykład krok po kroku, aby pomóc zrozumieć, w jaki sposób odchylenie standardowe mierzy odchylenie od średniej. (Instrukcje kalkulatora pojawiają się na końcu tego przykładu.,)

Wyjaśnienie obliczenia odchylenia standardowego pokazanego w tabeli

odchylenia pokazują, jak rozłożone są dane dotyczące średniej. Wartość danych 11,5 jest dalej od średniej niż jest wartość danych 11, która jest wskazywana przez odchylenia 0,97 i 0,47. Dodatnie odchylenie występuje, gdy wartość danych jest większa niż średnia, natomiast ujemne odchylenie występuje, gdy wartość danych jest mniejsza niż średnia. Odchylenie wynosi -1.525 dla wartości danych dziewięć. Jeśli dodasz odchylenia, suma jest zawsze równa zero. (Na przykład 1, istnieje N = 20 odchyleń.,) Więc nie można po prostu dodać odchylenia, aby uzyskać rozprzestrzenianie się danych. Wyrównując odchylenia, tworzysz liczby dodatnie, a suma będzie również dodatnia. Wariancja jest więc średnią odchyleniem do kwadratu.

wariancja jest miarą kwadratową i nie ma tych samych jednostek, co dane. Wzięcie pierwiastka kwadratowego rozwiązuje problem. Odchylenie standardowe mierzy rozrzut w tych samych jednostkach, co dane.

zauważ, że zamiast dzielenia przez n= 20, obliczenie dzielone przez n – 1 = 20-1 = 19, ponieważ dane są próbką., Dla wariancji próbki dzielimy przez wielkość próbki minus jeden (n-1). Dlaczego nie podzielić przez n? Odpowiedź ma związek z wariancją populacji. Wariancja próbki jest oszacowanie wariancji populacji. W oparciu o matematykę teoretyczną, która leży za tymi obliczeniami, dzielenie przez (n-1) daje lepsze oszacowanie wariancji populacji.

Uwaga

twoja koncentracja powinna być na tym, co odchylenie standardowe mówi nam o danych. Odchylenie standardowe jest liczbą, która mierzy, jak daleko dane są rozłożone od średniej., Niech Kalkulator lub komputer zrobić arytmetykę.

odchylenie standardowe, s lub σ, jest równe zeru lub większe od zera. Gdy odchylenie standardowe wynosi zero, nie ma spreadu; to znaczy, wszystkie wartości danych są sobie równe. Odchylenie standardowe jest małe, gdy dane są skoncentrowane w pobliżu średniej, i jest większe, gdy wartości danych pokazują więcej zmian od średniej. Gdy odchylenie standardowe jest dużo większy niż zero, wartości danych są bardzo rozłożone na temat średniej; odstające mogą s lub σ bardzo duże.,

odchylenie standardowe, kiedy zostało przedstawione po raz pierwszy, może wydawać się niejasne. Poprzez wykresy danych można uzyskać lepsze „wyczucie” dla odchyleń i odchylenia standardowego. Przekonasz się, że w rozkładach symetrycznych odchylenie standardowe może być bardzo pomocne, ale w rozkładach przekrzywionych odchylenie standardowe może nie być zbyt pomocne. Powodem jest to, że dwie strony przekrzywionego rozkładu mają różne spready. W przekrzywionym rozkładzie lepiej spojrzeć na pierwszy kwartyl, medianę, trzeci kwartyl, najmniejszą wartość i największą wartość., Ponieważ liczby mogą być mylące, zawsze wykresuj dane. Wyświetlanie danych w histogramie lub wykresie pudełkowym.

odchylenie standardowe tabel częstotliwości zgrupowanych

Przypomnijmy, że dla danych zgrupowanych nie znamy indywidualnych wartości danych, więc nie możemy precyzyjnie opisać typowej wartości danych. Innymi słowy, nie możemy znaleźć dokładnej średniej, mediany ani trybu., Możemy jednak określić najlepsze oszacowanie miar środka, znajdując średnią danych zgrupowanych ze wzoru:

średnia z tabeli częstotliwości =\displaystyle \ frac {{\sum(fm)}} {{\sum(f)}}

gdzie f = częstotliwości interwału I m = punkty środkowe interwału.

tak jak nie mogliśmy znaleźć dokładnej średniej, tak samo nie możemy znaleźć dokładnego odchylenia standardowego. Należy pamiętać, że odchylenie standardowe opisuje liczbowo oczekiwane odchylenie wartość danych ma od średniej. W prostym języku angielskim odchylenie standardowe pozwala nam porównać, jak „nietypowe” dane indywidualne są porównywane ze średnią.,

porównywanie wartości z różnych zestawów danych

odchylenie standardowe jest przydatne przy porównywaniu wartości danych pochodzących z różnych zestawów danych. Jeśli zbiory danych mają różne średnie i odchylenia standardowe, porównanie wartości danych bezpośrednio może być mylące.

#ofSTDEVs jest często nazywany „Z-score”; możemy użyć symbolu z., W symbolach formuły stają się:

próbka	X=\overline{x}+zs	z = \frac{x – \overline{X}}{s}
populacja	x = μ + zσ	z = \frac{x – μ}{σ}

poniższe listy zawierają kilka faktów, które dają nieco więcej wglądu w to, co odchylenie standardowe mówi nam o rozkładzie danych.,

dla dowolnego zbioru danych, bez względu na rozkład danych:

dla danych o rozkładzie DZWONKOWATYM i symetrycznym:

około 68% danych mieści się w granicach jednego odchylenia standardowego średniej.
około 95% danych mieści się w granicach dwóch odchyleń standardowych od średniej.
ponad 99% danych mieści się w granicach trzech odchyleń standardowych od średniej.
jest to tzw. reguła empiryczna.
należy pamiętać, że reguła ta ma zastosowanie tylko wtedy, gdy kształt rozkładu danych jest dzwonkowaty i symetryczny., Dowiemy się więcej na ten temat, badając „normalny ” lub” Gaussian ” rozkład prawdopodobieństwa w późniejszych rozdziałach.

przegląd koncepcji

odchylenie standardowe może pomóc w obliczeniu rozprzestrzeniania się danych. Istnieją różne równania do wykorzystania, jeśli obliczają odchylenie standardowe próbki lub populacji.

przegląd Formuły

\displaystyle{S}_{x}= \ sqrt{{\frac {{\sum {fm}^{2}}} {{n}} – {x}^{2}}}

gdzie \ displaystyle{S} _ {x} = odchylenie standardowe próbki, \displaystyle \ overline{x} = średnia próbki

efekty uczenia się

odchylenie standardowe stanowi miarę ogólnej zmiany w zbiorze danych.

odchylenie standardowe można wykorzystać do określenia, czy wartość danych jest bliska lub daleka od średniej.

Obliczanie odchylenia standardowego

wzory dla odchylenia standardowego próbki

wzory dla odchylenia standardowego populacji

zmienność pobierania próbek statystyki

Uwaga

Wyjaśnienie obliczenia odchylenia standardowego pokazanego w tabeli

Uwaga

odchylenie standardowe tabel częstotliwości zgrupowanych

porównywanie wartości z różnych zestawów danych

przegląd koncepcji

przegląd Formuły

Dodaj komentarz Anuluj pisanie odpowiedzi