Statystyki to świetna zabawa. Jest wypełniony wieloma zabawnymi słowami, jak heteroskedasticity, również pisane heteroskedasticity. To zabawne słowo na dość dziwny temat. Ale ten konkretny temat jest niezbędny do interpretacji tak wielu innych rzeczy, takich jak regresja liniowa. Przyjrzyjmy się dokładniej, czym jest heteroscedasticity i jak jest używana.,
śmieszne słowo, poważne statystyki
zasadniczo heteroskedastyczność to zakres, w jakim wariancja pozostałości zależy od zmiennej predykcyjnej. Przypomnij sobie, że wariancja to różnica między rzeczywistym wynikiem a wynikiem przewidywanym przez twój model. Pozostałości mogą się również różnić w zależności od modelu. Dane są heteroskedastyczne, jeśli ilość resztek różni się od modelu zmienia się wraz ze zmianą zmiennej predyktora.
może to być raczej abstrakcyjna definicja, więc spójrzmy na przykład.
powiedzmy, że kupujesz samochód., Oczywiście chodzi Ci o przebieg gazu, bo kto nie jest? Ponieważ jesteś zainteresowany, decydujesz się porównać liczbę cylindrów silnika do przebiegu gazu. Kiedy to zrobisz, otrzymasz wykres, który wygląda tak
istnieje ogólny wzór w dół. Ale w tym samym czasie, punkty danych wydają się być trochę rozproszone. Możliwe jest dopasowanie linii najlepszego dopasowania do danych. Ale tam brakuje wielu danych.,
w rzeczywistości wygląda na to, że punkty danych są dość rozłożone na początku, zbliżyć się, a następnie rozłożyć się ponownie. Hmmmm. To reprezentuje dane heteroscedastyczne. Oznacza to, że nasz model liniowy nie pasuje do danych zbyt dobrze, więc prawdopodobnie powinniśmy go dostosować.
po co zawracać sobie głowę Heteroskedastycznością?
Zazwyczaj oznacza to, że dzieje się coś innego i być może będziemy musieli zmienić nasz model.,
zasadniczo można sprawdzić heteroskedastyczność poprzez porównanie punktów danych do osi X. Jeśli rozchodzą się lub zbiegają, oznacza to, że zmienność pozostałości (a zatem modelu) zależy od wartości zmiennej niezależnej. To nie jest dobre dla naszego modelu. Narusza to również jedno z założeń regresji liniowej. Jeśli dane są heteroscedastyczne, musimy przemyśleć nasz model.
inne ciekawostki
Jeśli dane mogą być heteroscedastyczne, to mogą być również homoscedastyczne., Dane homoscedastyczne są wtedy, gdy zmienność pozostałości nie zmienia się tak, jak zmienna niezależna. Jeśli Twoje dane są homoscedastyczne, to dobrze. Oznacza to, że twój model dość dobrze księguje zmienne, więc powinieneś go zachować.
jednym z powszechnych nieporozumień na temat hetero – i homo-scedastyczności jest to, że ma to związek z samymi zmiennymi.
- nie ma to nic wspólnego ze zmiennymi,tylko z pozostałościami!
należy pamiętać, że pozostałości reprezentują błąd Twojego modelu., Jeśli ilość błędów w modelu zmienia się wraz ze zmianą zmiennych, nie masz bardzo dobrego modelu. Następnie nadszedł czas, aby wrócić do teoretycznej deski kreślarskiej.
Hetero – i homoscedastyczność są dość ważnymi tematami w studiowaniu pracy finansowej lub przemysłowej. Idealnie, Twoje dane byłyby homoscedastic, ale istnieją dwa rodzaje heteroscedasticity, warunkowe i bezwarunkowe.
przy bezwarunkowej heteroskedastyczności zmienna niezależna nie ma wpływu na zmienność resztek., Jednak przy warunkowej heteroskedastyczności wariancja rezydualna jest w jakiś nieprzewidziany sposób zależna od zmiennej niezależnej. Warunkowa heteroskedastyczność zwykle pojawia się z danymi szeregów czasowych.
TL;DR, heteroskedastyczność jest tendencją błędu / pozostałości do zwiększania lub zmniejszania się w miarę zmian zmiennej niezależnej. To mówi ci, że twój model nie jest gwiezdny, ponieważ coś wpływa na dane, których nie uwzględniasz w swoim modelu. Z tego powodu dane nie powinny być heteroscedastyczne dla dobrego modelu. Szczęśliwe statystyki!,