Statistik ist eine Menge Spaß. Es ist auch mit vielen lustigen Wörtern gefüllt, wie Heteroskedastizität, auch Heteroskedastizität geschrieben. Dies ist ein lustiges Wort für ein ziemlich seltsames Thema. Aber dieses spezielle Thema ist wichtig, um so viele andere Dinge zu interpretieren, wie lineare Regression. Lassen Sie uns genauer untersuchen, was Heteroskedastizität ist und wie sie verwendet wird.,
Lustiges Wort, ernsthafte Statistiken
Im Wesentlichen ist Heteroskedastizität das Ausmaß, in dem die Varianz der Residuen von der Prädiktorvariablen abhängt. Denken Sie daran, dass die Varianz die Differenz zwischen dem tatsächlichen Ergebnis und dem von Ihrem Modell vorhergesagten Ergebnis ist. Residuen können auch vom Modell abweichen. Die Daten sind heteroskedastisch, wenn sich der Betrag ändert, den die Residuen vom Modell abweichen, wenn sich die Prädiktorvariable ändert.
Dies kann eine ziemlich abstrakte Definition sein, also schauen wir uns ein Beispiel an.
Lassen Sie uns sagen, dass Sie Auto-Shopping sind., Natürlich sind Sie mit Benzinkilometer betroffen, weil wer nicht? Da Sie interessiert sind, entscheiden Sie sich, die Anzahl der Motorzylinder mit dem Benzinverbrauch zu vergleichen. Wenn Sie dies tun, erhalten Sie ein Diagramm, das wie folgt aussieht
Es gibt ein allgemein Abwärtsmuster. Gleichzeitig scheinen die Datenpunkte etwas verstreut zu sein. Es ist möglich, eine Linie der besten Anpassung an die Daten anzupassen. Aber dort fehlen viele Daten.,
Tatsächlich sieht es so aus, als wären die Datenpunkte zuerst ziemlich ausgebreitet, kommen näher und dann wieder ausgebreitet. Hmmmm. Das stellt heteroskedastische Daten dar. Dies bedeutet, dass unser lineares Modell nicht sehr gut zu den Daten passt, daher sollten wir es wahrscheinlich anpassen.
Warum die Mühe mit Heteroscedasticity?
Abgesehen davon, dass Heteroskedastizität Spaß macht, bedeutet dies, dass die Daten von etwas beeinflusst werden, für das Sie nicht verantwortlich sind. Dies bedeutet normalerweise, dass etwas anderes vor sich geht und wir möglicherweise unser Modell überarbeiten müssen.,
Im Wesentlichen kann man die Heteroskedastizität überprüfen, indem man die Datenpunkte mit der x-Achse vergleicht. Wenn sie sich ausbreiten oder konvergieren, bedeutet dies, dass die Variabilität der Residuen (und damit des Modells) vom Wert der unabhängigen Variablen abhängt. Das ist nicht gut für unser Modell. Dies verstößt auch gegen eine der Annahmen der linearen Regression. Wenn die Daten heteroskedastisch sind, müssen wir unser Modell überdenken.
Andere Leckerbissen
Wenn Daten heteroskedastisch sein können, können sie auch homoskedastisch sein., Homoscedastische Daten sind, wenn die Variabilität der Residuen nicht wie die unabhängige Variable variiert. Wenn Ihre Daten geschreddert werden, ist das eine gute Sache. Es bedeutet, dass Ihr Modell die Variablen ziemlich gut berücksichtigt, also sollten Sie es behalten.
Ein häufiges Missverständnis über Hetero – und Homo-scedasticity ist, dass es mit den Variablen selbst zu tun hat.
- Es hat nicht mit den Variablen zu tun, sondern nur mit den Residuen!
Sie müssen bedenken, dass die Residuen den Fehler Ihres Modells darstellen., Wenn sich die Fehlermenge in Ihrem Modell ändert, wenn sich die Variablen ändern, haben Sie kein sehr gutes Modell. Dann ist es Zeit, zum theoretischen Zeichenbrett zurückzukehren.
Hetero – und Homosexualität sind ziemlich wichtige Themen bei der Untersuchung finanzieller oder industrieller Tätigkeiten. Idealerweise wären Ihre Daten homoskedastisch, aber es gibt zwei Arten von Heteroskedastizität, bedingt und bedingungslos.
Bei bedingungsloser Heteroskedastizität wird die Varianz der Residuen durch die unabhängige Variable nicht beeinflusst., Bei bedingter Heteroskedastizität wird die Varianz der Residuen jedoch auf unvorhergesehene Weise von unabhängigen Variablen beeinflusst. Bedingte Heteroskedastizität wird normalerweise mit Zeitreihendaten angezeigt.
TL;DR, Heteroskedastizität ist die Tendenz der Fehler / Residuen zu erhöhen oder zu verringern, wenn sich die unabhängige Variable ändert. Dies sagt Ihnen, dass Ihr Modell nicht stellar ist, da sich etwas auf die Daten auswirkt, die Sie in Ihrem Modell nicht berücksichtigen. Aus diesem Grund sollten Daten für ein gutes Modell nicht heteroskedal sein. Glückliche Statistiken!,