statistik är mycket roligt. Den är fylld med massor av roliga ord också, som heteroscedasticity, stavas också heteroskedasticity. Detta är ett roligt ord för ett ganska udda ämne. Men det här ämnet är viktigt för att tolka så många andra saker, som linjär regression. Låt oss ta en djupare titt på exakt vad heteroscedasticitet är och hur den används.,
roligt ord, Allvarlig statistik
i huvudsak är heteroscedasticitet den utsträckning i vilken variansen hos residualerna beror på prediktorvariabeln. Minns att variansen är skillnaden mellan det faktiska resultatet och det resultat som förutses av din modell. Residualer kan också variera från modellen. Uppgifterna är heteroskedastiska om det belopp som residualerna varierar från modellen ändras när prediktorvariabeln ändras.
detta kan vara en ganska abstrakt definition, så låt oss titta på ett exempel.
låt oss säga att du är bil shopping., Naturligtvis är du bekymrad över gas körsträcka eftersom vem är inte? Eftersom du är intresserad bestämmer du dig för att jämföra antalet motorcylindrar till gasen körsträcka. När du gör det får du ett diagram som ser ut så här
det finns ett generellt nedåtgående mönster. Men samtidigt verkar datapunkterna vara lite spridda. Det är möjligt att passa en linje som passar bäst till data. Men där saknar det mycket data.,
det ser faktiskt ut som att datapunkterna är ganska utspridda först, komma närmare och sedan sprida ut igen. Hmmmm. Det representerar heteroscedastiska data. Detta innebär att vår linjära modell inte passar data mycket bra,så vi bör nog justera det.
varför bry sig om Heteroscedasticitet?
förutom att det är roligt att säga representerar heteroscedasticitet att data påverkas av något som du inte redovisar. Detta innebär vanligtvis att något annat pågår och vi kan behöva revidera vår modell.,
i huvudsak kan man kontrollera heteroscedasticitet genom att jämföra datapunkterna med X-axeln. Om de sprids ut eller konvergerar, representerar detta att residualernas variabilitet (och därför modellen) beror på värdet av den oberoende variabeln. Detta är inte bra för vår modell. Detta bryter också mot en av antagandena om linjär regression. Om data är heteroscedastiska måste vi tänka om vår modell.
andra godbitar
om data kan vara heteroscedastic, då kan det vara homoscedastic också., Homoscedastiska data är när variabiliteten hos residualerna inte varierar som den oberoende variabeln gör. Om dina data är homoscedastic, det är en bra sak. Det betyder att din modell står för variablerna ganska bra så du borde behålla den.
en vanlig missuppfattning om hetero – och homo-scedasticitet är att det har att göra med variablerna själva.
- det har inte att göra med variablerna, bara residualerna!
Du måste komma ihåg att residualerna representerar felet i din modell., Om mängden fel i din modell ändras när variablerna ändras, har du inte en mycket bra modell. Då är det dags att gå tillbaka till det teoretiska ritbordet.
Hetero – och homoscedasticitet är ganska viktiga ämnen för att studera finansiella eller industriella arbeten. Helst skulle dina data vara homoscedastiska, men det finns två typer av heteroscedasticitet, villkorlig och ovillkorlig.
med ovillkorlig heteroscedasticitet påverkas variansen hos residualerna inte av den oberoende variabeln., Men med villkorlig heteroscedasticitet påverkas variansen av residualerna av oberoende variabel på något oförutsedd sätt. Villkorlig heteroscedasticitet visar vanligtvis upp med tidsseriedata.
TL;DR, heteroscedasticitet är tendensen hos fel / residualer att öka eller minska när den oberoende variabeln ändras. Detta talar om för dig att din modell inte är stellar eftersom det finns något som påverkar de data som du inte redovisar i din modell. På grund av detta bör data inte vara heteroscedastic för en bra modell. Glad statistik!,