statistik er meget sjovt. Det er fyldt med masser af sjove ord også, ligesom heteroscedasticity, også stavet heteroskedasticity. Dette er et sjovt ord for et ret underligt emne. Men netop dette emne er vigtigt for at fortolke så mange andre ting, som lineær regression. Lad os tage et dybere kig på præcis, hvad heteroscedasticitet er, og hvordan den bruges.,
sjovt ord, alvorlig statistik
i det væsentlige er heteroscedasticitet, i hvilket omfang resternes varians afhænger af forudsigelsesvariablen. Husk, at varians er mængden af forskel mellem det faktiske resultat og resultatet forudsagt af din model. Rester kan også variere fra modellen. Dataene er heteroskedastiske, hvis mængden af rester varierer fra modellen ændres, når forudsigelsesvariablen ændres.
dette kan være en ret abstrakt definition, så lad os se på et eksempel.
lad os sige, at du handler i bil., Selvfølgelig er du bekymret for gas kilometertal, fordi hvem er ikke? Da du er interesseret, beslutter du at sammenligne antallet af motorcylindre med gaskilometeret. Når du gør det, får du en graf, der ser sådan ud
Der er et generelt nedadgående mønster. Men på samme tid ser datapunkterne ud til at være lidt spredt. Det er muligt at montere en linje, der passer bedst til dataene. Men der savner det mange af dataene.,
faktisk ser det ud til, at datapunkterne er temmelig spredt i starten, kom nærmere og spred derefter ud igen. Hmmmm. Det repræsenterer heteroscedastiske data. Det betyder, at vores lineære model ikke passer meget godt til dataene, så vi bør nok justere dem.
hvorfor gider med Heteroscedasticitet?
bortset fra at være sjovt at sige, repræsenterer heteroscedasticity, at dataene er påvirket af noget, som du ikke regner med. Dette betyder normalt, at der foregår noget andet, og vi skal muligvis revidere vores model.,
i det væsentlige kan man kontrollere for heteroscedasticitet ved at sammenligne datapunkterne med the-aksen. Hvis de spredes ud eller konvergerer, repræsenterer dette, at resternes variabilitet (og derfor modellen) afhænger af værdien af den uafhængige variabel. Dette er ikke godt for vores model. Dette krænker også en af antagelserne om lineær regression. Hvis dataene er heteroscedastiske, så skal vi tænke vores model igen.
andre godbidder
Hvis data kan være heteroscedastic, så kan det være homoscedastic så godt., Homoscedastiske data er, når resternes variabilitet ikke varierer, som den uafhængige variabel gør. Hvis dine data er homoscedastic, det er en god ting. Det betyder, at din model tegner sig for variablerne temmelig godt, så du bør holde det.en almindelig misforståelse om hetero – og homo-scedasticitet er, at det har at gøre med variablerne selv.
- det har ikke at gøre med variablerne, kun resterne!
Du skal huske på, at restene repræsenterer fejlen i din model., Hvis mængden af fejl i din model ændres, når variablerne ændres, har du ikke en særlig god model. Så er det tid til at gå tilbage til det teoretiske tegnebræt.
Hetero – og homoscedasticitet er ret vigtige emner i studiet af finansielle eller industrielle aktiviteter. Ideelt set ville dine data være homoscedastiske, men der er to typer heteroscedasticitet, betinget og ubetinget.
med ubetinget heteroscedasticitet påvirkes resternes varians ikke af den uafhængige variabel., Imidlertid, med betinget heteroscedasticitet, variansen af resterne påvirkes af uafhængig variabel på en eller anden uforudsete måde. Betinget heteroscedasticitet dukker normalt op med tidsseriedata.
TL;DR, heteroscedasticitet er tendensen for fejlen / restene til at stige eller falde, når den uafhængige variabel ændres. Dette fortæller dig, at din model ikke er stjernernes, fordi der er noget, der påvirker de data, du ikke tegner sig for i din model. På grund af dette bør data ikke være heteroscedastiske for en god model. Glad statistik!,