statistika je hodně legrace. Je také naplněn spoustou zábavných slov, jako je heteroscedasticita, také hláskovaná heteroskedasticita. To je zábavné slovo pro poněkud zvláštní téma. Toto konkrétní téma je však nezbytné pro interpretaci tolika dalších věcí, jako je lineární regrese. Podívejme se hlouběji na to, co je heteroscedasticita a jak se používá.,
Legrační Slovo, Vážné Statistiky
v Podstatě, heteroskedasticita je, do jaké míry rozptylu reziduí závisí na prognostických proměnných. Připomeňme, že rozptyl je množství rozdílu mezi skutečným výsledkem a výsledkem předpovězeným vaším modelem. Zbytky se mohou lišit i od modelu. Data jsou heteroskedastická, pokud se mění množství, které se zbytky liší od modelu, jak se mění proměnná prediktoru.
to může být spíše abstraktní definice, takže se podívejme na příklad.
Řekněme, že nakupujete auta., Samozřejmě se zajímáte o plyn najetých kilometrů, protože kdo není? Vzhledem k tomu, že máte zájem, rozhodnete se porovnat počet válců motoru s počtem najetých kilometrů. Když tak učiníte, získáte graf, který vypadá takto
existuje obecně sestupný vzor. Zároveň se však zdá, že datové body jsou trochu rozptýlené. Je možné, aby se vešly řadu nejlépe hodí k datům. Ale tam chybí spousta dat.,
ve skutečnosti to vypadá, že datové body jsou nejprve pěkně rozloženy, přiblíží se a pak se znovu rozloží. Hmmmm. To představuje heteroscedastická data. To znamená, že náš lineární model neodpovídá datům velmi dobře, takže bychom jej pravděpodobně měli upravit.
proč se obtěžovat Heteroscedasticitou?
Jiné než být zábava, heteroskedasticita znamená, že data jsou ovlivněna něčím, co nejste účtování. To obvykle znamená, že se děje něco jiného a možná budeme muset revidovat náš model.,
v podstatě lze zkontrolovat heteroscedasticitu porovnáním datových bodů s osou x. Pokud se rozloží nebo se sbíhají, znamená to, že variabilita reziduí (a tedy modelu) závisí na hodnotě nezávislé proměnné. To není dobré pro náš model. To také porušuje jeden z předpokladů lineární regrese. Pokud jsou data heteroscedastická, musíme znovu přemýšlet o našem modelu.
Ostatní Tidbits
pokud mohou být data heteroscedastická, může být také homoscedastická., Homoscedastic data jsou, když variabilita reziduí se nemění jako nezávislá proměnná dělá. Pokud jsou vaše data homoscedastic, je to dobrá věc. To znamená, že váš model účty pro proměnné docela dobře, takže byste měli mít.
jednou z běžných mylných představ o hetero-a homo-scedasticitě je to, že to souvisí se samotnými proměnnými.
- to nemá co do činění s proměnnými, pouze zbytky!
musíte mít na paměti, že zbytky představují chybu vašeho modelu., Pokud se množství chyby ve vašem modelu změní při změně proměnných, nemáte velmi dobrý model. Pak je čas vrátit se k teoretické rýsovací desce.
Hetero-a homoscedasticita jsou poměrně důležitá témata při studiu finančních nebo průmyslových prací. V ideálním případě by vaše data byla homoscedastická, ale existují dva typy heteroscedasticity, podmíněné a bezpodmínečné.
s bezpodmínečnou heteroscedasticitou není rozptyl reziduí ovlivněn nezávislou proměnnou., Při podmíněné heteroscedasticitě je však rozptyl reziduí ovlivněn nezávislou proměnnou nějakým nepředvídatelným způsobem. Podmíněná heteroscedasticita se obvykle zobrazuje s daty časových řad.
TL; DR, heteroscedasticita je tendence chyby / reziduí ke zvýšení nebo snížení jako nezávislé změny proměnné. To vám řekne, že váš model není hvězdný, protože existuje něco, co ovlivňuje data, která ve vašem modelu neuvádíte. Z tohoto důvodu by data neměla být heteroscedastická pro dobrý model. Šťastné statistiky!,