Statisticile sunt foarte distractive. Acesta este umplut cu o mulțime de cuvinte distractive prea, cum ar fi heteroscedasticity, de asemenea, scris heteroskedasticity. Acesta este un cuvânt distractiv pentru un subiect destul de ciudat. Dar acest subiect special este esențial pentru interpretarea atât de multe alte lucruri, cum ar fi regresia liniară. Să aruncăm o privire mai profundă asupra exact ceea ce este heteroscedasticitatea și modul în care este utilizată.,
cuvânt amuzant, statistici Serioase
în esență, heteroscedasticitatea este măsura în care varianța reziduurilor depinde de variabila predictor. Amintiți-vă că varianța este valoarea diferenței dintre rezultatul real și rezultatul prezis de modelul dvs. Reziduurile pot varia și de model. Datele sunt heteroskedastice dacă suma pe care reziduurile variază de la model se schimbă pe măsură ce variabila predictor se schimbă.aceasta poate fi o definiție destul de abstractă, deci să ne uităm la un exemplu.să presupunem că sunteți cumpărături auto., Desigur, sunteți preocupat de kilometraj de gaz, deoarece cine nu este? Deoarece sunteți interesat, decideți să comparați numărul de cilindri ai motorului cu kilometrajul de gaz. Când faceți acest lucru, obțineți un grafic care arată astfel
există un model în general descendent. Dar, în același timp, punctele de date par a fi puțin împrăștiate. Este posibil să se potrivească o linie de cea mai bună potrivire a datelor. Dar acolo lipsește o mulțime de date.,
de fapt, se pare că punctele de date sunt destul de răspândite la început, se apropie și apoi se răspândesc din nou. Hmmmm. Asta reprezintă date heteroscedastice. Aceasta înseamnă că modelul nostru liniar nu se potrivește foarte bine datelor, așa că probabil ar trebui să-l ajustăm.
de ce să te deranjezi cu Heteroscedasticitatea?
În afară de a fi distractiv de spus, heteroscedasticitatea reprezintă faptul că datele sunt influențate de ceva pe care nu îl contabilizați. Acest lucru înseamnă, de obicei, că se întâmplă altceva și este posibil să fie nevoie să ne revizuim modelul.,în esență, se poate verifica heteroscedasticitatea prin compararea punctelor de date cu axa X. Dacă se răspândesc sau converg, atunci aceasta înseamnă că variabilitatea reziduurilor (și, prin urmare, modelul) depinde de valoarea variabilei independente. Acest lucru nu este bun pentru modelul nostru. Acest lucru încalcă, de asemenea, una dintre ipotezele regresiei liniare. Dacă datele sunt heteroscedastice, atunci trebuie să ne reconsiderăm modelul.
alte sfaturi
dacă datele pot fi heteroscedastice, atunci pot fi și homoscedastice., Datele homoscedastice sunt atunci când variabilitatea reziduurilor nu variază ca variabila independentă. Dacă datele dvs. sunt homoscedastice, acesta este un lucru bun. Înseamnă că modelul dvs. contabilizează variabilele destul de bine, așa că ar trebui să îl păstrați.o concepție greșită comună despre hetero-și homo-scedasticitate este că are legătură cu variabilele în sine.
- nu are legătură cu variabilele, ci doar cu reziduurile!trebuie să rețineți că reziduurile reprezintă eroarea modelului dvs., Dacă cantitatea de eroare din modelul dvs. se modifică pe măsură ce variabilele se schimbă, atunci nu aveți un model foarte bun. Apoi este timpul să ne întoarcem la tabloul de desen teoretic.Hetero-și homoscedasticitatea sunt subiecte destul de importante în studierea lucrărilor financiare sau industriale. În mod ideal, datele dvs. ar fi homoscedastice, dar există două tipuri de heteroscedasticitate, condiționate și necondiționate.cu heteroscedasticitate necondiționată, varianța reziduurilor nu este afectată de variabila independentă., Cu toate acestea, cu heteroscedasticitatea condiționată, varianța reziduurilor este afectată de variabila independentă într-un mod neprevăzut. Heteroscedasticitatea condiționată apare de obicei cu date din seriile de timp.
TL;DR, heteroscedasticitatea este tendința erorii / reziduurilor de a crește sau de a scădea pe măsură ce variabila independentă se schimbă. Acest lucru vă spune că modelul dvs. nu este stelar, deoarece există ceva care afectează datele pe care nu le contabilizați în modelul dvs. Din acest motiv, datele nu ar trebui să fie heteroscedastice pentru un model bun. Statistici fericit!,