statistieken zijn erg leuk. Het is gevuld met veel leuke woorden te, zoals heteroscedasticity, ook gespeld heteroskedasticity. Dit is een leuk woord voor een nogal vreemd onderwerp. Maar dit specifieke onderwerp is essentieel om zoveel andere dingen te interpreteren, zoals lineaire regressie. Laten we eens dieper kijken naar wat heteroscedasticiteit precies is en hoe het wordt gebruikt.,
grappig woord, serieuze statistieken
in wezen is heteroscedasticiteit de mate waarin de variantie van de reststoffen afhankelijk is van de voorspellende variabele. Bedenk dat variantie is de hoeveelheid verschil tussen de werkelijke uitkomst en de uitkomst voorspeld door uw model. Reststoffen kunnen ook van het model afwijken. De gegevens zijn heteroskedastisch als de hoeveelheid die de reststoffen variëren van het model verandert als de voorspellende variabele verandert.
dit kan een nogal abstracte definitie zijn, dus laten we eens naar een voorbeeld kijken.
stel dat je auto aan het winkelen bent., Natuurlijk, je bent bezorgd over gas kilometers, want wie niet? Aangezien u geïnteresseerd bent, besluit u om het aantal motorcilinders te vergelijken met de gas kilometers. Als je dat doet, krijg je een grafiek die er zo uitziet
Er is een algemeen neerwaarts patroon. Maar tegelijkertijd lijken de datapunten een beetje verspreid te zijn. Het is mogelijk om een regel van de beste pasvorm aan de gegevens. Maar daar mist het veel gegevens.,
in feite lijkt het erop dat de gegevenspunten in het begin vrij verspreid zijn, dichterbij komen en dan weer uitgespreid worden. Hmmmm. Dat staat voor heteroscedastische gegevens. Dit betekent dat ons lineaire model niet goed past bij de gegevens, dus we moeten het waarschijnlijk aanpassen.
waarom zou je je zorgen maken over Heteroscedasticiteit?
anders dan leuk om te zeggen, heteroscedasticiteit vertegenwoordigt dat de gegevens worden beïnvloed door iets dat u niet accounting voor. Dit betekent meestal dat er iets anders aan de hand is en dat we ons model misschien moeten herzien.,
in wezen kan men heteroscedasticiteit controleren door de gegevenspunten te vergelijken met de x-as. Als ze zich verspreiden of convergeren, dan betekent dit dat de variabiliteit van de reststoffen (en dus het model) afhankelijk is van de waarde van de onafhankelijke variabele. Dit is niet goed voor ons model. Dit druist ook in tegen een van de veronderstellingen van lineaire regressie. Als de gegevens heteroscedastisch zijn, dan moeten we ons model heroverwegen.
andere weetjes
Als gegevens heteroscedastisch kunnen zijn, dan kan het ook homoscedastisch zijn., Homoscedastische gegevens zijn wanneer de variabiliteit van de reststoffen niet varieert zoals de onafhankelijke variabele. Als uw gegevens zijn homoscedastic, dat is een goede zaak. Het betekent dat je model goed rekening houdt met de variabelen, dus je moet het houden.
een veel voorkomende misvatting over hetero – en homo-scedasticiteit is dat het te maken heeft met de variabelen zelf.
- Het heeft niet te maken met de variabelen, alleen met de reststoffen!
U moet er rekening mee houden dat de reststoffen de fout van uw model vertegenwoordigen., Als de hoeveelheid fout in je model verandert als de variabelen veranderen, dan heb je geen erg goed model. Dan is het tijd om terug te gaan naar de theoretische tekentafel.
Hetero-en homoscedasticiteit zijn vrij belangrijke onderwerpen bij het bestuderen van financiële of industriële werkingen. Idealiter zouden uw gegevens homoscedastisch zijn, maar er zijn twee soorten heteroscedasticiteit, voorwaardelijk en onvoorwaardelijk.
bij onvoorwaardelijke heteroscedasticiteit wordt de variantie van de reststoffen niet beïnvloed door de onafhankelijke variabele., Bij voorwaardelijke heteroscedasticiteit wordt de variantie van de reststoffen echter op een onvoorziene manier beïnvloed door onafhankelijke variabele. Voorwaardelijke heteroscedasticiteit verschijnt meestal met tijdreeksgegevens.
TL;DR, heteroscedasticiteit is de neiging van de fout / reststoffen om toe te nemen of af te nemen naarmate de onafhankelijke variabele verandert. Dit vertelt je dat je model niet stellair is omdat er iets van invloed is op de gegevens waar je geen rekening mee houdt in je model. Daarom mogen gegevens voor een goed model niet heteroscedastisch zijn. Gelukkige statistieken!,