Les statistiques sont très amusantes. Il est rempli de beaucoup de mots amusants aussi, comme heteroscedasticity, également orthographié heteroscedasticity. C’est un mot amusant pour plutôt étrange sujet. Mais ce sujet particulier est essentiel pour interpréter tant d’autres choses, comme la régression linéaire. Examinons plus en détail ce qu’est exactement l’hétéroscédasticité et comment elle est utilisée.,
Mot Amusant, Sérieux Statistiques
Essentiellement, l ‘ hétéroscédasticité est la mesure dans laquelle la variance des résidus dépend de la variable prédictive. Rappelez – vous que la variance est la quantité de différence entre le résultat réel et le résultat prédit par votre modèle. Les résidus peuvent également varier du modèle. Les données sont hétéroscédastiques si la quantité que les résidus varient par rapport au modèle change à mesure que la variable prédictive change.
cela peut être une définition plutôt abstraite, alors regardons un exemple.
disons que vous magasinez en voiture., Bien sûr, vous êtes préoccupé par la consommation d’essence parce que qui ne l’est pas? Puisque vous êtes intéressés, vous décidez de comparer le nombre de cylindres du moteur à la consommation d’essence. Lorsque vous le faites, vous obtenez un graphique qui ressemble à ceci
Il est généralement à la baisse modèle. Mais en même temps, les points de données semblent être un peu dispersés. Il est possible d’adapter une ligne de meilleur ajustement aux données. Mais là, il manque beaucoup de données.,
En fait, il semble que les points de données soient assez étalés au début, se rapprochent, puis s’étalent à nouveau. Hmmmm. Cela représente des données hétéroscédastiques. Cela signifie que notre modèle linéaire ne correspond pas très bien aux données, nous devrions donc probablement l’ajuster.
Pourquoi s’Embêter avec l ‘ hétéroscédasticité?
en plus d’être amusant à dire, l’hétéroscédasticité représente que les données sont influencées par quelque chose que vous ne tenez pas compte. Cela signifie généralement que quelque chose d’autre se passe et que nous devrons peut-être réviser notre modèle.,
essentiellement, on peut vérifier l’hétéroscédasticité en comparant les points de données à l’axe des abscisses. S’ils s’étalent ou convergent, cela signifie que la variabilité des résidus (et donc du modèle) dépend de la valeur de la variable indépendante. Ce n’est pas bon pour notre modèle. Cela viole également l’une des hypothèses de régression linéaire. Si les données sont hétéroscédastiques, nous devons repenser notre modèle.
autres éléments
Si les données peuvent être hétéroscédastiques, elles peuvent également être homoscédastiques., Les données homoscédastiques sont lorsque la variabilité des résidus ne varie pas comme le fait la variable indépendante. Si vos données sont homoscédastiques, c’est une bonne chose. Cela signifie que votre modèle tient assez bien compte des variables, vous devez donc le conserver.
une idée fausse commune sur l’hétéro – et l’homo-scédasticité est qu’elle a à voir avec les variables elles-mêmes.
- cela n’a pas à voir avec les variables, seulement les résidus!
Vous devez garder à l’esprit que les résidus représentent l’erreur de votre modèle., Si la quantité d’erreur dans votre modèle change au fur et à mesure que les variables changent, vous n’avez pas un très bon modèle. Ensuite, il est temps de revenir à la planche à dessin théorique.
L’hétéro – et l’homoscédasticité sont des sujets assez importants dans l’étude des rouages financiers ou industriels. Idéalement, vos données seraient homoscédastiques, mais il existe deux types d’hétéroscédasticité, conditionnelle et inconditionnelle.
avec une hétéroscédasticité inconditionnelle, la variance des résidus n’est pas affectée par la variable indépendante., Cependant, avec l’hétéroscédasticité conditionnelle, la variance des résidus est affectée par une variable indépendante d’une manière imprévue. L’hétéroscédasticité conditionnelle apparaît généralement avec des données de séries chronologiques.
TL;DR, l’hétéroscédasticité est la tendance de l’erreur / des résidus à augmenter ou à diminuer à mesure que la variable indépendante change. Cela vous indique que votre modèle n’est pas stellaire car il y a quelque chose qui affecte les données que vous ne tenez pas compte dans votre modèle. Pour cette raison, les données ne devraient pas être hétéroscédastiques pour un bon modèle. Heureux les statistiques!,