las estadísticas son muy divertidas. Está lleno de muchas palabras divertidas también, como heteroscedasticidad, también deletreada heteroscedasticidad. Esta es una palabra divertida para un tema bastante extraño. Pero este tema en particular es esencial para interpretar muchas otras cosas, como la regresión lineal. Echemos un vistazo más profundo a qué es exactamente la heterocedasticidad y cómo se usa.,
palabra divertida, estadística seria
esencialmente, heteroscedasticidad es el grado en que la varianza de los residuos depende de la variable predictora. Recuerde que la varianza es la cantidad de diferencia entre el resultado real y el resultado predicho por su modelo. Los residuos también pueden variar del modelo. Los datos son heterocedásticos si la cantidad que los residuos varían del modelo cambia a medida que cambia la variable predictora.
esta puede ser una definición bastante abstracta, así que veamos un ejemplo.
digamos que estás comprando un auto., Por supuesto, usted está preocupado con el kilometraje de gasolina porque ¿quién no lo es? Ya que está interesado, decide comparar el número de Cilindros del motor con el kilometraje de gas. Cuando lo hace, obtiene un gráfico que se ve así
hay un patrón generalmente descendente. Pero al mismo tiempo, los puntos de datos parecen estar un poco dispersos. Es posible ajustar una línea de mejor ajuste a los datos. Pero allí se pierde una gran cantidad de los datos.,
de hecho, parece que los puntos de datos están bastante dispersos al principio, se acercan y luego se extienden de nuevo. Hmmmm. Eso representa datos heterocedásticos. Esto significa que nuestro modelo lineal no se ajusta muy bien a los datos, por lo que probablemente deberíamos ajustarlo.
¿por qué molestarse con la heterocedasticidad?
aparte de ser divertido de decir, la heterocedasticidad representa que los datos están influenciados por algo que usted no está contabilizando. Esto generalmente significa que algo más está pasando y es posible que tengamos que revisar nuestro modelo.,
esencialmente, se puede comprobar la heterocedasticidad comparando los puntos de datos con el eje X. Si se extienden, o convergen, entonces esto representa que la variabilidad de los residuos (y por lo tanto el modelo) depende del valor de la variable independiente. Esto no es bueno para nuestro modelo. Esto también viola uno de los supuestos de regresión lineal. Si los datos son heterocedásticos, entonces necesitamos repensar nuestro modelo.
otras curiosidades
si los datos pueden ser heteroscedásticos, entonces también pueden ser homoscedásticos., Los datos homoscedásticos son cuando la variabilidad de los residuos no varía como lo hace la variable independiente. Si sus datos son homoscedásticos, eso es algo bueno. Significa que su modelo tiene en cuenta las variables bastante bien, por lo que debe mantenerlo.
un error común sobre la heteroescedasticidad y la homoescedasticidad es que tiene que ver con las variables en sí.
- no tiene que ver con las variables, solo con los residuos!
debe tener en cuenta que los residuos representan el error de su modelo., Si la cantidad de error en su modelo cambia a medida que cambian las variables, entonces no tiene un modelo muy bueno. Entonces es el momento de volver al tablero de dibujo teórico.
Hetero – y homoscedasticity son temas bastante importantes en el estudio de los trabajos financieros o industriales. Idealmente, los datos serían homoscedástica, pero hay dos tipos de heterocedasticidad condicional e incondicional.
con heterocedasticidad incondicional, la varianza de los residuos no se ve afectada por la variable independiente., Sin embargo, con la heterocedasticidad condicional, la varianza de los residuos se ve afectada por la variable independiente de alguna manera imprevista. La heterocedasticidad condicional suele aparecer con datos de series temporales.
TL;DR, heteroscedasticidad es la tendencia del error / residuo a aumentar o disminuir a medida que cambia la variable independiente. Esto le dice que su modelo no es estelar porque hay algo que afecta a los datos que no está contabilizando en su modelo. Debido a esto, los datos no deben ser heterocedásticos para un buen modelo. Feliz estadísticas!,