los modelos de regresión se utilizan para describir las relaciones entre variables ajustando una línea a los datos observados. La regresión le permite estimar cómo cambia una variable dependiente a medida que cambian las variables independientes.
la regresión lineal múltiple se utiliza para estimar la relación entre dos o más variables independientes y una variable dependiente., Puede usar regresión lineal múltiple cuando desea saber:
- Qué tan fuerte es la relación entre dos o más variables independientes y una variable dependiente (por ejemplo, cómo la lluvia, la temperatura y la cantidad de fertilizante agregado afectan el crecimiento del cultivo).
- El valor de la variable dependiente a un cierto valor de las variables independientes (por ejemplo, el rendimiento esperado de un cultivo a ciertos niveles de lluvia, temperatura y adición de fertilizantes).,
suposiciones de regresión lineal múltiple
la regresión lineal múltiple hace todas las mismas suposiciones que la regresión lineal simple:
homogeneidad de varianza (homoscedasticidad): el tamaño del error en nuestra predicción no cambia significativamente a través de los valores de la variable independiente.
Independencia de las observaciones: las observaciones en el conjunto de datos fueron recolectadas utilizando métodos estadísticamente válidos, y no hay relaciones ocultas entre las variables.,
en la regresión lineal múltiple, es posible que algunas de las variables independientes estén realmente correlacionadas entre sí, por lo que es importante comprobarlas antes de desarrollar el modelo de regresión. Si dos variables independientes están demasiado correlacionadas (r2 > ~0.6), entonces solo se debe usar una de ellas en el modelo de regresión.
normalidad: los datos siguen una distribución normal.
linealidad: la línea de mejor ajuste a través de los puntos de datos es una línea recta, en lugar de una curva o algún tipo de factor de agrupación.,
cómo realizar una regresión lineal múltiple
fórmula de regresión lineal múltiple
la fórmula para una regresión lineal múltiple es:
- y = el valor predicho de la variable dependiente
- B0 = el intercepto y (valor de Y cuando todos los demás parámetros se establecen en 0)
- b1x1= coeficiente de regresión (B1) de la primera variable independiente (X1), el efecto que el aumento del valor de la variable independiente tiene sobre el valor predicho de y)
- = = haga lo mismo para todas las variables independientes que esté probando
- BnXn = el coeficiente de regresión de la última variable independiente
- e = error de modelo (también conocido como cuánta variación hay en nuestra estimación de y)
para encontrar la línea de mejor ajuste para cada variable independiente, la regresión lineal múltiple calcula tres cosas:
- Los coeficientes de regresión que conducen al error general más pequeño del modelo.
- La estadística t del modelo global.,
- El valor p asociado (qué tan probable es que el estadístico t hubiera ocurrido por casualidad si la hipótesis nula de no relación entre las variables independientes y dependientes fuera verdadera).
luego calcula el estadístico t y el valor p para cada coeficiente de regresión en el modelo.
regresión lineal múltiple en R
mientras que es posible hacer regresión lineal múltiple a mano, se hace mucho más comúnmente a través de software estadístico. Vamos a usar R para nuestros ejemplos porque es gratis, potente y ampliamente disponible., Descargue el conjunto de datos de ejemplo para probarlo usted mismo.
conjunto de datos para regresión lineal múltiple (.csv)
cargar el corazón.,datos conjunto de datos en su entorno R y ejecutar el siguiente código:
Este código toma el conjunto de datos heart.data
y calcula el efecto que las variables independientes biking
y smoking
tiene sobre la variable dependiente heart disease
usando la ecuación para el modelo lineal: lm()
.,
Obtenga más información siguiendo la guía completa paso a paso para la regresión lineal en R.
interpretando los resultados
para ver los resultados del modelo, puede utilizar el summary()
function:
esta función toma los parámetros más importantes del modelo lineal y los coloca en una tabla que se ve así:
El resumen primero imprime la fórmula (‘Call’), luego los residuos del modelo (‘residuals’)., Si los residuos están aproximadamente centrados alrededor de cero y con una dispersión similar en cada lado, como estos lo hacen (mediana 0.03, y min y max alrededor de -2 y 2), entonces el modelo probablemente se ajusta a la suposición de heteroscedasticidad.
a continuación están los coeficientes de regresión del modelo (‘coeficientes’). La fila 1 de la tabla de coeficientes está etiquetada (intercepción)-esta es la intersección y de la ecuación de regresión. Es útil conocer la intercepción estimada para conectarla a la ecuación de regresión y predecir los valores de la variable dependiente:
las cosas más importantes a tener en cuenta en esta tabla de salida son las siguientes dos tablas: las estimaciones para las variables independientes.
la columna Estimate
es el efecto estimado, también llamado coeficiente de regresión o valor r2. Las estimaciones en la tabla nos dicen que por cada uno por ciento de aumento en el ciclismo para trabajar hay una disminución asociada de 0.2 por ciento en enfermedades cardíacas, y que por cada uno por ciento de aumento en el tabaquismo hay una asociada .17 por ciento de aumento en las enfermedades del corazón.,
la columna Std.error
muestra el error estándar de la estimación. Este número muestra cuánta variación hay alrededor de las estimaciones del coeficiente de regresión.
la columna t value
muestra la estadística de la prueba. A menos que se especifique lo contrario, el estadístico de prueba utilizado en la regresión lineal es el valor t de una prueba t bilateral. Cuanto mayor sea la estadística de la prueba, menor será la probabilidad de que los resultados se produzcan por casualidad.
la columna Pr( > | t | )
muestra el valor p., Esto muestra la probabilidad de que el valor T calculado hubiera ocurrido por casualidad si la hipótesis nula de ningún efecto del parámetro fuera verdadera.
debido a que estos valores son tan bajos (p < 0.001 en ambos casos), podemos rechazar la hipótesis nula y concluir que tanto ir en bicicleta al trabajo como fumar Probablemente influyen en las tasas de enfermedad cardíaca.
presentación de los resultados
al informar sus resultados, incluya el efecto estimado (es decir, el coeficiente de regresión), el error estándar de la estimación y el valor p., También debe interpretar sus números para dejar claro a sus lectores lo que significa el coeficiente de regresión.
visualizar los resultados en un gráfico
También puede ser útil incluir un gráfico con sus resultados. La regresión lineal múltiple es algo más complicada que la regresión lineal simple, porque hay más parámetros que caben en una gráfica bidimensional.
sin embargo, hay formas de mostrar los resultados que incluyen los efectos de múltiples variables independientes en la variable dependiente, a pesar de que solo una variable independiente puede ser trazada en el eje X.,
Aquí, hemos calculado los valores predichos de la variable dependiente (enfermedad cardíaca) en todo el rango de valores observados para el porcentaje de personas que van en bicicleta al trabajo.
para incluir el efecto del tabaquismo en la variable independiente, calculamos estos valores predichos manteniendo el tabaquismo constante en las tasas mínimas, medias y máximas observadas de tabaquismo.
Preguntas Frecuentes sobre regresión lineal múltiple
un modelo de regresión es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes utilizando una línea (o un plano en el caso de dos o más variables independientes).
se puede utilizar un modelo de regresión cuando la variable dependiente es cuantitativa, excepto en el caso de la regresión logística, donde la variable dependiente es binaria.
la regresión lineal múltiple es un modelo de regresión que estima la relación entre una variable dependiente cuantitativa y dos o más variables independientes utilizando una línea recta.
la regresión lineal más a menudo utiliza el error de cuadrado medio (MSE) para calcular el error del modelo., MSE se calcula mediante:
- midiendo la distancia de los valores y observados de los valores y predichos en cada valor de x;
- cuadrando cada una de estas distancias;
- calculando la media de cada una de las distancias cuadradas.
la regresión lineal ajusta una línea a los datos al encontrar el coeficiente de regresión que da como resultado el MSE más pequeño.