Regresión lineal múltiple / Una Guía Rápida y sencilla

los modelos de regresión se utilizan para describir las relaciones entre variables ajustando una línea a los datos observados. La regresión le permite estimar cómo cambia una variable dependiente a medida que cambian las variables independientes.

la regresión lineal múltiple se utiliza para estimar la relación entre dos o más variables independientes y una variable dependiente., Puede usar regresión lineal múltiple cuando desea saber:

Qué tan fuerte es la relación entre dos o más variables independientes y una variable dependiente (por ejemplo, cómo la lluvia, la temperatura y la cantidad de fertilizante agregado afectan el crecimiento del cultivo).
El valor de la variable dependiente a un cierto valor de las variables independientes (por ejemplo, el rendimiento esperado de un cultivo a ciertos niveles de lluvia, temperatura y adición de fertilizantes).,

ejemplo

usted es un investigador de salud pública interesado en los factores sociales que influyen en la enfermedad cardíaca. La encuesta de 500 ciudades y recopilar datos sobre el porcentaje de personas en cada ciudad que fuman, el porcentaje de personas en cada ciudad que en bicicleta al trabajo, y el porcentaje de personas en cada ciudad que tienen enfermedades del corazón.

debido a que tiene dos variables independientes y una variable dependiente, y todas sus variables son cuantitativas, puede usar regresión lineal múltiple para analizar la relación entre ellas.,

suposiciones de regresión lineal múltiple

la regresión lineal múltiple hace todas las mismas suposiciones que la regresión lineal simple:

homogeneidad de varianza (homoscedasticidad): el tamaño del error en nuestra predicción no cambia significativamente a través de los valores de la variable independiente.

Independencia de las observaciones: las observaciones en el conjunto de datos fueron recolectadas utilizando métodos estadísticamente válidos, y no hay relaciones ocultas entre las variables.,

en la regresión lineal múltiple, es posible que algunas de las variables independientes estén realmente correlacionadas entre sí, por lo que es importante comprobarlas antes de desarrollar el modelo de regresión. Si dos variables independientes están demasiado correlacionadas (r2 > ~0.6), entonces solo se debe usar una de ellas en el modelo de regresión.

normalidad: los datos siguen una distribución normal.

linealidad: la línea de mejor ajuste a través de los puntos de datos es una línea recta, en lugar de una curva o algún tipo de factor de agrupación.,

cómo realizar una regresión lineal múltiple

fórmula de regresión lineal múltiple

la fórmula para una regresión lineal múltiple es:

y = el valor predicho de la variable dependiente
B0 = el intercepto y (valor de Y cuando todos los demás parámetros se establecen en 0)
b1x1= coeficiente de regresión (B1) de la primera variable independiente (X1), el efecto que el aumento del valor de la variable independiente tiene sobre el valor predicho de y)
= = haga lo mismo para todas las variables independientes que esté probando
BnXn = el coeficiente de regresión de la última variable independiente
e = error de modelo (también conocido como cuánta variación hay en nuestra estimación de y)

para encontrar la línea de mejor ajuste para cada variable independiente, la regresión lineal múltiple calcula tres cosas:

Los coeficientes de regresión que conducen al error general más pequeño del modelo.
La estadística t del modelo global.,
El valor p asociado (qué tan probable es que el estadístico t hubiera ocurrido por casualidad si la hipótesis nula de no relación entre las variables independientes y dependientes fuera verdadera).

luego calcula el estadístico t y el valor p para cada coeficiente de regresión en el modelo.

regresión lineal múltiple en R

mientras que es posible hacer regresión lineal múltiple a mano, se hace mucho más comúnmente a través de software estadístico. Vamos a usar R para nuestros ejemplos porque es gratis, potente y ampliamente disponible., Descargue el conjunto de datos de ejemplo para probarlo usted mismo.

conjunto de datos para regresión lineal múltiple (.csv)

cargar el corazón.,datos conjunto de datos en su entorno R y ejecutar el siguiente código:

R código de regresión lineal múltiple

heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Este código toma el conjunto de datos heart.data y calcula el efecto que las variables independientes biking y smoking tiene sobre la variable dependiente heart disease usando la ecuación para el modelo lineal: lm().,

Obtenga más información siguiendo la guía completa paso a paso para la regresión lineal en R.

¿Cuál es su puntuación de plagio?

Compare su artículo con más de 60 mil millones de páginas web y 30 millones de publicaciones.,/li>

Comprobador de plagio Scribbr

interpretando los resultados

para ver los resultados del modelo, puede utilizar el summary()function:

summary(heart.disease.lm)

esta función toma los parámetros más importantes del modelo lineal y los coloca en una tabla que se ve así:

El resumen primero imprime la fórmula (‘Call’), luego los residuos del modelo (‘residuals’)., Si los residuos están aproximadamente centrados alrededor de cero y con una dispersión similar en cada lado, como estos lo hacen (mediana 0.03, y min y max alrededor de -2 y 2), entonces el modelo probablemente se ajusta a la suposición de heteroscedasticidad.

a continuación están los coeficientes de regresión del modelo (‘coeficientes’). La fila 1 de la tabla de coeficientes está etiquetada (intercepción)-esta es la intersección y de la ecuación de regresión. Es útil conocer la intercepción estimada para conectarla a la ecuación de regresión y predecir los valores de la variable dependiente:

cardiopatía = 15 + (-0.,2 * ciclismo) + (0.178 * fumar) ± e

las cosas más importantes a tener en cuenta en esta tabla de salida son las siguientes dos tablas: las estimaciones para las variables independientes.

la columna Estimate es el efecto estimado, también llamado coeficiente de regresión o valor r2. Las estimaciones en la tabla nos dicen que por cada uno por ciento de aumento en el ciclismo para trabajar hay una disminución asociada de 0.2 por ciento en enfermedades cardíacas, y que por cada uno por ciento de aumento en el tabaquismo hay una asociada .17 por ciento de aumento en las enfermedades del corazón.,

la columna Std.error muestra el error estándar de la estimación. Este número muestra cuánta variación hay alrededor de las estimaciones del coeficiente de regresión.

la columna t value muestra la estadística de la prueba. A menos que se especifique lo contrario, el estadístico de prueba utilizado en la regresión lineal es el valor t de una prueba t bilateral. Cuanto mayor sea la estadística de la prueba, menor será la probabilidad de que los resultados se produzcan por casualidad.

la columna Pr( > | t | ) muestra el valor p., Esto muestra la probabilidad de que el valor T calculado hubiera ocurrido por casualidad si la hipótesis nula de ningún efecto del parámetro fuera verdadera.

debido a que estos valores son tan bajos (p < 0.001 en ambos casos), podemos rechazar la hipótesis nula y concluir que tanto ir en bicicleta al trabajo como fumar Probablemente influyen en las tasas de enfermedad cardíaca.

presentación de los resultados

al informar sus resultados, incluya el efecto estimado (es decir, el coeficiente de regresión), el error estándar de la estimación y el valor p., También debe interpretar sus números para dejar claro a sus lectores lo que significa el coeficiente de regresión.

en nuestra encuesta de 500 ciudades, encontramos relaciones significativas entre la frecuencia de ir en bicicleta al trabajo y la frecuencia de enfermedades cardíacas y la frecuencia de fumar y la frecuencia de enfermedades cardíacas (p < 0.001 para cada una). Específicamente, encontramos una disminución del 0.2% (±0.0014) en la frecuencia de enfermedades cardíacas por cada aumento del 1% en el ciclismo, y un aumento del 0.178% (±0.,0035) en la frecuencia de enfermedades del corazón por cada aumento del 1% en el tabaquismo.

visualizar los resultados en un gráfico

También puede ser útil incluir un gráfico con sus resultados. La regresión lineal múltiple es algo más complicada que la regresión lineal simple, porque hay más parámetros que caben en una gráfica bidimensional.

sin embargo, hay formas de mostrar los resultados que incluyen los efectos de múltiples variables independientes en la variable dependiente, a pesar de que solo una variable independiente puede ser trazada en el eje X.,

Aquí, hemos calculado los valores predichos de la variable dependiente (enfermedad cardíaca) en todo el rango de valores observados para el porcentaje de personas que van en bicicleta al trabajo.

para incluir el efecto del tabaquismo en la variable independiente, calculamos estos valores predichos manteniendo el tabaquismo constante en las tasas mínimas, medias y máximas observadas de tabaquismo.

Preguntas Frecuentes sobre regresión lineal múltiple

¿qué es un modelo de regresión?,

un modelo de regresión es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes utilizando una línea (o un plano en el caso de dos o más variables independientes).

se puede utilizar un modelo de regresión cuando la variable dependiente es cuantitativa, excepto en el caso de la regresión logística, donde la variable dependiente es binaria.

¿Qué es la regresión lineal múltiple?,

la regresión lineal múltiple es un modelo de regresión que estima la relación entre una variable dependiente cuantitativa y dos o más variables independientes utilizando una línea recta.

¿cómo se calcula el error en un modelo de regresión lineal?

la regresión lineal más a menudo utiliza el error de cuadrado medio (MSE) para calcular el error del modelo., MSE se calcula mediante:

midiendo la distancia de los valores y observados de los valores y predichos en cada valor de x;
cuadrando cada una de estas distancias;
calculando la media de cada una de las distancias cuadradas.

la regresión lineal ajusta una línea a los datos al encontrar el coeficiente de regresión que da como resultado el MSE más pequeño.

una introducción a la regresión lineal múltiple