Les modèles de régression sont utilisés pour décrire les relations entre les variables en ajustant une droite aux données observées. La régression vous permet d’estimer comment une variable dépendante change à mesure que les variables indépendantes changent.
la régression linéaire Multiple est utilisée pour estimer la relation entre deux ou plusieurs variables indépendantes et une variable dépendante., Vous pouvez utiliser la régression linéaire multiple lorsque vous voulez savoir:
- à quel point la relation est forte entre deux variables indépendantes ou plus et une variable dépendante (par exemple, comment les précipitations, la température et la quantité d’engrais ajoutés affectent la croissance des cultures).
- La valeur de la variable dépendante à une certaine valeur des variables indépendantes (p. ex. le rendement attendu d’une culture à certains niveaux de précipitations, de température et d’ajout d’engrais).,
hypothèses de régression linéaire multiple
la régression linéaire Multiple fait toutes les mêmes hypothèses que la régression linéaire simple:
homogénéité de la variance (homoscédasticité): la taille de l’erreur dans notre prédiction ne change pas significativement entre les valeurs de la variable indépendante.
indépendance des observations: les observations de l’ensemble de données ont été recueillies à l’aide de méthodes statistiquement valides, et il n’y a pas de relations cachées entre les variables.,
dans la régression linéaire multiple, il est possible que certaines variables indépendantes soient réellement corrélées entre elles, il est donc important de les vérifier avant de développer le modèle de régression. Si deux variables indépendantes sont trop fortement corrélées (r2 > ~0.6), alors une seule d’entre elles doit être utilisée dans le modèle de régression.
normalité: les données suivent une distribution normale.
– Linéarité: la ligne de meilleur ajustement à travers les données de points est une ligne droite, plutôt qu’une courbe ou une forme de regroupement facteur.,
comment effectuer une régression linéaire multiple
formule de régression linéaire Multiple
la formule pour une régression linéaire multiple est:
- y = la valeur prédite de la variable dépendante
- B0 = l’ordonnée à l’origine y (valeur de y lorsque tous les autres paramètres sont b1x1= le coefficient de régression (B1) de la première variable indépendante (X1) (alias, l’effet que l’augmentation de la valeur de la variable indépendante a sur la valeur y prévue)
- … = faites de même pour le nombre de variables indépendantes que vous testez
- BnXn = le coefficient de régression de la dernière variable indépendante
- E = erreur de modèle (autrement dit la variation qu’il y a dans notre estimation de y)
Pour coefficients de régression qui conduisent à la plus petite erreur globale du modèle.
Il calcule ensuite la statistique t et la valeur p pour chaque coefficient de régression du modèle.
régression linéaire Multiple dans R
bien qu’il soit possible de faire une régression linéaire multiple à la main, elle est beaucoup plus souvent effectuée via un logiciel statistique. Nous allons utiliser R pour nos exemples car il est gratuit, puissant et largement disponible., Téléchargez l’exemple de jeu de données pour l’essayer vous-même.
ensemble de données pour la régression linéaire multiple (.csv)
chargez le cœur.,les données du dataset dans votre R environnement et exécutez le code suivant:
Ce code prend le jeu de données heart.data
et calcule l’effet que les variables indépendantes biking
et smoking
sur la variable dépendante heart disease
à l’aide de l’équation pour le modèle linéaire: lm()
.,
En savoir plus en suivant le guide complet étape par étape de la régression linéaire dans R.
l’Interprétation des résultats
Pour afficher les résultats du modèle, vous pouvez utiliser la balise summary()
fonction:
Cette fonction prend en paramètres les plus importants du modèle linéaire et les met dans un tableau qui ressemble à ceci:
Le résumé de la première impression la formule (« Call »), puis le modèle de résidus (‘Résidus’)., Si les résidus sont à peu près centrés autour de zéro et avec une propagation similaire de chaque côté, comme ceux-ci (médiane 0.03, et min et max autour de -2 et 2), le modèle correspond probablement à l’hypothèse de l’hétéroscédasticité.
viennent ensuite les coefficients de régression du modèle (‘Coefficients’). La ligne 1 du tableau des coefficients est étiquetée (Intercept) – c’est l’intercept y de l’équation de régression. Il est utile de connaître l’interception estimée afin de la brancher dans l’équation de régression et de prédire les valeurs de la variable dépendante:
Les choses les plus importantes à noter dans ce tableau de sortie sont les deux tableaux suivants – les estimations pour les variables indépendantes.
la colonne Estimate
est l’effet estimé, également appelé coefficient de régression ou valeur r2. Les estimations du tableau nous indiquent que pour chaque augmentation d’un pour cent du vélo au travail, il y a une diminution associée de 0,2 pour cent des maladies cardiaques, et que pour chaque augmentation d’un pour cent du tabagisme, il y a une diminution associée .Augmentation de 17% des maladies cardiaques.,
la colonneStd.error
affiche l’erreur type de l’estimation. Ce nombre montre combien de variation il y a autour des estimations du coefficient de régression.
la colonnet value
affiche la statistique de test. Sauf indication contraire, la statistique de test utilisée dans la régression linéaire est la valeur t d’un test T bilatéral. Plus la statistique du test est grande, moins il est probable que les résultats se soient produits par hasard.
la colonnePr( > | t | )
affiche la valeur p., Cela montre la probabilité que la valeur t calculée se soit produite par hasard si l’hypothèse nulle de l’absence d’effet du paramètre était vraie.
étant donné que ces valeurs sont si faibles (p< 0,001 dans les deux cas), nous pouvons rejeter l’hypothèse nulle et conclure que le vélo au travail et le tabagisme influencent probablement les taux de maladie cardiaque.
présentation des résultats
lorsque vous déclarez vos résultats, incluez l’effet estimé (c.-à-d. le coefficient de régression), l’erreur type de l’estimation et la valeur p., Vous devez également interpréter vos chiffres pour indiquer clairement à vos lecteurs ce que signifie le coefficient de régression.
Visualiser les résultats dans un graphique
Il peut aussi être utile d’inclure un graphique de vos résultats. La régression linéaire Multiple est un peu plus compliquée que la régression linéaire simple, car il y a plus de paramètres que ce qui conviendra sur un graphique à deux dimensions.
cependant, il existe des moyens d’afficher vos résultats qui incluent les effets de plusieurs variables indépendantes sur la variable dépendante, même si une seule variable indépendante peut réellement être tracée sur l’axe des X.,
ici, nous avons calculé les valeurs prédites de la variable dépendante (maladie cardiaque) sur toute la gamme des valeurs observées pour le pourcentage de personnes se rendant au travail à vélo.
pour inclure l’effet du tabagisme sur la variable indépendante, nous avons calculé ces valeurs prédites tout en maintenant le tabagisme constant aux taux de tabagisme minimum, moyen et maximum observés.
Foire aux questions sur la régression linéaire multiple
Un modèle de régression est un modèle statistique permettant d’estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes à l’aide d’une ligne (ou un plan dans le cas de deux ou plusieurs variables indépendantes).
Un modèle de régression peut être utilisé lorsque la variable dépendante est quantitative, sauf dans le cas de la régression logistique où la variable dépendante est binaire.
la régression linéaire Multiple est un modèle de régression qui estime la relation entre une variable dépendante quantitative et deux ou plusieurs variables indépendantes à l’aide d’une ligne droite.
la régression linéaire utilise le plus souvent l’erreur quadratique moyenne (MSE) pour calculer l’erreur du modèle., MSE est calculé par:
- mesure de la distance entre les valeurs y observées et les valeurs y prédites à chaque valeur de x;
- quadrature de chacune de ces distances;
- calcul de la moyenne de chacune des distances au carré.
la régression linéaire adapte une droite aux données en trouvant le coefficient de régression qui donne le plus petit MSE.