I modelli di regressione sono usati per descrivere le relazioni tra variabili adattando una linea ai dati osservati. La regressione consente di stimare come una variabile dipendente cambia al variare delle variabili indipendenti.
La regressione lineare multipla viene utilizzata per stimare la relazione tra due o più variabili indipendenti e una variabile dipendente., È possibile utilizzare la regressione lineare multipla quando si desidera sapere:
- Quanto è forte la relazione tra due o più variabili indipendenti e una variabile dipendente (ad esempio, come la pioggia, la temperatura e la quantità di fertilizzante aggiunto influenzano la crescita delle colture).
- Il valore della variabile dipendente ad un certo valore delle variabili indipendenti (ad esempio la resa prevista di una coltura a determinati livelli di pioggia, temperatura e aggiunta di fertilizzante).,
Ipotesi di regressione lineare multipla
di regressione lineare Multipla fa tutte le stesse ipotesi di regressione lineare semplice:
Omogeneità della varianza (homoscedasticity): la dimensione dell’errore, la nostra previsione non cambia significativamente attraverso i valori della variabile indipendente.
Indipendenza delle osservazioni: le osservazioni nel set di dati sono state raccolte utilizzando metodi statisticamente validi e non ci sono relazioni nascoste tra le variabili.,
Nella regressione lineare multipla, è possibile che alcune delle variabili indipendenti siano effettivamente correlate tra loro, quindi è importante controllarle prima di sviluppare il modello di regressione. Se due variabili indipendenti sono troppo correlate (r2 > ~0.6), solo una di esse dovrebbe essere utilizzata nel modello di regressione.
Normalità: I dati seguono una distribuzione normale.
Linearità: la linea di migliore adattamento attraverso i punti dati è una linea retta, piuttosto che una curva o una sorta di fattore di raggruppamento.,
Come eseguire una regressione lineare multipla
di regressione lineare Multipla formula
La formula di regressione lineare multipla è:
- y = il valore atteso della variabile dipendente
- B0 = y-intercept (valore di y quando tutti gli altri parametri sono impostati a 0)
- B1X1= il coefficiente di regressione (B1) della prima variabile indipendente (X1) (un.k.un., l’effetto che l’aumento del valore della variabile indipendente ha il predetto valore di y)
- … = fare lo stesso per tuttavia molte variabili indipendenti si sono test
- BnXn = il coefficiente di regressione dell’ultima variabile indipendente
- e = errore di modello (un.k.un. la variazione nel nostra stima di y)
Per trovare la retta di migliore approssimazione per ogni variabile indipendente, di regressione lineare multipla calcola tre cose:
- I coefficienti di regressione che portano il più piccolo modello generale di errore.
- La t-statistica del modello complessivo.,
- Il valore p associato (quanto è probabile che la statistica t si sarebbe verificata per caso se l’ipotesi nulla di nessuna relazione tra le variabili indipendenti e dipendenti fosse vera).
Calcola quindi la statistica t e il valore p per ciascun coefficiente di regressione nel modello.
Regressione lineare multipla in R
Mentre è possibile fare regressione lineare multipla a mano, è molto più comunemente fatto tramite software statistico. Useremo R per i nostri esempi perché è gratuito, potente e ampiamente disponibile., Scarica il set di dati di esempio per provarlo tu stesso.
Set di dati per regressione lineare multipla (.csv)
Carica il cuore.,dati del set di dati nel vostro ambiente R ed eseguire il codice riportato di seguito:
Questo codice prende il set di dati heart.data
e calcola l’effetto che le variabili indipendenti biking
e smoking
avere sulla variabile dipendente heart disease
usando l’equazione per il modello lineare: lm()
.,
Scopri di più seguendo la guida passo-passo completa alla regressione lineare in R.
Interpretazione dei risultati
Per visualizzare i risultati del modello, è possibile utilizzare il summary()
funzione:
Questa funzione prende in considerazione i più importanti parametri del modello lineare e li mette in una tabella simile a questa:
Il riepilogo della prima stampa la formula (“Call”), quindi il modello residui (‘Residui’)., Se i residui sono approssimativamente centrati attorno allo zero e con una diffusione simile su entrambi i lati, come fanno questi (mediana 0,03 e min e max intorno a -2 e 2), il modello probabilmente si adatta all’ipotesi di eteroscedasticità.
Avanti sono i coefficienti di regressione del modello (’Coefficienti’). La riga 1 della tabella dei coefficienti è etichettata (Intercetta)-questa è l’intercetta y dell’equazione di regressione. È utile conoscere l’intercetta stimata per inserirla nell’equazione di regressione e prevedere i valori della variabile dipendente:
Le cose più importanti da notare in questa tabella di output sono le prossime due tabelle – le stime per le variabili indipendenti.
La colonnaEstimate
è l’effetto stimato, chiamato anche coefficiente di regressione o valore r2. Le stime nella tabella ci dicono che per ogni aumento dell’uno per cento in bicicletta per lavorare c’è una diminuzione dello 0,2 per cento associata alle malattie cardiache, e che per ogni aumento dell’uno per cento nel fumo c’è un associato .aumento del 17% delle malattie cardiache.,
La colonna Std.error
visualizza l’errore standard della stima. Questo numero mostra quanta variazione c’è intorno alle stime del coefficiente di regressione.
La colonnat value
visualizza la statistica del test. Se non diversamente specificato, la statistica di prova utilizzata nella regressione lineare è il valore t di un test t a due lati. Più grande è la statistica del test, meno è probabile che i risultati si siano verificati per caso.
La colonna Pr( > | t | )
mostra il valore p., Ciò mostra quanto probabilmente il valore t calcolato si sarebbe verificato per caso se l’ipotesi nulla di nessun effetto del parametro fosse vera.
Poiché questi valori sono così bassi (p< 0.001 in entrambi i casi), possiamo rifiutare l’ipotesi nulla e concludere che sia andare in bicicletta al lavoro che fumare entrambi i probabili tassi di influenza delle malattie cardiache.
Presentare i risultati
Quando si segnalano i risultati, includere l’effetto stimato (cioè il coefficiente di regressione), l’errore standard della stima e il valore P., Dovresti anche interpretare i tuoi numeri per chiarire ai tuoi lettori cosa significa il coefficiente di regressione.
Visualizzare i risultati in un grafico
Può anche essere utile includere un grafico con i risultati. La regressione lineare multipla è un po ‘ più complicata della semplice regressione lineare, perché ci sono più parametri di quelli che si adattano a un grafico bidimensionale.
Tuttavia, ci sono modi per visualizzare i risultati che includono gli effetti di più variabili indipendenti sulla variabile dipendente, anche se solo una variabile indipendente può effettivamente essere tracciata sull’asse x.,
Qui, abbiamo calcolato i valori previsti della variabile dipendente (malattia cardiaca) attraverso l’intera gamma di valori osservati per la percentuale di persone in bicicletta al lavoro.
Per includere l’effetto del fumo sulla variabile indipendente, abbiamo calcolato questi valori previsti mantenendo il fumo costante ai tassi minimi, medi e massimi osservati di fumo.
Domande frequenti sulla regressione lineare multipla
Un modello di regressione è un modello statistico che stima la relazione tra una variabile dipendente e una o più variabili indipendenti utilizzando una linea (o un piano nel caso di due o più variabili indipendenti).
Un modello di regressione può essere utilizzato quando la variabile dipendente è quantitativa, tranne nel caso della regressione logistica, dove la variabile dipendente è binaria.
La regressione lineare multipla è un modello di regressione che stima la relazione tra una variabile dipendente quantitativa e due o più variabili indipendenti utilizzando una linea retta.
La regressione lineare utilizza più spesso mean-square error (MSE) per calcolare l’errore del modello., MSE è calcolato da:
- misurando la distanza dei valori y osservati dai valori y previsti ad ogni valore di x;
- quadratura di ciascuna di queste distanze;
- calcolando la media di ciascuna delle distanze quadrate.
La regressione lineare adatta una linea ai dati trovando il coefficiente di regressione che risulta nel MSE più piccolo.