Regressione lineare multipla / Una guida rapida e semplice

I modelli di regressione sono usati per descrivere le relazioni tra variabili adattando una linea ai dati osservati. La regressione consente di stimare come una variabile dipendente cambia al variare delle variabili indipendenti.

La regressione lineare multipla viene utilizzata per stimare la relazione tra due o più variabili indipendenti e una variabile dipendente., È possibile utilizzare la regressione lineare multipla quando si desidera sapere:

Quanto è forte la relazione tra due o più variabili indipendenti e una variabile dipendente (ad esempio, come la pioggia, la temperatura e la quantità di fertilizzante aggiunto influenzano la crescita delle colture).
Il valore della variabile dipendente ad un certo valore delle variabili indipendenti (ad esempio la resa prevista di una coltura a determinati livelli di pioggia, temperatura e aggiunta di fertilizzante).,

Esempio

Sei un ricercatore di salute pubblica interessato a fattori sociali che influenzano le malattie cardiache. Si sondaggio 500 città e raccogliere dati sulla percentuale di persone in ogni città che fumano, la percentuale di persone in ogni città che in bicicletta al lavoro, e la percentuale di persone in ogni città che hanno malattie cardiache.

Poiché si hanno due variabili indipendenti e una variabile dipendente e tutte le variabili sono quantitative, è possibile utilizzare la regressione lineare multipla per analizzare la relazione tra di esse.,

Ipotesi di regressione lineare multipla

di regressione lineare Multipla fa tutte le stesse ipotesi di regressione lineare semplice:

Omogeneità della varianza (homoscedasticity): la dimensione dell’errore, la nostra previsione non cambia significativamente attraverso i valori della variabile indipendente.

Indipendenza delle osservazioni: le osservazioni nel set di dati sono state raccolte utilizzando metodi statisticamente validi e non ci sono relazioni nascoste tra le variabili.,

Nella regressione lineare multipla, è possibile che alcune delle variabili indipendenti siano effettivamente correlate tra loro, quindi è importante controllarle prima di sviluppare il modello di regressione. Se due variabili indipendenti sono troppo correlate (r2 > ~0.6), solo una di esse dovrebbe essere utilizzata nel modello di regressione.

Normalità: I dati seguono una distribuzione normale.

Linearità: la linea di migliore adattamento attraverso i punti dati è una linea retta, piuttosto che una curva o una sorta di fattore di raggruppamento.,

Come eseguire una regressione lineare multipla

di regressione lineare Multipla formula

La formula di regressione lineare multipla è:

y = il valore atteso della variabile dipendente
B0 = y-intercept (valore di y quando tutti gli altri parametri sono impostati a 0)
B1X1= il coefficiente di regressione (B1) della prima variabile indipendente (X1) (un.k.un., l’effetto che l’aumento del valore della variabile indipendente ha il predetto valore di y)
… = fare lo stesso per tuttavia molte variabili indipendenti si sono test
BnXn = il coefficiente di regressione dell’ultima variabile indipendente
e = errore di modello (un.k.un. la variazione nel nostra stima di y)

Per trovare la retta di migliore approssimazione per ogni variabile indipendente, di regressione lineare multipla calcola tre cose:

I coefficienti di regressione che portano il più piccolo modello generale di errore.
La t-statistica del modello complessivo.,
Il valore p associato (quanto è probabile che la statistica t si sarebbe verificata per caso se l’ipotesi nulla di nessuna relazione tra le variabili indipendenti e dipendenti fosse vera).

Calcola quindi la statistica t e il valore p per ciascun coefficiente di regressione nel modello.

Regressione lineare multipla in R

Mentre è possibile fare regressione lineare multipla a mano, è molto più comunemente fatto tramite software statistico. Useremo R per i nostri esempi perché è gratuito, potente e ampiamente disponibile., Scarica il set di dati di esempio per provarlo tu stesso.

Set di dati per regressione lineare multipla (.csv)

Carica il cuore.,dati del set di dati nel vostro ambiente R ed eseguire il codice riportato di seguito:

R codice per la regressione lineare multipla

heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Questo codice prende il set di dati heart.data e calcola l’effetto che le variabili indipendenti biking e smoking avere sulla variabile dipendente heart disease usando l’equazione per il modello lineare: lm().,

Scopri di più seguendo la guida passo-passo completa alla regressione lineare in R.

Qual è il tuo punteggio di plagio?

Confronta la tua carta con oltre 60 miliardi di pagine web e 30 milioni di pubblicazioni.,/li>

Scribbr Plagiarism Checker

Interpretazione dei risultati

Per visualizzare i risultati del modello, è possibile utilizzare il summary() funzione:

summary(heart.disease.lm)

Questa funzione prende in considerazione i più importanti parametri del modello lineare e li mette in una tabella simile a questa:

Il riepilogo della prima stampa la formula (“Call”), quindi il modello residui (‘Residui’)., Se i residui sono approssimativamente centrati attorno allo zero e con una diffusione simile su entrambi i lati, come fanno questi (mediana 0,03 e min e max intorno a -2 e 2), il modello probabilmente si adatta all’ipotesi di eteroscedasticità.

Avanti sono i coefficienti di regressione del modello (’Coefficienti’). La riga 1 della tabella dei coefficienti è etichettata (Intercetta)-questa è l’intercetta y dell’equazione di regressione. È utile conoscere l’intercetta stimata per inserirla nell’equazione di regressione e prevedere i valori della variabile dipendente:

cardiopatia = 15 + (-0.,2*biking) + (0.178 * smoking) ± e

Le cose più importanti da notare in questa tabella di output sono le prossime due tabelle – le stime per le variabili indipendenti.

La colonnaEstimate è l’effetto stimato, chiamato anche coefficiente di regressione o valore r2. Le stime nella tabella ci dicono che per ogni aumento dell’uno per cento in bicicletta per lavorare c’è una diminuzione dello 0,2 per cento associata alle malattie cardiache, e che per ogni aumento dell’uno per cento nel fumo c’è un associato .aumento del 17% delle malattie cardiache.,

La colonna Std.error visualizza l’errore standard della stima. Questo numero mostra quanta variazione c’è intorno alle stime del coefficiente di regressione.

La colonnat value visualizza la statistica del test. Se non diversamente specificato, la statistica di prova utilizzata nella regressione lineare è il valore t di un test t a due lati. Più grande è la statistica del test, meno è probabile che i risultati si siano verificati per caso.

La colonna Pr( > | t | ) mostra il valore p., Ciò mostra quanto probabilmente il valore t calcolato si sarebbe verificato per caso se l’ipotesi nulla di nessun effetto del parametro fosse vera.

Poiché questi valori sono così bassi (p< 0.001 in entrambi i casi), possiamo rifiutare l’ipotesi nulla e concludere che sia andare in bicicletta al lavoro che fumare entrambi i probabili tassi di influenza delle malattie cardiache.

Presentare i risultati

Quando si segnalano i risultati, includere l’effetto stimato (cioè il coefficiente di regressione), l’errore standard della stima e il valore P., Dovresti anche interpretare i tuoi numeri per chiarire ai tuoi lettori cosa significa il coefficiente di regressione.

Nel nostro sondaggio su 500 città, abbiamo trovato relazioni significative tra la frequenza di andare in bicicletta al lavoro e la frequenza delle malattie cardiache e la frequenza del fumo e la frequenza delle malattie cardiache (p< 0,001 per ciascuna). Nello specifico abbiamo riscontrato una diminuzione dello 0,2% (±0,0014) della frequenza delle malattie cardiache per ogni aumento dell ‘ 1% della bicicletta e un aumento dello 0,178% (±0.,0035) nella frequenza delle malattie cardiache per ogni aumento dell ‘ 1% del fumo.

Visualizzare i risultati in un grafico

Può anche essere utile includere un grafico con i risultati. La regressione lineare multipla è un po ‘ più complicata della semplice regressione lineare, perché ci sono più parametri di quelli che si adattano a un grafico bidimensionale.

Tuttavia, ci sono modi per visualizzare i risultati che includono gli effetti di più variabili indipendenti sulla variabile dipendente, anche se solo una variabile indipendente può effettivamente essere tracciata sull’asse x.,

Qui, abbiamo calcolato i valori previsti della variabile dipendente (malattia cardiaca) attraverso l’intera gamma di valori osservati per la percentuale di persone in bicicletta al lavoro.

Per includere l’effetto del fumo sulla variabile indipendente, abbiamo calcolato questi valori previsti mantenendo il fumo costante ai tassi minimi, medi e massimi osservati di fumo.

Domande frequenti sulla regressione lineare multipla

Che cos’è un modello di regressione?,

Un modello di regressione è un modello statistico che stima la relazione tra una variabile dipendente e una o più variabili indipendenti utilizzando una linea (o un piano nel caso di due o più variabili indipendenti).

Un modello di regressione può essere utilizzato quando la variabile dipendente è quantitativa, tranne nel caso della regressione logistica, dove la variabile dipendente è binaria.

Che cos’è la regressione lineare multipla?,

La regressione lineare multipla è un modello di regressione che stima la relazione tra una variabile dipendente quantitativa e due o più variabili indipendenti utilizzando una linea retta.

Come viene calcolato l’errore in un modello di regressione lineare?

La regressione lineare utilizza più spesso mean-square error (MSE) per calcolare l’errore del modello., MSE è calcolato da:

misurando la distanza dei valori y osservati dai valori y previsti ad ogni valore di x;
quadratura di ciascuna di queste distanze;
calcolando la media di ciascuna delle distanze quadrate.

La regressione lineare adatta una linea ai dati trovando il coefficiente di regressione che risulta nel MSE più piccolo.

Un’introduzione alla regressione lineare multipla