Come interpretare i risultati dell’analisi di regressione: P-valori e coefficienti

Come interpretare i risultati dell’analisi di regressione: P-valori e coefficienti

L’analisi di regressione genera un’equazione per descrivere la relazione statistica tra una o più variabili predittive e la variabile di risposta. Dopo aver utilizzato il software statistico Minitab per adattare un modello di regressione e aver verificato l’adattamento controllando i grafici residui, è necessario interpretare i risultati. In questo post, ti mostrerò come interpretare i valori p e i coefficienti che appaiono nell’output per l’analisi di regressione lineare.

Come interpreto i valori P nell’analisi di regressione lineare?,

Il valore p per ogni termine verifica l’ipotesi nulla che il coefficiente sia uguale a zero (nessun effetto). Un valore p basso (< 0.05) indica che è possibile rifiutare l’ipotesi nulla. In altre parole, è probabile che un predittore con un valore p basso costituisca un’aggiunta significativa al modello poiché le modifiche nel valore del predittore sono correlate alle modifiche nella variabile di risposta.

Al contrario, un valore p più grande (insignificante) suggerisce che i cambiamenti nel predittore non sono associati a cambiamenti nella risposta.,

Nell’output seguente, possiamo vedere che le variabili predittive di Sud e Nord sono significative perché entrambi i loro valori p sono 0.000. Tuttavia, il valore p per East (0,092) è maggiore del livello alfa comune di 0,05, il che indica che non è statisticamente significativo.

In genere, si utilizzano i valori p del coefficiente per determinare quali termini mantenere nel modello di regressione. Nel modello sopra, dovremmo considerare la rimozione di East.

Related: F-test of overall significance

Come interpreto i coefficienti di regressione per le relazioni lineari?,

I coefficienti di regressione rappresentano la variazione media nella variabile di risposta per un’unità di variazione nella variabile predittiva mentre mantengono altri predittori nella costante del modello. Questo controllo statistico fornito dalla regressione è importante perché isola il ruolo di una variabile da tutte le altre nel modello.

La chiave per comprendere i coefficienti è considerarli come pendenze, e sono spesso chiamati coefficienti di pendenza. Illustrerò questo nella trama della linea montata qui sotto, dove userò l’altezza di una persona per modellare il loro peso., Innanzitutto, l’output della finestra di sessione di Minitab:

Il grafico della linea montato mostra graficamente gli stessi risultati di regressione.

L’equazione mostra che il coefficiente per l’altezza in metri è di 106,5 chilogrammi. Il coefficiente indica che per ogni metro aggiuntivo di altezza ci si può aspettare che il peso aumenti in media di 106,5 chilogrammi.

La linea blu montata mostra graficamente le stesse informazioni. Se si sposta a sinistra oa destra lungo l’asse X di una quantità che rappresenta una variazione di un metro di altezza, la linea montata sale o scende di 106,5 chilogrammi., Tuttavia, queste altezze provengono da ragazze di età media e vanno da 1,3 m a 1,7 m.La relazione è valida solo all’interno di questo intervallo di dati, quindi in questo caso non ci sposteremo su o giù per la linea di un metro intero.

Se la linea montata era piatta (un coefficiente di pendenza pari a zero), il valore atteso per il peso non cambierebbe, indipendentemente da quanto lontano su e giù per la linea. Quindi, un basso valore p suggerisce che la pendenza non è zero, il che a sua volta suggerisce che i cambiamenti nella variabile predittiva sono associati a cambiamenti nella variabile di risposta.,

Ho usato un diagramma di linea montato perché porta davvero la matematica alla vita. Tuttavia, i grafici di linea montati possono visualizzare solo i risultati della regressione semplice, che è una variabile predittiva e la risposta. I concetti sono validi per la regressione lineare multipla, ma avrei bisogno di una dimensione spaziale extra per ogni predittore aggiuntivo per tracciare i risultati. Questo è difficile da mostrare con la tecnologia di oggi!

Come interpreto i coefficienti di regressione per le relazioni curvilinee e i termini di interazione?,

Nell’esempio precedente, l’altezza è un effetto lineare; la pendenza è costante, il che indica che l’effetto è costante anche lungo l’intera linea montata. Tuttavia, se il modello richiede termini polinomiali o di interazione, l’interpretazione è un po ‘ meno intuitiva.

Come aggiornamento, i termini polinomiali modellano la curvatura nei dati, mentre i termini di interazione indicano che l’effetto di un predittore dipende dal valore di un altro predittore.

Il prossimo esempio utilizza un set di dati che richiede un termine quadratico (quadrato) per modellare la curvatura., Nell’output seguente, vediamo che i valori p per entrambi i termini lineari e quadratici sono significativi.

I grafici residui (non mostrati) indicano una buona vestibilità, quindi possiamo procedere con l’interpretazione. Ma come interpretiamo questi coefficienti? Aiuta davvero a graficarlo in una trama di linee adattate.

Si può vedere come il rapporto tra l’impostazione della macchina e il consumo di energia varia a seconda di dove si inizia sulla linea montata. Ad esempio, se si inizia con un’impostazione della macchina di 12 e si aumenta l’impostazione di 1, ci si aspetta che il consumo di energia diminuisca., Tuttavia, se si inizia a 25, un aumento di 1 dovrebbe aumentare il consumo di energia. E se hai circa 20 anni, il consumo di energia non dovrebbe cambiare molto.

Un termine polinomiale significativo può rendere l’interpretazione meno intuitiva perché l’effetto della modifica del predittore varia a seconda del valore di tale predittore. Allo stesso modo, un termine di interazione significativo indica che l’effetto del predittore varia a seconda del valore di un predittore diverso.

Prestare particolare attenzione quando si interpreta un modello di regressione che contiene questi tipi di termini., Non puoi semplicemente guardare l’effetto principale (termine lineare) e capire cosa sta succedendo! Sfortunatamente, se si esegue un’analisi di regressione multipla, non sarà possibile utilizzare una trama di linee adattate per interpretare graficamente i risultati. Questo è dove la conoscenza della materia è più prezioso!

Lettori particolarmente attenti potrebbero aver notato che non ti ho detto come interpretare la costante. Lo coprirò nel mio prossimo post!,

Assicurati di:

  • Controlla i tuoi grafici residui in modo da poterti fidare dei risultati
  • Valuta la bontà di adattamento e R-squared

Se stai imparando sulla regressione, leggi il mio tutorial sulla regressione!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *