regressionsanalys genererar en ekvation för att beskriva det statistiska förhållandet mellan en eller flera prediktorvariabler och svarvariabeln. När du har använt Minitab Statistical Software för att passa en regressionsmodell och verifiera passformen genom att kontrollera resterande tomter, vill du tolka resultaten. I det här inlägget visar jag dig hur du tolkar p-värden och koefficienter som visas i produktionen för linjär regressionsanalys.
hur tolkar jag p-värdena i linjär regressionsanalys?,
p-värdet för varje term testar nollhypotesen att koefficienten är lika med noll (ingen effekt). Ett lågt P-värde (< 0,05) indikerar att du kan avvisa nollhypotesen. Med andra ord är en prediktor som har ett lågt P-värde sannolikt ett meningsfullt tillägg till din modell eftersom förändringar i prediktorns värde är relaterade till förändringar i svarsvariabeln.
omvänt tyder ett större (obetydligt) p-värde på att förändringar i prediktorn inte är associerade med förändringar i svaret.,
i produktionen nedan kan vi se att prediktorvariablerna i söder och norr är signifikanta eftersom båda deras p-värden är 0,000. P-värdet för öst (0,092) är emellertid större än den gemensamma alfanivån på 0,05, vilket indikerar att den inte är statistiskt signifikant.
vanligtvis använder du koefficienten p-värden för att bestämma vilka villkor som ska behållas i regressionsmodellen. I modellen ovan bör vi överväga att ta bort öst.
relaterat: F-test av övergripande betydelse
hur tolkar jag Regressionskoefficienterna för linjära relationer?,
Regressionskoefficienter representerar den genomsnittliga förändringen i svarsvariabeln för en enhet av förändring i prediktorvariabeln medan du håller andra prediktorer i modellkonstanten. Denna statistiska kontroll som regression ger är viktig eftersom den isolerar rollen som en variabel från alla andra i modellen.
nyckeln till att förstå koefficienterna är att tänka på dem som sluttningar, och de kallas ofta lutningskoefficienter. Jag ska illustrera detta i den monterade linjeplotten nedan, där jag använder en persons höjd för att modellera sin vikt., För det första visar Minitabs sessionsfönsterutmatning:
den monterade linjeplotten samma regressionsresultat grafiskt.
ekvationen visar att koefficienten för höjd i meter är 106,5 kg. Koefficienten indikerar att för varje extra meter i höjd kan du förvänta dig att vikten ökar med i genomsnitt 106,5 kg.
den blå monterade linjen visar grafiskt samma information. Om du flyttar vänster eller höger längs X-axeln med ett belopp som representerar en en meter förändring i höjd, stiger den monterade linjen eller faller med 106,5 kg., Dessa höjder är dock från medelålders flickor och sträcker sig från 1,3 m till 1,7 m. förhållandet är endast giltigt inom detta dataområde, så vi skulle inte faktiskt flytta upp eller ner linjen med en hel meter i det här fallet.
om den monterade linjen var platt (en lutningskoefficient på noll) skulle det förväntade värdet för vikt inte förändras oavsett hur långt upp och ner den linje du går. Så, ett lågt P-värde tyder på att lutningen inte är noll, vilket i sin tur tyder på att förändringar i prediktorvariabeln är förknippade med förändringar i svarvariabeln.,
Jag använde en monterad linjeplot eftersom det verkligen ger matten till liv. Monterade linjeytor kan dock endast visa resultaten från enkel regression, vilket är en prediktorvariabel och svaret. Begreppen är sanna för multipel linjär regression, men jag skulle behöva en extra rumslig dimension för varje extra prediktor för att rita resultaten. Det är svårt att visa med dagens teknik!
hur tolkar jag Regressionskoefficienterna för krökta relationer och Interaktionsvillkor?,
i ovanstående exempel är höjden en linjär effekt; lutningen är konstant, vilket indikerar att effekten också är konstant längs hela den monterade linjen. Men om din modell kräver polynom eller interaktionsvillkor är tolkningen lite mindre intuitiv.
som en repetitions, polynom termer modell krökning i data, medan interaktionsvillkor indikerar att effekten av en prediktor beror på värdet av en annan prediktor.
nästa exempel använder en datamängd som kräver en kvadratisk (kvadratisk) term för att modellera krökningen., I produktionen nedan ser vi att p-värdena för både linjära och kvadratiska termer är signifikanta.
de återstående tomterna (visas inte) indikerar en bra passform, så vi kan fortsätta med tolkningen. Men hur tolkar vi dessa koefficienter? Det hjälper verkligen att gradera det i en monterad linje tomt.
Du kan se hur förhållandet mellan maskininställning och energiförbrukning varierar beroende på var du börjar på den monterade linjen. Om du till exempel börjar med en maskininställning på 12 och ökar inställningen med 1, förväntar du dig att energiförbrukningen minskar., Men om du börjar vid 25, bör en ökning med 1 öka energiförbrukningen. Och om du är runt 20, bör energiförbrukningen inte förändras mycket alls.
en betydande polynomial term kan göra tolkningen mindre intuitiv eftersom effekten av att ändra prediktorn varierar beroende på värdet av den prediktorn. På samma sätt indikerar en signifikant interaktionsperiod att effekten av prediktorn varierar beroende på värdet av en annan prediktor.
var extra försiktig när du tolkar en regressionsmodell som innehåller dessa typer av termer., Du kan inte bara titta på huvudeffekten (linjär term) och förstå vad som händer! Tyvärr, om du utför flera regressionsanalys, kommer du inte att kunna använda en monterad linjeplot för att grafiskt tolka resultaten. Det är här ämnesområdet kunskap är extra värdefullt!
särskilt uppmärksamma läsare kanske har märkt att jag inte berättade hur du tolkar konstanten. Jag täcker det i mitt nästa inlägg!,
var noga med att:
- kontrollera dina återstående tomter så att du kan lita på resultaten
- bedöma godhet-of-fit och R-squared
om du lär dig om regression, läs min regressionshandledning!