regressionsanalyse genererer en ligning til at beskrive det statistiske forhold mellem en eller flere forudsigelsesvariabler og responsvariablen. Når du har brugt Minitab statistisk Soft .are til at passe til en regressionsmodel og verificere pasformen ved at kontrollere de resterende plot, vil du fortolke resultaterne. I dette indlæg viser jeg dig, hvordan du fortolker de p-værdier og koefficienter, der vises i output til lineær regressionsanalyse.
hvordan fortolker jeg P-værdierne i lineær regressionsanalyse?,
p-værdien for hvert udtryk tester nulhypotesen om, at koefficienten er lig med nul (ingen effekt). En lav P-værdi (< 0.05) angiver, at du kan afvise nulhypotesen. Med andre ord er en forudsigelse, der har en lav p-værdi, sandsynligvis en meningsfuld tilføjelse til din model, fordi ændringer i forudsigelsens værdi er relateret til ændringer i responsvariablen.
omvendt antyder en større (ubetydelig) p-værdi, at ændringer i forudsigeren ikke er forbundet med ændringer i responsen.,
i output nedenfor kan vi se, at forudsigelsesvariablerne i syd og nord er signifikante, fordi begge deres p-værdier er 0,000. Imidlertid er p-værdien for Øst (0,092) større end det fælles alfa-niveau på 0,05, hvilket indikerer, at det ikke er statistisk signifikant.
typisk bruger du koefficienten p-værdier til at bestemme, hvilke udtryk der skal opbevares i regressionsmodellen. I modellen ovenfor bør vi overveje at fjerne øst.
relateret: F-test af samlet betydning
hvordan fortolker jeg Regressionskoefficienterne for lineære forhold?,
regressionskoefficienter repræsenterer den gennemsnitlige ændring i responsvariablen for en ændringsenhed i forudsigelsesvariablen, mens andre forudsigere holdes i modelkonstanten. Denne statistiske kontrol, som regression giver, er vigtig, fordi den isolerer rollen som en variabel fra alle de andre i modellen.nøglen til at forstå koefficienterne er at tænke på dem som skråninger, og de kaldes ofte hældningskoefficienter. Jeg vil illustrere dette i den monterede linje plot nedenfor, hvor jeg vil bruge en persons højde til at modellere deres vægt., Først Minitab sessionsvindue output:
den monterede linje plot viser de samme regression resultater grafisk.
ligningen viser, at koefficienten for højde i meter er 106, 5 kg. Koefficienten indikerer, at for hver ekstra meter i højden kan du forvente, at vægten stiger med et gennemsnit på 106, 5 kg.
den blå monterede linje viser grafisk de samme oplysninger. Hvis du bevæger dig til venstre eller højre langs axis-aksen med et beløb, der repræsenterer en en meter ændring i højden, stiger eller falder den monterede linje med 106, 5 kg., Men disse højder er fra middle school i alderen piger og spænder fra 1,3 til 1,7 m m. Forholdet er kun gældende indenfor dette dataområde, så vi faktisk ikke vil flytte op eller ned på linjen ved en fuld meter i dette tilfælde.
Hvis den monterede linje var flad (en hældningskoefficient på nul), ville den forventede værdi for vægt ikke ændre sig, uanset hvor langt op og ned linjen du går. Så en lav p-værdi antyder, at hældningen ikke er nul, hvilket igen antyder, at ændringer i forudsigelsesvariablen er forbundet med ændringer i responsvariablen.,
Jeg brugte et monteret linjeplot, fordi det virkelig bringer matematikken til live. Imidlertid kan monterede linjeplotter kun vise resultaterne fra simpel regression, som er en forudsigelsesvariabel og svaret. Begreberne gælder for flere lineære regression, men jeg ville have brug for en ekstra rumlig dimension for hver yderligere forudsigelse for at plotte resultaterne. Det er svært at vise med dagens teknologi!
hvordan fortolker jeg Regressionskoefficienterne for krumme forhold og Interaktionsbetingelser?,
i ovenstående eksempel er højden en lineær effekt; hældningen er konstant, hvilket indikerer, at effekten også er konstant langs hele den monterede linje. Men hvis din model kræver polynom-eller interaktionsbetingelser, er fortolkningen lidt mindre intuitiv.
som en genopfriskning modellerer polynomiske termer krumning i dataene, mens interaktionsbetegnelser indikerer, at effekten af en forudsigelse afhænger af værdien af en anden forudsigelse.
det næste eksempel bruger et datasæt, der kræver en kvadratisk (kvadratisk) term til at modellere krumningen., I output nedenfor ser vi, at p-værdierne for både de lineære og kvadratiske udtryk er signifikante.
de resterende plots (ikke vist) angiver en god pasform, så vi kan fortsætte med fortolkningen. Men hvordan fortolker vi disse koefficienter? Det hjælper virkelig med at tegne det i et monteret linjeplot.
Du kan se, hvordan forholdet mellem maskinens indstilling og energiforbrug varierer afhængigt af, hvor du starter på den monterede linje. Hvis du for eksempel starter ved en maskinindstilling på 12 og øger indstillingen med 1, forventer du, at energiforbruget falder., Men hvis du starter ved 25, bør en stigning på 1 øge energiforbruget. Og hvis du er omkring 20, bør energiforbruget slet ikke ændre sig meget.
et signifikant polynomisk udtryk kan gøre fortolkningen mindre intuitiv, fordi effekten af at ændre forudsigelsen varierer afhængigt af værdien af den forudsigelse. Tilsvarende indikerer et signifikant interaktionsterm, at effekten af forudsigeren varierer afhængigt af værdien af en anden forudsigelse.vær ekstra forsigtig, når du fortolker en regressionsmodel, der indeholder disse typer udtryk., Du kan ikke bare se på hovedeffekten (lineært udtryk) og forstå, hvad der sker! Desværre, hvis du udfører flere regressionsanalyser, vil du ikke være i stand til at bruge et monteret linjeplot til grafisk at fortolke resultaterne. Det er her fagområde viden er ekstra værdifuld!
særligt opmærksomme læsere har måske bemærket, at jeg ikke fortalte dig, hvordan du fortolker konstanten. Jeg vil dække det i mit næste indlæg!,
sørg for at:
- Kontroller dine resterende plot, så du kan stole på resultaterne
- Vurder godhed-of-fit og R-S !uared
Hvis du lærer om regression, skal du læse min regressionsvejledning!