Interpretatie van de resultaten van de regressieanalyse: p-waarden en coëfficiënten

Interpretatie van de resultaten van de regressieanalyse: p-waarden en coëfficiënten

regressieanalyse genereert een vergelijking om de statistische relatie tussen een of meer voorspellende variabelen en de responsvariabele te beschrijven. Nadat u Minitab statistische Software gebruikt om in een regressiemodel te passen en de pasvorm te verifiëren door de resterende plots te controleren, wilt u de resultaten interpreteren. In deze post Zal ik u laten zien hoe u de p-waarden en coëfficiënten die in de output voor lineaire regressieanalyse verschijnen kunt interpreteren.

hoe interpreteer ik de p-waarden in de lineaire regressieanalyse?,

De p-waarde voor elke term test de nulhypothese dat de coëfficiënt gelijk is aan nul (geen effect). Een lage p-waarde (< 0,05) geeft aan dat u de nulhypothese kunt afwijzen. Met andere woorden, een voorspeller met een lage p-waarde is waarschijnlijk een zinvolle toevoeging aan uw model omdat veranderingen in de waarde van de voorspeller gerelateerd zijn aan veranderingen in de responsvariabele.

omgekeerd suggereert een grotere (onbeduidende) p-waarde dat veranderingen in de voorspeller niet geassocieerd zijn met veranderingen in de respons.,

in de output hieronder kunnen we zien dat de voorspellende variabelen van Zuid en Noord significant zijn omdat beide p-waarden 0.000 zijn. De p-waarde voor Oost (0,092) is echter groter dan het gebruikelijke alfaniveau van 0,05, wat aangeeft dat het statistisch niet significant is.

gewoonlijk gebruikt u de coëfficiënt p-waarden om te bepalen welke termen u in het regressiemodel wilt behouden. In het bovenstaande model moeten we overwegen om het Oosten te verwijderen.

gerelateerd: F-test van algemene significantie

hoe interpreteer ik de regressiecoëfficiënten voor lineaire relaties?,

regressiecoëfficiënten vertegenwoordigen de gemiddelde verandering in de responsvariabele voor één eenheid van verandering in de voorspellende variabele, terwijl andere voorspellers in de modelconstante worden gehouden. Deze statistische controle die regressie biedt is belangrijk omdat het de rol van één variabele isoleert van alle andere in het model.

de sleutel tot het begrijpen van de coëfficiënten is om ze te zien als hellingen, en ze worden vaak hellingscoëfficiënten genoemd. Ik zal dit illustreren in de ingerichte lijn plot hieronder, waar ik de lengte van een persoon zal gebruiken om hun gewicht te modelleren., Ten eerste, Minitab ‘ s sessie window output:

De aangesloten lijn plot toont dezelfde regressieresultaten grafisch.

de vergelijking toont aan dat de coëfficiënt voor de hoogte in meters 106,5 kg is. De coëfficiënt geeft aan dat je voor elke extra meter in hoogte gemiddeld 106,5 kilogram gewicht kunt verwachten.

De blauwe lijn toont grafisch dezelfde informatie. Als je naar links of rechts langs de x-as beweegt met een hoeveelheid die een verandering van één meter in hoogte vertegenwoordigt, stijgt of daalt de gemonteerde lijn met 106,5 kilogram., Echter, deze hoogtes zijn van middelbare school leeftijd meisjes en variëren van 1,3 m tot 1,7 m. de relatie is alleen geldig binnen dit gegevensbereik, dus we zouden eigenlijk niet verschuiven op of neer de lijn door een volledige meter in dit geval.

als de gemonteerde lijn vlak was (een hellingscoëfficiënt van nul), zou de verwachte gewichtswaarde niet veranderen, ongeacht hoe ver u de lijn op en neer gaat. Dus, een lage p-waarde suggereert dat de helling niet nul is, wat op zijn beurt suggereert dat veranderingen in de predictor variabele geassocieerd zijn met veranderingen in de respons variabele.,

Ik gebruikte een ingerichte lijn plot omdat het echt de wiskunde tot leven brengt. Echter, ingerichte lijn percelen kunnen alleen de resultaten van eenvoudige regressie, dat is een voorspeller variabele en de respons weer te geven. De concepten gelden voor meerdere lineaire regressie, maar ik zou een extra ruimtelijke dimensie nodig hebben voor elke extra voorspeller om de resultaten te plotten. Dat is moeilijk te laten zien met de technologie van vandaag!

hoe interpreteer ik de regressiecoëfficiënten voor kromlijnige relaties en Interactietermen?,

in het bovenstaande voorbeeld is Hoogte een lineair effect; de helling is constant, wat aangeeft dat het effect ook constant is langs de gehele lijn. Als uw model echter veeltermen of interactietermen vereist, is de interpretatie iets minder intuïtief.

als een refresher modelleren veeltermen kromming in de gegevens, terwijl interactietermen aangeven dat het effect van een voorspeller afhangt van de waarde van een andere voorspeller.

het volgende voorbeeld gebruikt een dataset die een kwadratische (kwadratische) term vereist om de kromming te modelleren., In de output hieronder zien we dat de p-waarden voor zowel de lineaire als kwadratische termen significant zijn.

de resterende plots (niet getoond) geven een goede pasvorm aan, dus we kunnen doorgaan met de interpretatie. Maar hoe interpreteren we deze coëfficiënten? Het helpt echt om de grafiek in een ingerichte lijn plot.

u kunt zien hoe de relatie tussen de instelling van de machine en het energieverbruik varieert, afhankelijk van waar u begint op de aangesloten lijn. Als je bijvoorbeeld bij een machineinstelling van 12 begint en de instelling met 1 verhoogt, zou je verwachten dat het energieverbruik afneemt., Echter, als je begint bij 25, een stijging van 1 zou het energieverbruik te verhogen. En als je rond de 20 bent, zou het energieverbruik niet veel moeten veranderen.

een significante veelterm kan de interpretatie minder intuïtief maken omdat het effect van het veranderen van de voorspeller varieert afhankelijk van de waarde van die voorspeller. Evenzo geeft een significante interactieterm aan dat het effect van de voorspeller varieert afhankelijk van de waarde van een andere voorspeller.

wees extra voorzichtig als u een regressiemodel interpreteert dat dit soort termen bevat., Je kunt niet alleen kijken naar het belangrijkste effect (lineaire term) en begrijpen wat er gebeurt! Helaas, Als u meerdere regressieanalyse uitvoert, zult u niet in staat zijn om een ingerichte lijnplot te gebruiken om de resultaten grafisch te interpreteren. Dit is waar vakgebied kennis is extra waardevol!

bijzonder oplettende lezers hebben misschien gemerkt dat ik je niet heb verteld hoe je de constante moet interpreteren. Ik zal dat behandelen in mijn volgende post!,

zorg ervoor dat:

  • Controleer uw resterende plots zodat u de resultaten kunt vertrouwen
  • Beoordeel de goodness-of-fit en R-squared

Als u leert over regressie, lees dan mijn regressie tutorial!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *