En introduktion til multipel lineær regression

En introduktion til multipel lineær regression

regressionsmodeller bruges til at beskrive forhold mellem variabler ved at montere en linje til de observerede data. Regression giver dig mulighed for at estimere, hvordan en afhængig variabel ændres, når den uafhængige variabel(s) ændres.

Multipel lineær regression bruges til at estimere forholdet mellem to eller flere uafhængige variabler og en afhængig variabel., Du kan bruge flere lineære regression, når du vil vide:

  1. hvor stærkt forholdet er mellem to eller flere uafhængige variabler og en afhængig variabel (f.eks. hvordan nedbør, temperatur og mængden af tilsat gødning påvirker afgrødevæksten).
  2. værdien af den afhængige variabel til en bestemt værdi af de uafhængige variabler (f.eks. det forventede udbytte af en afgrøde på visse niveauer af nedbør, temperatur og gødningstilsætning).,
eksempel
du er en folkesundhedsforsker, der er interesseret i sociale faktorer, der påvirker hjertesygdomme. Du undersøger 500 byer og indsamler data om procentdelen af mennesker i hver by, der ryger, procentdelen af mennesker i hver by, der cykler til arbejde, og procentdelen af mennesker i hver by, der har hjertesygdomme.fordi du har to uafhængige variabler og en afhængig variabel, og alle dine variabler er kvantitative, kan du bruge flere lineære regression til at analysere forholdet mellem dem.,

antagelser om multipel lineær regression

Multipel lineær regression gør alle de samme antagelser som simpel lineær regression:

homogenitet af varians (homoscedasticitet): størrelsen af fejlen i vores forudsigelse ændres ikke signifikant på tværs af værdierne for den uafhængige variabel.observationer i datasættet blev indsamlet ved hjælp af statistisk gyldige metoder, og der er ingen skjulte forhold mellem variabler.,

i multipel lineær regression er det muligt, at nogle af de uafhængige variabler faktisk er korrelerede med hinanden, så det er vigtigt at kontrollere disse, før man udvikler regressionsmodellen. Hvis to uafhængige variabler er for stærkt korrelerede (r2 > ~0, 6), skal kun en af dem bruges i regressionsmodellen.

normalitet: dataene følger en normal fordeling.

linearitet: den linje, der passer bedst gennem datapunkterne, er en lige linje snarere end en kurve eller en slags grupperingsfaktor.,

Sådan udføres en multipel lineær regression

Multipel lineær regressionsformel

formlen for en multipel lineær regression er:

  • y = den forudsagte værdi af den afhængige variabel
  • B0 = y-intercept (værdien af y, når alle andre parametre er indstillet til 0)
  • B1 =1= regressionskoefficienten (B1) for den første uafhængige variabel (11) (alias, værdien af den uafhængige variabel har på den forudsagte y-værdi)
  • … = gør det samme for uanset hvor mange uafhængige variabler du tester
  • BN …n = regressionskoefficienten for den sidste uafhængige variabel
  • e = modelfejl (alias hvor meget variation der er i vores estimat af y)

for at finde den bedst egnede linje for hver uafhængig variabel beregner multiple lineære regression tre ting:

  • regressionskoefficienterne, der fører til den mindste overordnede modelfejl.
  • t-statistikken for den samlede model.,
  • den tilknyttede p-værdi (hvor sandsynligt det er, AT t-statistikken ville have fundet sted ved en tilfældighed, hvis nulhypotesen om intet forhold mellem de uafhængige og afhængige variabler var sandt).

den beregner derefter t-statistik og p-værdi for hver regression koefficient i modellen.

Multiple lineære regression i R

mens det er muligt at gøre flere lineære regression i hånden, er det langt mere almindeligt gjort via statistisk soft .are. Vi vil bruge R til vores eksempler, fordi det er gratis, kraftfuld, og bredt tilgængelig., Do .nload eksempeldatasættet for at prøve det selv.

datasæt for Multipel lineær regression (.csv)

Indlæs hjertet.,data datasættet i din R miljø og kør følgende kode:

R kode for multipel lineær regression
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Denne kode, der tager data sæt heart.data og beregner den virkning, at de uafhængige variabler biking og smoking har på den afhængige variabel heart disease ved hjælp af ligningen for den lineære model: lm().,

Lær mere ved at følge den fulde trinvise vejledning til lineær regression i R.

Hvad er din plagieringsscore?

sammenlign dit papir med over 60 milliarder webebsider og 30 millioner publikationer.,/li>

Scribbr Plagiat Checker

fortolkning af resultaterne

for at se resultaterne af modellen kan du brugesummary()funktion:

summary(heart.disease.lm)

denne funktion tager de vigtigste parametre fra den lineære model og sætter dem i en tabel, der ser sådan ud:

resum theet udskriver først formlen (‘opkald’), derefter modellen rester (‘rester’)., Hvis restene er omtrent centreret omkring nul og med lignende spredning på begge sider, som disse gør (median 0.03, og min og Ma.omkring -2 og 2), passer modellen sandsynligvis til antagelsen om heteroscedasticitet.

næste er regressionskoefficienterne for modellen (‘koefficienter’). Række 1 i koefficienttabellen er mærket (Intercept) – dette er y-intercept af regressionsligningen. Det er nyttigt at kende den estimerede aflytning for at tilslutte den til regressionsligningen og forudsige værdier for den afhængige variabel:

hjertesygdom = 15 + (-0.,2 * cykling) + (0.178*rygning) e E

de vigtigste ting at bemærke i denne outputtabel er de næste to tabeller – estimaterne for de uafhængige variabler.

Estimate kolonne er den estimerede effekt, også kaldet regressionskoefficienten eller R2-værdien. Estimaterne i tabellen fortæller os, at for hver eneste procent stigning i cykling til arbejde er der en tilknyttet 0,2 procent fald i hjertesygdomme, og at for hver eneste procent stigning i rygning er der en tilknyttet .17 procent stigning i hjertesygdomme.,

Std.error kolonnen viser estimatets standardfejl. Dette tal viser, hvor meget variation der er omkring skøn over regression koefficient.

t value kolonnen viser teststatistikken. Medmindre andet er angivet, er den teststatistik, der anvendes i lineær regression, t-værdien fra en tosidet t-test. Jo større teststatistikken er, desto mindre sandsynligt er det, at resultaterne skete tilfældigt.

Pr( > | t | ) kolonnen viser p-værdien., Dette viser, hvor sandsynligt den beregnede t-værdi ville have fundet sted ved en tilfældighed, hvis nulhypotesen om ingen effekt af parameteren var sand.

fordi disse værdier er så lave (p < 0.001 i begge tilfælde), kan vi afvise nulhypotesen og konkludere, at både cykling til arbejde og rygning begge sandsynligvis påvirker hjertesygdomme.

præsentation af resultaterne

Når du rapporterer dine resultater, skal du inkludere den estimerede effekt (dvs.regressionskoefficienten), estimatets standardfejl og p-værdien., Du bør også fortolke dine tal for at gøre det klart for dine læsere, hvad regressionskoefficienten betyder.

I vores undersøgelse af 500 byer, vi fandt væsentlige relationer mellem hyppigheden af cykling til arbejde, og hyppigheden af hjertesygdomme og hyppigheden af rygning og hyppighed af hjertesygdom (p < 0.001 for hver). Specifikt fandt vi et fald på 0,2% (0.00 0,0014) i hyppigheden af hjertesygdomme for hver 1% stigning i cykling og en stigning på 0,178% (0 0.,0035) i hyppigheden af hjertesygdomme for hver 1% stigning i rygning.

visualisering af resultaterne i en graf

det kan også være nyttigt at inkludere en graf med dine resultater. Flere lineære regression er noget mere kompliceret end simpel lineær regression, fordi der er flere parametre end vil passe på en todimensionel plot.

Der er dog måder at vise dine resultater, der inkluderer virkningerne af flere uafhængige variabler på den afhængige variabel, selvom kun en uafhængig variabel faktisk kan plottes på the-aksen.,

Her, har vi beregnet de forudsagte værdier af den afhængige variabel (hjertesygdomme) på tværs af hele spektret af observerede værdier for den procentdel af mennesker, der cykler til arbejde.

for at inkludere effekten af rygning på den uafhængige variabel beregnet vi disse forudsagte værdier, mens vi holdt rygning konstant ved de minimale, gennemsnitlige og maksimale observerede rygningshastigheder.

Ofte stillede spørgsmål om multipel lineær regression

Hvad er en regressionsmodel?, en regressionsmodel er en statistisk model, der estimerer forholdet mellem en afhængig variabel og en eller flere uafhængige variabler ved hjælp af en linje (eller et plan i tilfælde af to eller flere uafhængige variabler).

en regressionsmodel kan bruges, når den afhængige variabel er kvantitativ, undtagen i tilfælde af logistisk regression, hvor den afhængige variabel er binær.

Hvad er multipel lineær regression?,

Multiple lineær regression er en regressionsmodel, der estimerer forholdet mellem en kvantitativ afhængig variabel og to eller flere uafhængige variabler ved hjælp af en lige linje.

hvordan beregnes fejlen i en lineær regressionsmodel?

lineær regression bruger oftest mean-s .uare error (MSE) til at beregne modelens fejl., MSE beregnes ved:

  1. måling af afstanden af de observerede y-værdier fra de forudsagte y-værdier ved hver værdi af.;
  2. kvadrering af hver af disse afstande;
  3. beregning af gennemsnittet af hver af de kvadrerede afstande.

lineær regression passer til en linje til dataene ved at finde regressionskoefficienten, der resulterer i den mindste MSE.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *