En innføring i multippel lineær regresjon

En innføring i multippel lineær regresjon

regresjonsmodellene er brukt for å beskrive relasjoner mellom variabler ved å montere en linje til de observerte data. Regresjon kan du beregne hvordan en avhengig variabel endringer som den uavhengige variabelen(e) du vil endre.

Multippel lineær regresjon er benyttet til å beregne forholdet mellom to eller flere uavhengige variabler og én avhengig variabel., Du kan bruke multippel lineær regresjon når du ønsker å vite:

  1. Hvor sterk sammenhengen er mellom to eller flere uavhengige variabler og en avhengig variabel (f.eks. hvordan nedbør, temperatur og mengde gjødsel lagt påvirke vekst crop).
  2. verdi på den avhengige variabelen ved en bestemt verdi på den uavhengige variabler (f.eks. forventet avkastning av en avling på visse nivåer av nedbør, temperatur og gjødsel tillegg).,
Eksempel
Du er en offentlig helse-forsker interessert i det sosiale faktorer som påvirker hjerte-og karsykdommer. Du survey 500 byer og samle inn data om andelen av personer i hver by som røyker, i prosent av personer i hver by som sykkelen til jobb, og andelen av personer i hver by som har hjertesykdom.

Fordi du har to uavhengige variabler og en avhengig variabel, og alle variablene er kvantitative, kan du bruke multippel lineær regresjon for å analysere forholdet mellom dem.,

Forutsetninger for multippel lineær regresjon

Multippel lineær regresjon gjør alle de samme forutsetninger som enkel lineær regresjon:

Homogenitet i variansen (homoscedasticity): størrelsen på feilen i vår prediksjon ikke endres vesentlig på tvers av verdiene på den uavhengige variabelen.

Uavhengighet av observasjoner: observasjonene i datasettet ble samlet inn ved hjelp av statistisk gyldige metoder, og det er ingen skjulte relasjoner mellom variabler.,

I multippel lineær regresjon, det er mulig at noen av de uavhengige variablene er faktisk korrelert med hverandre, så det er viktig å sjekke disse før å utvikle regresjonsmodell. Hvis to uavhengige variabler er også høyt korrelert (r2 > ~0.6), så er det bare en av dem bør brukes i regresjonsmodellen.

Normalitet: data følger en normalfordeling.

Linearitet: den linjen som passer best gjennom data punkter er en rett linje, snarere enn en kurve eller noen form for gruppering faktor.,

Hvordan for å utføre en multippel lineær regresjon

Multippel lineær regresjon formel

formelen for en multippel lineær regresjon er:

  • y = forventet verdi på den avhengige variabelen
  • B0 = y-skjæringspunkt (verdien av y når alle andre parametere er satt til 0)
  • B1X1= den regresjons-koeffisient (B1) i det første uavhengige variable (X1) (a.k.a., effekten på at økt verdi på den uavhengige variabelen har på den predikerte y-verdien)
  • … = gjøre det samme for men mange uavhengige variabler du er testing
  • BnXn = den regresjons-koeffisient av den siste uavhengige variabelen
  • e = – modellen feil (en.k.a. hvor mye variasjon det er i vår beregning av y)

Å finne den beste tilpassede linjen for hver uavhengig variabel, multippel lineær regresjon beregner tre ting:

  • regresjon koeffisienter som fører til den minste generelle modellen feil.
  • t-statistikk av den generelle modellen.,
  • Den tilhørende p-verdien (hvor sannsynlig det er at t-statistikk ville ha oppstått ved en tilfeldighet hvis nullhypotesen om ingen sammenheng mellom den uavhengige og avhengige variabler var sant).

Det regner så ut t-statistikk og p-verdi for hver regresjons-koeffisient i modellen.

Multippel lineær regresjon i R

Mens det er mulig å gjøre for multippel lineær regresjon ved hånden, det er mye mer vanlig gjort via statistisk programvare. Vi kommer til å bruke R for våre eksempler fordi det er gratis, kraftig, og allment tilgjengelig., Last ned eksempel dataset å prøve det selv.

Dataset for multippel lineær regresjon (.csv -)

Legg i hjertet.,data datasettet inn i R-miljøet og kjøre følgende kode:

R-kode for multippel lineær regresjon
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Denne koden tar data set heart.data og beregner effekt som uavhengige variabler biking og smoking har på den avhengige variabelen heart disease ved hjelp av ligningen for den lineære modell: lm().,

finn ut mer ved å følge fullstendig steg-for-steg guide til lineær regresjon i R.

Hva er plagiering score?

Sammenlign papir med over 60 milliarder nettsider og 30 millioner publikasjoner.,/li>

Scribbr Plagiat Checker

Tolke resultatene

for Å vise resultatene av modell, kan du bruke summary() funksjon:

summary(heart.disease.lm)

Denne funksjonen tar de viktigste parametrene fra den lineære modellen, og setter dem inn i en tabell som ser ut som dette:

sammendraget første til å skrive ut formelen (‘Ring’), deretter modellen rester (‘Rester’)., Hvis restene er omtrent sentrert rundt null, og med likt fordelt på begge sider, som disse gjør (median 0.03, og min-og max-rundt -2 og 2) deretter modellen trolig passer forutsetning av heteroscedasticity.

Neste er den regresjon koeffisientene i modellen (‘Koeffisienter’). Rad 1 av koeffisientene bordet er merket (Intercept) – dette er y-skjæringspunktet av regresjonsligningen. Det er nyttig å vite beregnet skjæringspunkt for å plugge den inn i regresjonsligningen og forutsi verdier av den avhengige variabelen:

hjertesykdommer = 15 + (-0.,2*sykling) + (0.178*røyking) ± e

Den mest viktig ting å merke seg i denne utgang tabellen, er de to neste tabellene – estimatene for de uavhengige variablene.

Estimate kolonnen er estimert effekt, også kalt regresjons-koeffisient eller r2-verdi. Estimatene i tabellen forteller oss at for hver prosent økning i sykling til arbeid er det en tilknyttet 0,2 prosent nedgang i hjerte-og karsykdommer, og at for hver prosent økning i røyking det er et tilknyttet .17 prosent økning i hjerte-og karsykdommer.,

Std.error kolonne viser standardfeil på estimatet. Dette tallet viser hvor mye variasjon det er rundt estimatene av regresjons-koeffisient.

t value kolonne viser teststatistikk. Med mindre annet er angitt, test-statistikken som brukes i lineær regresjon er t-verdien fra en to-sidig t-test. De større teststatistikk, jo mindre sannsynlig er det at de resultatene som er oppstått ved en tilfeldighet.

Pr( > | t | ) kolonnen viser p-verdien., Dette viser hvor sannsynlig det er beregnet t-verdi ville ha oppstått ved en tilfeldighet hvis nullhypotesen om ingen effekt av parameteren var sant.

Fordi disse verdiene er så lave (p < 0.001 i begge tilfeller), kan vi forkaste nullhypotesen og konkluderer med at både sykling til arbeid og smoking både sannsynlig påvirke forekomst av hjerte-og karsykdommer.

Presentasjon av resultater

Når rapportering av resultater, inkluderer estimert effekt (dvs. regresjons-koeffisient), standardfeil på estimatet, og p-verdi., Du bør også tolke tallene dine for å gjøre det klart for leserne hva de regresjons-koeffisient betyr.

I vår undersøkelse av 500 byer, fant vi signifikante sammenhenger mellom frekvensen av sykling til arbeid og hyppigheten av hjerte-og karsykdommer og frekvensen av røyking og hyppigheten av hjerte-og karsykdommer (p < 0.001 for hver). Spesielt fant vi et 0,2% nedgang (± 0.0014) i hyppigheten av hjerte-og karsykdommer for hver 1% økning i sykling, og en 0.178% økning (± 0.,0035) i hyppigheten av hjerte-og karsykdommer for hver 1% økning i røyking.

Se resultatene i en graf

Det kan også være nyttig å inkludere en graf med resultatene dine. Multippel lineær regresjon er noe mer komplisert enn en enkel lineær regresjon, fordi det er flere parametere enn det som får plass på et to-dimensjonalt plott.

Men det finnes måter å vise resultatene som inkluderer effekten av flere uavhengige variablene på den avhengige variabelen, selv om bare én uavhengig variabel kan faktisk være plottes på x-aksen.,

Her har vi beregnet den predikerte verdier av den avhengige variabelen (hjertesykdommer) over hele spekteret av observerte verdier for andelen av folk som sykler til arbeid.

for Å inkludere effekten av røyking på den uavhengige variabelen, kan vi regne ut disse predikerte verdier mens du holder røyking konstant på minimum, gjennomsnitt, og maksimal observert forekomst av røyking.

Ofte stilte spørsmål om multippel lineær regresjon

Hva er en regresjonsmodell?,

En regresjonsmodell er en statistisk modell som beregner forholdet mellom en avhengig variabel og en eller flere uavhengige variabler ved hjelp av en linje (eller en plan i tilfelle av to eller flere uavhengige variabler).

En regresjonsmodell kan brukes når den avhengige variabelen er kvantitative, unntatt i tilfelle av logistisk regresjon, der den avhengige variabelen er binær.

Hva er multippel lineær regresjon?,

Multippel lineær regresjon er en regresjons modell som beregner forholdet mellom en kvantitativ avhengig variabel og to eller flere uavhengige variabler ved hjelp av en rett linje.

Hvordan er feil beregnet i en lineær regresjonsmodell?

Lineær regresjon oftest bruker mean-square error (MSE) til å beregne feil i modellen., MSE er beregnet ved:

  1. for å måle avstanden til den observerte y-verdier fra den predikerte y-verdier på hver verdi av x;
  2. kvadrere hver av disse avstander;
  3. å beregne gjennomsnittet av hver av de kvadrerte avstander.

Lineær regresjon passer en linje til data ved å finne regresjons-koeffisient som resulterer i det minste MSE.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *