En introduktion till flera linjära regression

En introduktion till flera linjära regression

regressionsmodeller används för att beskriva relationer mellan variabler genom att montera en linje till de observerade data. Regression gör att du kan uppskatta hur en beroende variabel ändras när den oberoende variabeln / – variablerna ändras.

multipel linjär regression används för att uppskatta förhållandet mellan två eller flera oberoende variabler och en beroende variabel., Du kan använda flera linjär regression när du vill veta:

  1. hur starkt förhållandet är mellan två eller flera oberoende variabler och en beroende variabel (t.ex. hur regn, temperatur och mängd gödningsmedel som läggs till påverkar växternas tillväxt).
  2. värdet av den beroende variabeln till ett visst värde av de oberoende variablerna (t.ex. den förväntade avkastningen av en gröda vid vissa nivåer av regn, temperatur och gödseltillsats).,
exempel
du är en folkhälsoforskare som är intresserad av sociala faktorer som påverkar hjärtsjukdom. Du survey 500 städer och samla in uppgifter om andelen människor i varje stad som röker, andelen människor i varje stad som cyklar till jobbet, och andelen människor i varje stad som har hjärtsjukdom.

eftersom du har två oberoende variabler och en beroende variabel, och alla dina variabler är kvantitativa, kan du använda flera linjära regression för att analysera förhållandet mellan dem.,

antaganden om multipel linjär regression

multipel linjär regression gör alla samma antaganden som enkel linjär regression:

homogenitet varians (homoscedasticitet): storleken på felet i vår förutsägelse ändras inte signifikant över värdena för den oberoende variabeln.

observationernas oberoende: observationerna i datauppsättningen samlades in med statistiskt giltiga metoder, och det finns inga dolda relationer mellan variabler.,

i multipel linjär regression är det möjligt att vissa av de oberoende variablerna faktiskt är korrelerade med varandra, så det är viktigt att kontrollera dessa innan man utvecklar regressionsmodellen. Om två oberoende variabler är för starkt korrelerade (r2 > ~0.6), ska endast en av dem användas i regressionsmodellen.

normalitet: data följer en normal fördelning.

linearitet: linjen med bästa passform genom datapunkterna är en rak linje, snarare än en kurva eller någon form av grupperingsfaktor.,

hur man utför en multipel linjär regression

multipel linjär regressionsformel

formeln för en multipel linjär regression är:

  • y = det förväntade värdet för den beroende variabeln
  • B0 = y-intercept (värdet för y när alla andra parametrar är inställda på 0)
  • b1x1= regressionskoefficienten (B1) för den första oberoende variabeln (x1) (alias, effekten som ökar värdet på den oberoende variabeln har på det förutsagda y-värdet)
  • … = gör detsamma för hur många oberoende variabler du testar
  • BnXn = regressionskoefficienten för den sista oberoende variabeln
  • e = modellfel (a.k.a. hur mycket variation det finns i vår uppskattning av y)

för att hitta den bästa passande linjen för varje oberoende variabel, beräknar flera linjära regression tre saker:

      regressionskoefficienterna som leder till det minsta övergripande modellfelet.

    • t-statistiken för den övergripande modellen.,
    • det associerade p-värdet (hur sannolikt det är att t-statistiken skulle ha inträffat av en slump om nollhypotesen om inget samband mellan de oberoende och beroende variablerna var sant).

    det beräknar sedan t-statistik och p-värde för varje regressionskoefficient i modellen.

    multipel linjär regression i R

    Även om det är möjligt att göra flera linjär regression för hand, är det mycket mer vanligt via statistisk programvara. Vi kommer att använda R för våra exempel eftersom det är fri, kraftfull, och allmänt tillgängliga., Ladda ner provdatauppsättningen för att prova det själv.

    Dataset för multipel linjär regression (.csv)

    ladda hjärtat.,datauppsättning i din r-miljö och kör följande kod:

    r-kod för multipel linjär regression
    heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

    den här koden tar datauppsättningen heart.data och beräknar effekten att de oberoende variablerna

    den här koden tar datauppsättningenheart.dataoch beräknar effekten av id=”5088af4e85″>och smoking har på den beroende variabeln heart disease använda ekvationen för den linjära modellen: lm().,

    Läs mer genom att följa den fullständiga steg-för-steg-guiden till linjär regression i R.

    vad är din plagiat?

    jämför ditt papper med över 60 miljarder webbsidor och 30 miljoner publikationer.,/li>

    Scribbr plagiat Checker

    tolka resultaten

    för att visa resultaten av modellen kan du använda funktionensummary():

    summary(heart.disease.lm)

    den här funktionen tar de viktigaste parametrarna från den linjära modellen och lägger dem i en tabell som ser ut så här:

    sammanfattningen skriver först ut formeln (’Call’) och sedan ut den här funktionen.modell residuals (”residuals”)., Om residualerna är ungefär centrerade runt noll och med liknande spridning på vardera sidan, som dessa gör (median 0,03 och min och max runt -2 och 2) passar modellen förmodligen antagandet om heteroscedasticitet.

    nästa är modellens regressionskoefficienter (koefficienter). Rad 1 i koefficienttabellen är märkt (avlyssning)-det här är y-avlyssningen av regressionsekvationen. Det är bra att veta den beräknade avlyssningen för att ansluta den till regressionsekvationen och förutsäga värden för den beroende variabeln:

    hjärtsjukdom = 15 + (-0.,2 * cykling) + (0.178*rökning) ± e

    de viktigaste sakerna att notera i denna utgångstabell är de två följande tabellerna – uppskattningarna för de oberoende variablerna.

    kolumnenEstimate är den uppskattade effekten, även kallad regressionskoefficienten eller R2-värdet. Uppskattningarna i tabellen berättar att för varje procentuell ökning av cykling till jobbet finns en associerad 0.2-procentig minskning av hjärtsjukdom och att för varje procentuell ökning av rökning finns en associerad.17 procent ökning av hjärtsjukdomar.,

    kolumnenStd.error visar standardfelet för uppskattningen. Detta nummer visar hur mycket variation det finns runt uppskattningarna av regressionskoefficienten.

    kolumnent value visar teststatistiken. Om inte annat anges, är den teststatistik som används vid linjär regression t-värdet från ett tvåsidigt t-test. Ju större teststatistiken är desto mindre sannolikt är det att resultaten inträffade av en slump.

    kolumnenPr( > | t | ) visar p-värdet., Detta visar hur sannolikt det beräknade t-värdet skulle ha inträffat av en slump om nollhypotesen om ingen effekt av parametern var sann.

    eftersom dessa värden är så låga (p < 0.001 i båda fallen) kan vi avvisa nollhypotesen och dra slutsatsen att både cykling till arbete och rökning både sannolikt påverkar hjärtsjukdomsfrekvensen.

    presentera resultaten

    När du rapporterar dina resultat, inkludera den uppskattade effekten (dvs. regressionskoefficienten), standardfelet för uppskattningen och p-värdet., Du bör också tolka dina nummer för att klargöra för dina läsare vad regressionskoefficienten betyder.

    I vår undersökning av 500 städer fann vi signifikanta relationer mellan frekvensen av cykling till jobbet och frekvensen av hjärtsjukdom och frekvensen av rökning och frekvensen av hjärtsjukdom (p< 0.001 för varje). Specifikt fann vi en 0.2% minskning (± 0.0014) i frekvensen av hjärtsjukdom för varje 1% ökning av cykling och en 0.178% ökning (± 0.,0035) i frekvensen av hjärtsjukdom för varje 1% ökning av rökning.

    visualisera resultaten i ett diagram

    det kan också vara till hjälp att inkludera ett diagram med dina resultat. Multipel linjär regression är något mer komplicerad än enkel linjär regression, eftersom det finns fler parametrar än vad som passar på en tvådimensionell tomt.

    det finns dock sätt att visa dina resultat som inkluderar effekterna av flera oberoende variabler på den beroende variabeln, även om endast en oberoende variabel faktiskt kan ritas på X-axeln.,

    Här har vi beräknat de förväntade värdena för den beroende variabeln (hjärtsjukdom) över hela spektrumet av observerade värden för procentandelen människor som cyklar till jobbet.

    för att inkludera effekten av rökning på den oberoende variabeln beräknade vi dessa förutsagda värden samtidigt som vi håller rökkonstanten vid lägsta, medelvärde och högsta observerade rökningstakt.

    vanliga frågor om multipel linjär regression

    Vad är en regressionsmodell?,

    en regressionsmodell är en statistisk modell som uppskattar förhållandet mellan en beroende variabel och en eller flera oberoende variabler med hjälp av en linje (eller ett plan för två eller flera oberoende variabler).

    en regressionsmodell kan användas när den beroende variabeln är kvantitativ, utom när det gäller logistisk regression, där den beroende variabeln är binär.

    Vad är multipel linjär regression?,

    multipel linjär regression är en regressionsmodell som uppskattar förhållandet mellan en kvantitativ beroende variabel och två eller flera oberoende variabler med en rak linje.

    hur beräknas felet i en linjär regressionsmodell?

    linjär regression använder oftast mean-square error (MSE) för att beräkna felet i modellen., MSE beräknas med:

    1. mäta avståndet för de observerade Y-värdena från de förutsagda y-värdena vid varje värde av x;
    2. kvadrera vart och ett av dessa avstånd;
    3. beräkna medelvärdet för var och en av de kvadrerade avstånden.

    linjär regression passar en linje till data genom att hitta regressionskoefficienten som resulterar i den minsta MSE.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *