Regressio malleja käytetään kuvaamaan muuttujien väliset suhteet, joita sopiva rivi havaittu data. Regression avulla voit arvioida, miten riippuvainen muuttuja muuttuu riippumattoman muuttujan(itsenäisten muuttujan) muuttuessa.
useita lineaarisia regressioita käytetään kahden tai useamman riippumattoman muuttujan ja yhden riippuvaisen muuttujan välisen suhteen arvioimiseen., Voit käyttää useita lineaarinen regressio, kun haluat tietää:
- Kuinka vahva suhde on välillä kaksi tai enemmän riippumattomia muuttujia ja yksi riippuva muuttuja (esim. miten sademäärä, lämpötila ja määrä lannoitus lisäsi vaikuttaa viljelykasvien kasvua).
- arvon riippuvan muuttujan tietty arvo riippumattomia muuttujia (esim. odotettu tuotto sato tietyllä tasolla sademäärä, lämpötila, ja lannoitteiden lisäksi).,
Oletukset useita lineaarinen regressio
Useita lineaarinen regressio tekee kaikki samat oletukset kuin yksinkertainen lineaarinen regressio:
Tasalaatuisuus varianssi (homoscedasticity): koko virhe, meidän ennustus ei muutu merkittävästi eri arvot riippumattoman muuttujan.
Riippumattomuus huomautukset: huomautukset aineisto kerättiin käyttämällä tilastollisesti edustavia menetelmiä, ja ei ole piilotettuja suhteita keskuudessa muuttujia.,
useita lineaarinen regressio, on mahdollista, että joitakin riippumattomia muuttujia ovat todella korreloivat keskenään, joten on tärkeää tarkistaa nämä ennen kuin aletaan kehittää regressiomallin. Jos kaksi riippumatonta muuttujaa ovat liian korreloi (r2 > ~0.6), sitten vain yksi niistä olisi käytettävä regressiomalli.
normaalius: tieto seuraa normaalia jakautumista.
lineaarisuus: datapisteiden läpi parhaiten istuva viiva on käyrän tai jonkinlaisen ryhmittelykertoimen sijaan suora.,
Miten suorittaa useita lineaarinen regressio
Useita lineaarinen regressio kaava
kaava useita lineaarinen regressio on:
- y = ennustettu arvo riippuva muuttuja
- B0 = y-intercept (arvo y, kun kaikki muut parametrit on asetettu 0)
- B1X1= regressiokerroin (B1) ensimmäinen riippumaton muuttuja (X1) (a.k.a., vaikutus, että arvonnousuun riippumaton muuttuja on ennustettu y: n arvo)
- … = tee sama kuitenkin monet riippumattomat muuttujat olet testaus
- BnXn = regressiokerroin viime riippumaton muuttuja
- e = mallin virhe (a.k.a. kuinka paljon vaihtelua on meidän arvio y)
löytää best-fit line kunkin riippumattoman muuttujan, useita lineaarinen regressio laskee kolme asiaa:
- regressiokertoimia, jotka johtavat pienin yleinen malli virhe.
- kokonaismallin t-tilasto.,
- siihen liittyvä p-arvo (kuinka todennäköistä on, että t-statistic olisi tapahtunut sattumalta jos nollahypoteesi ei ole suhdetta riippumattomat ja riippuvat muuttujat oli totta).
sitten Se laskee t-arvo ja p-arvo kullekin regressiokerroin mallin.
Multiple linear regression in R
vaikka on mahdollista tehdä useita lineaarisia regressioita käsin, se tapahtuu paljon yleisemmin tilastollisten ohjelmistojen kautta. Aiomme käyttää R esimerkkejä, koska se on ilmainen, tehokas ja laajalti saatavilla., Lataa näyte dataset kokeilla sitä itse.
tietoaineisto usean lineaarisen regression osalta (.csv)
Lataa sydän.,tiedot datajoukon osaksi R-ympäristön ja ajaa seuraava koodi:
Tämä koodi vie data set heart.data
ja laskee siitä, että riippumattomien muuttujien biking
ja smoking
on riippuva muuttuja heart disease
käyttäen yhtälö lineaarinen malli: lm()
.,
Lue lisää seuraamalla full vaihe-by-vaihe opas lineaarinen regressio R.
tuloksia Tulkittaessa
tuloksia voidaan tarkastella mallin, voit käyttää summary()
toiminto:
Tämä toiminto tekee tärkeimmät parametrit lineaarinen malli ja laittaa ne taulukkoon, joka näyttää tältä:
yhteenveto ensimmäinen tulostaa kaavan (”Call”), niin mallin residuaalit (’Jäännösten’)., Jos residuaalit ovat keskipisteenä on suunnilleen noin nolla ja joilla on samanlainen levitä molemmin puolin, koska nämä eivät (mediaani 0.03, ja min ja max noin -2 ja 2) sitten malli varmaan sopii oletus heteroscedasticity.
Seuraavaksi ovat regressiokertoimia mallin (’Kertoimet’). Kertoimia koskevan taulukon rivi 1 on merkitty (Intercept)-tämä on regressioyhtälön y-intercept. Se on hyödyllistä tietää kohtaamiseen jotta kytke se regressioyhtälö ja ennustaa arvot riippuva muuttuja:
kaikkein tärkeitä asioita huomata tässä tuotos-taulukossa on seuraavat kaksi taulukkoa – arviot riippumattomat muuttujat.
Estimate
sarakkeessa on arvioitu vaikutus, jota kutsutaan myös regressiokerroin tai r2-arvo. Arviot taulukossa kertovat meille, että jokaista yhden prosentin kasvu pyöräily töihin on liitetty 0,2 prosentin lasku sydän sairaus, ja että jokaista yhden prosentin kasvu tupakointi on liitetty .Sydäntaudit lisääntyvät 17 prosenttia.,
Std.error
sarake näyttää standardi virhe-arvio. Luku osoittaa, kuinka paljon regressiokertoimen estimaattien ympärillä on vaihtelua.
t value
sarake näyttää testimuuttuja. Ellei toisin mainita, lineaarisessa regressiossa käytetty testitilasto on kaksipuolisen t-testin t-arvo. Mitä suurempi testitilasto on, sitä epätodennäköisempää on, että tulokset tapahtuivat sattumalta.
Pr( > | t | )
sarakkeessa näkyy p-arvo., Tämä osoittaa, kuinka todennäköisesti laskettu t-arvo olisi tapahtunut sattumalta jos nollahypoteesi ei ole vaikutusta parametri olivat totta.
Koska nämä arvot ovat niin alhaiset (p < 0.001 molemmissa tapauksissa), voimme hylätä nollahypoteesi ja todeta, että sekä pyöräily töihin ja tupakointi sekä todennäköisesti vaikuttaa hinnat sydän-ja verisuonitautien riskiä.
Esittelee tulokset
Kun raportointi tulokset, ovat arvioitu vaikutus (eli regressiokerroin), standardi virhe-estimaatti ja p-arvo., Sinun pitäisi myös tulkita numeroita tehdä selväksi lukijoille, mitä regressiokerroin tarkoittaa.
Visualisoi tuloksia kuvaajan
Se voi myös olla hyödyllistä sisällyttää kuvaajan tuloksia. Useita lineaarinen regressio on hieman monimutkaisempi kuin yksinkertainen lineaarinen regressio, koska siellä on enemmän parametreja kuin mahtuu kaksiulotteinen juoni.
Kuitenkin, on olemassa tapoja näyttää tulokset, jotka sisältävät vaikutukset useita riippumattomia muuttujia on riippuva muuttuja, vaikka vain yksi riippumaton muuttuja voi itse piirretty x-akselin.,
– Täällä meillä on laskettu ennustettu arvot riippuva muuttuja (sydänsairaus) koko alue havaittujen arvojen prosenttiosuus ihmisiä pyöräilemään töihin.
sisällyttää vaikutus tupakoinnin riippumattoman muuttujan, me lasketaan ennustetut arvot pitäen tupakointi jatkuva minimi, keskiarvo ja suurin havaittu hinnat tupakoinnin.
usein kysytyt kysymykset toistuvasta lineaarisesta regressiosta
regressio malli on tilastollinen malli, joka arvioi suhdetta yhden riippuvan muuttujan ja yhden tai useamman riippumattoman muuttujia käyttäen linja (tai koneen tapauksessa kaksi tai enemmän riippumattomia muuttujia).
regressiomallia voidaan käyttää, kun riippuvainen muuttuja on kvantitatiivinen, paitsi logistisessa regressiossa, jossa riippuvainen muuttuja on binäärinen.
Multiple linear regression on regressiomalli, joka arvioi kvantitatiivisesta riippuvaisen muuttujan ja kahden tai useamman riippumattoman muuttujan välisen suhteen suoralla viivalla.
lineaarinen regressio käyttää useimmiten mallin virheen laskemiseen keskiarvon neliövirhettä (MSE)., MSE lasketaan seuraavasti:
- mittaa etäisyys havaittujen y-arvojen ennustetut y-arvot kunkin arvon x;
- neliöimistä kunkin näistä matkoja;
- lasketaan keskiarvo kunkin potenssiin matkoja.
Lineaarinen regressio sopii rivin tiedot, löytää regressiokerroin, joka johtaa pienin MSE.