johdanto useita lineaarinen regressio

johdanto useita lineaarinen regressio

Regressio malleja käytetään kuvaamaan muuttujien väliset suhteet, joita sopiva rivi havaittu data. Regression avulla voit arvioida, miten riippuvainen muuttuja muuttuu riippumattoman muuttujan(itsenäisten muuttujan) muuttuessa.

useita lineaarisia regressioita käytetään kahden tai useamman riippumattoman muuttujan ja yhden riippuvaisen muuttujan välisen suhteen arvioimiseen., Voit käyttää useita lineaarinen regressio, kun haluat tietää:

  1. Kuinka vahva suhde on välillä kaksi tai enemmän riippumattomia muuttujia ja yksi riippuva muuttuja (esim. miten sademäärä, lämpötila ja määrä lannoitus lisäsi vaikuttaa viljelykasvien kasvua).
  2. arvon riippuvan muuttujan tietty arvo riippumattomia muuttujia (esim. odotettu tuotto sato tietyllä tasolla sademäärä, lämpötila, ja lannoitteiden lisäksi).,
Esimerkki
Olet kansanterveyden tutkija kiinnostunut yhteiskunnallisista tekijöistä, jotka vaikuttavat sydämen sairaus. Tutkimus 500 kaupungeissa ja kerätä tietoja ihmisten prosenttiosuus kussakin kaupungissa, jotka tupakoivat, osa ihmisistä kussakin kaupungissa, joka pyörä töihin, ja osa ihmisistä kussakin kaupungissa, jotka ovat sydämen sairaus.

Koska sinulla on kaksi riippumatonta muuttujaa ja yksi riippuva muuttuja, ja kaikki muuttujat ovat kvantitatiivisia, voit käyttää useita lineaarinen regressio analysoida niiden välinen suhde.,

Oletukset useita lineaarinen regressio

Useita lineaarinen regressio tekee kaikki samat oletukset kuin yksinkertainen lineaarinen regressio:

Tasalaatuisuus varianssi (homoscedasticity): koko virhe, meidän ennustus ei muutu merkittävästi eri arvot riippumattoman muuttujan.

Riippumattomuus huomautukset: huomautukset aineisto kerättiin käyttämällä tilastollisesti edustavia menetelmiä, ja ei ole piilotettuja suhteita keskuudessa muuttujia.,

useita lineaarinen regressio, on mahdollista, että joitakin riippumattomia muuttujia ovat todella korreloivat keskenään, joten on tärkeää tarkistaa nämä ennen kuin aletaan kehittää regressiomallin. Jos kaksi riippumatonta muuttujaa ovat liian korreloi (r2 > ~0.6), sitten vain yksi niistä olisi käytettävä regressiomalli.

normaalius: tieto seuraa normaalia jakautumista.

lineaarisuus: datapisteiden läpi parhaiten istuva viiva on käyrän tai jonkinlaisen ryhmittelykertoimen sijaan suora.,

Miten suorittaa useita lineaarinen regressio

Useita lineaarinen regressio kaava

kaava useita lineaarinen regressio on:

  • y = ennustettu arvo riippuva muuttuja
  • B0 = y-intercept (arvo y, kun kaikki muut parametrit on asetettu 0)
  • B1X1= regressiokerroin (B1) ensimmäinen riippumaton muuttuja (X1) (a.k.a., vaikutus, että arvonnousuun riippumaton muuttuja on ennustettu y: n arvo)
  • … = tee sama kuitenkin monet riippumattomat muuttujat olet testaus
  • BnXn = regressiokerroin viime riippumaton muuttuja
  • e = mallin virhe (a.k.a. kuinka paljon vaihtelua on meidän arvio y)

löytää best-fit line kunkin riippumattoman muuttujan, useita lineaarinen regressio laskee kolme asiaa:

  • regressiokertoimia, jotka johtavat pienin yleinen malli virhe.
  • kokonaismallin t-tilasto.,
  • siihen liittyvä p-arvo (kuinka todennäköistä on, että t-statistic olisi tapahtunut sattumalta jos nollahypoteesi ei ole suhdetta riippumattomat ja riippuvat muuttujat oli totta).

sitten Se laskee t-arvo ja p-arvo kullekin regressiokerroin mallin.

Multiple linear regression in R

vaikka on mahdollista tehdä useita lineaarisia regressioita käsin, se tapahtuu paljon yleisemmin tilastollisten ohjelmistojen kautta. Aiomme käyttää R esimerkkejä, koska se on ilmainen, tehokas ja laajalti saatavilla., Lataa näyte dataset kokeilla sitä itse.

tietoaineisto usean lineaarisen regression osalta (.csv)

Lataa sydän.,tiedot datajoukon osaksi R-ympäristön ja ajaa seuraava koodi:

R koodi useita lineaarinen regressio
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Tämä koodi vie data set heart.data ja laskee siitä, että riippumattomien muuttujien biking ja smoking on riippuva muuttuja heart disease käyttäen yhtälö lineaarinen malli: lm().,

Lue lisää seuraamalla full vaihe-by-vaihe opas lineaarinen regressio R.

Mikä on plagiointia pisteet?

vertaa lehteäsi yli 60 miljardiin verkkosivuun ja 30 miljoonaan julkaisuun.,/li>

Scribbr Plagiointi Checker

tuloksia Tulkittaessa

tuloksia voidaan tarkastella mallin, voit käyttää summary() toiminto:

summary(heart.disease.lm)

Tämä toiminto tekee tärkeimmät parametrit lineaarinen malli ja laittaa ne taulukkoon, joka näyttää tältä:

yhteenveto ensimmäinen tulostaa kaavan (”Call”), niin mallin residuaalit (’Jäännösten’)., Jos residuaalit ovat keskipisteenä on suunnilleen noin nolla ja joilla on samanlainen levitä molemmin puolin, koska nämä eivät (mediaani 0.03, ja min ja max noin -2 ja 2) sitten malli varmaan sopii oletus heteroscedasticity.

Seuraavaksi ovat regressiokertoimia mallin (’Kertoimet’). Kertoimia koskevan taulukon rivi 1 on merkitty (Intercept)-tämä on regressioyhtälön y-intercept. Se on hyödyllistä tietää kohtaamiseen jotta kytke se regressioyhtälö ja ennustaa arvot riippuva muuttuja:

sydänsairaus = 15 + (-0.,2*pyöräily) + (0.178*tupakointi) ± e

kaikkein tärkeitä asioita huomata tässä tuotos-taulukossa on seuraavat kaksi taulukkoa – arviot riippumattomat muuttujat.

Estimate sarakkeessa on arvioitu vaikutus, jota kutsutaan myös regressiokerroin tai r2-arvo. Arviot taulukossa kertovat meille, että jokaista yhden prosentin kasvu pyöräily töihin on liitetty 0,2 prosentin lasku sydän sairaus, ja että jokaista yhden prosentin kasvu tupakointi on liitetty .Sydäntaudit lisääntyvät 17 prosenttia.,

Std.error sarake näyttää standardi virhe-arvio. Luku osoittaa, kuinka paljon regressiokertoimen estimaattien ympärillä on vaihtelua.

t value sarake näyttää testimuuttuja. Ellei toisin mainita, lineaarisessa regressiossa käytetty testitilasto on kaksipuolisen t-testin t-arvo. Mitä suurempi testitilasto on, sitä epätodennäköisempää on, että tulokset tapahtuivat sattumalta.

Pr( > | t | ) sarakkeessa näkyy p-arvo., Tämä osoittaa, kuinka todennäköisesti laskettu t-arvo olisi tapahtunut sattumalta jos nollahypoteesi ei ole vaikutusta parametri olivat totta.

Koska nämä arvot ovat niin alhaiset (p < 0.001 molemmissa tapauksissa), voimme hylätä nollahypoteesi ja todeta, että sekä pyöräily töihin ja tupakointi sekä todennäköisesti vaikuttaa hinnat sydän-ja verisuonitautien riskiä.

Esittelee tulokset

Kun raportointi tulokset, ovat arvioitu vaikutus (eli regressiokerroin), standardi virhe-estimaatti ja p-arvo., Sinun pitäisi myös tulkita numeroita tehdä selväksi lukijoille, mitä regressiokerroin tarkoittaa.

kyselyymme 500 kaupungeissa, löysimme merkittäviä suhteita taajuus pyöräily töihin ja taajuus sydän-ja verisuonitautien riskiä ja taajuus tupakoinnin ja taajuus sydänsairaus (p < 0.001 kullekin). Erityisesti huomasimme, 0,2%: n lasku (± 0.0014) taajuus sydänsairaus jokaista 1 prosentin nousu, pyöräily, ja 0.178% lisäys (± 0.,0035) sydänsairauksien esiintymistiheydessä joka 1%: n lisäys tupakoinnissa.

Visualisoi tuloksia kuvaajan

Se voi myös olla hyödyllistä sisällyttää kuvaajan tuloksia. Useita lineaarinen regressio on hieman monimutkaisempi kuin yksinkertainen lineaarinen regressio, koska siellä on enemmän parametreja kuin mahtuu kaksiulotteinen juoni.

Kuitenkin, on olemassa tapoja näyttää tulokset, jotka sisältävät vaikutukset useita riippumattomia muuttujia on riippuva muuttuja, vaikka vain yksi riippumaton muuttuja voi itse piirretty x-akselin.,

– Täällä meillä on laskettu ennustettu arvot riippuva muuttuja (sydänsairaus) koko alue havaittujen arvojen prosenttiosuus ihmisiä pyöräilemään töihin.

sisällyttää vaikutus tupakoinnin riippumattoman muuttujan, me lasketaan ennustetut arvot pitäen tupakointi jatkuva minimi, keskiarvo ja suurin havaittu hinnat tupakoinnin.

usein kysytyt kysymykset toistuvasta lineaarisesta regressiosta

mikä on regressiomalli?,

regressio malli on tilastollinen malli, joka arvioi suhdetta yhden riippuvan muuttujan ja yhden tai useamman riippumattoman muuttujia käyttäen linja (tai koneen tapauksessa kaksi tai enemmän riippumattomia muuttujia).

regressiomallia voidaan käyttää, kun riippuvainen muuttuja on kvantitatiivinen, paitsi logistisessa regressiossa, jossa riippuvainen muuttuja on binäärinen.

Mikä on useita lineaarinen regressio?,

Multiple linear regression on regressiomalli, joka arvioi kvantitatiivisesta riippuvaisen muuttujan ja kahden tai useamman riippumattoman muuttujan välisen suhteen suoralla viivalla.

miten virhe lasketaan lineaarisessa regressiomallissa?

lineaarinen regressio käyttää useimmiten mallin virheen laskemiseen keskiarvon neliövirhettä (MSE)., MSE lasketaan seuraavasti:

  1. mittaa etäisyys havaittujen y-arvojen ennustetut y-arvot kunkin arvon x;
  2. neliöimistä kunkin näistä matkoja;
  3. lasketaan keskiarvo kunkin potenssiin matkoja.

Lineaarinen regressio sopii rivin tiedot, löytää regressiokerroin, joka johtaa pienin MSE.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *