úvod do vícenásobné lineární regrese

úvod do vícenásobné lineární regrese

Regresní modely se používají k popisu vztahů mezi proměnnými montáž linky na pozorovaných datech. Regrese umožňuje odhadnout, jak se závislá proměnná mění jako nezávislá proměnná.

vícenásobná lineární regrese se používá k odhadu vztahu mezi dvěma nebo více nezávislými proměnnými a jednou závislou proměnnou., Můžete použít vícenásobné lineární regrese, když chcete vědět:

  1. Jak silný je vztah mezi dvěma nebo více nezávislými proměnnými a jednou závislou proměnnou (např. srážek, teplot a množství hnojiva přidány ovlivnit růst plodin).
  2. hodnota závislé proměnné při určité hodnotě nezávislých proměnných (např. očekávaný výnos plodiny při určitých úrovních srážek, teploty a přidávání hnojiv).,
Příklad
Jsi veřejného zdraví výzkumník zájem o sociální faktory, které ovlivňují onemocnění srdce. Průzkum 500 měst a shromáždit údaje o procentech v každém městě lidé, kteří kouří, procento, v každém městě lidé, kteří na kole do práce, a procento, v každém městě lidé, kteří mají onemocnění srdce.

protože máte dvě nezávislé proměnné a jednu závislou proměnnou a všechny vaše proměnné jsou kvantitativní, můžete použít více lineární regrese k analýze vztahu mezi nimi.,

Předpoklady vícenásobné lineární regrese

Vícenásobné lineární regrese dělá všechny stejné předpoklady jako jednoduchá lineární regrese:

Homogenity rozptylu (homoskedasticita): velikost chyby v naší predikce nemění výrazně přes hodnot nezávislé proměnné.

nezávislost pozorování: pozorování v datovém souboru byla shromážděna pomocí statisticky platných metod a mezi proměnnými nejsou žádné skryté vztahy.,

Ve vícenásobné lineární regresi, je možné, že některé nezávislé proměnné jsou skutečně v korelaci s navzájem, takže je důležité zkontrolovat tyto před tím, než regresní model. Pokud jsou dvě nezávislé proměnné příliš korelovány (r2 > ~0.6), pak by měl být v regresním modelu použit pouze jeden z nich.

normálnost: data sledují normální distribuci.

Linearita: linie nejlépe vyhovující datovým bodům je přímka, spíše než křivka nebo nějaký faktor seskupení.,

Jak provést vícenásobné lineární regrese

Vícenásobné lineární regrese vzorec

vzorec pro vícenásobné lineární regrese je:

  • y = předpokládaná hodnota závislé proměnné
  • B0 = y-intercept (hodnota y, když všechny ostatní parametry jsou nastaveny na 0)
  • B1X1= regresní koeficient (B1) první nezávislá proměnná (X1) (.k.a., ten účinek, že zvýšení hodnoty nezávislé proměnné má na předpovídané hodnoty y)
  • … = udělat totéž pro nicméně mnoho nezávislých proměnných, testování
  • BnXn = regresní koeficient poslední nezávislou proměnnou
  • e = chyby modelu (.k.a. jak velký rozdíl je v náš odhad y)

Aby jste našli nejlepší-fit linie pro každou z nezávisle proměnných, vícenásobná lineární regrese vypočítá tři věci:

  • regresní koeficienty, které vedou k co nejmenší celkové chyby modelu.
  • t-statistika celkového modelu.,
  • přidružená hodnota p (jak je pravděpodobné, že by K T-statistice došlo náhodou, pokud by nulová hypotéza o žádném vztahu mezi nezávislými a závislými proměnnými byla pravdivá).

poté vypočítá statistiku t a hodnotu p pro každý regresní koeficient v modelu.

vícenásobná lineární regrese v R

zatímco je možné provádět více lineárních regresí ručně, je mnohem běžněji prováděno pomocí statistického softwaru. Budeme používat R pro naše příklady, protože je zdarma, výkonný a široce dostupný., Stáhněte si ukázkový datový soubor a vyzkoušejte si to sami.

Dataset pro vícenásobnou lineární regresi (.csv)

načíst srdce.,data datový soubor do vašeho prostředí R a spusťte následující kód:

R kód pro vícenásobné lineární regrese
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Tento kód trvá datové sady heart.data a spočítá v tom smyslu, že nezávislé proměnné biking smoking mají na závislé proměnné heart disease pomocí rovnice pro lineární model: lm().,

Dozvědět se více o těchto krok-za-krokem průvodce, aby lineární regrese v R.

Jaké je vaše plagiátorství skóre?

Porovnejte svůj papír s více než 60 miliardami webových stránek a 30 miliony publikací.,/li>

Scribbr Plagiátorství Checker

Interpretaci výsledků

zobrazit výsledky na modelu, můžete použít summary() funkce:

summary(heart.disease.lm)

Tato funkce má nejdůležitější parametry z lineární model a staví je do tabulky, která vypadá takto:

shrnutí první vytiskne vzorec („Call“), pak model rezidua (‚Zbytky‘)., Pokud odchylky jsou zhruba ve středu kolem nuly a s podobnou šíří na obou stranách, stejně jako tyto (medián 0.03, a min a max kolem -2 a 2), pak model pravděpodobně odpovídá předpokladu, že heteroskedasticita.

další jsou regresní koeficienty modelu („koeficienty“). Řádek 1 tabulky koeficientů je označen (Intercept)-toto je y-intercept regresní rovnice. To je užitečné vědět, odhadované zachytit s cílem zapojit je do regresní rovnice a předpovídat hodnoty závislé proměnné:

onemocnění srdce = 15 + (-0.,2*cykloturistika) + (0.178*kouření) ± e

nejdůležitější věcí, na vědomí, v tomto výstupní tabulky jsou další dvě tabulky – odhady pro nezávislé proměnné.

sloupecEstimate je odhadovaný efekt, nazývaný také regresní koeficient nebo hodnota r2. Odhady v tabulce nám říkají, že pro každé jedno procento zvýšení jezdit do práce na kole je spojena 0,2 procenta, pokles onemocnění srdce, a to pro každé jedno procento zvýšení kouření je spojeno .17 procentní nárůst srdečních onemocnění.,

sloupecStd.error zobrazuje standardní chybu odhadu. Toto číslo ukazuje, kolik variací je kolem odhadů regresního koeficientu.

sloupect value zobrazuje statistiku testu. Není-li uvedeno jinak, statistikou testu použitou v lineární regresi je hodnota t z oboustranného t-testu. Čím větší je statistika testu, tím méně je pravděpodobné, že výsledky nastaly náhodou.

sloupecPr( > | t | ) zobrazuje hodnotu p., To ukazuje, jak pravděpodobně by vypočtená hodnota t nastala náhodou, kdyby byla pravdivá nulová hypotéza o žádném účinku parametru.

Protože tyto hodnoty jsou tak nízké (p < 0.001 v obou případech), můžeme nulovou hypotézu zamítnout a konstatovat, že jak jezdit do práce na kole a kouřit jak pravděpodobné, že vlivem výskytu srdečních onemocnění.

Prezentace výsledků

Při hlášení výsledků, uveďte odhadovaný účinek (tj. regresní koeficient), standardní chybu odhadu, a p-hodnota., Měli byste také interpretovat svá čísla, abyste čtenářům objasnili, co znamená regresní koeficient.

V našem průzkumu z 500 měst, jsme zjistili významné vztahy mezi frekvencí jezdit do práce na kole a frekvenci srdečních onemocnění a frekvenci kouření a frekvenci srdečních onemocnění (p < 0, 001 pro každého). Konkrétně jsme zjistili pokles frekvence srdečních onemocnění o 0,2% (±0,0014) u každého 1% nárůstu cykloturistiky a zvýšení o 0,178% (±0.,0035) ve frekvenci srdečních onemocnění pro každé 1% zvýšení kouření.

vizualizace výsledků v grafu

může být také užitečné zahrnout graf s výsledky. Vícenásobná lineární regrese je poněkud komplikovanější než jednoduchá lineární regrese, protože existuje více parametrů, než se vejde na dvourozměrný graf.

Nicméně, tam jsou způsoby, jak zobrazit vaše výsledky, které zahrnují účinky více nezávislých proměnných na závislé proměnné, i když pouze jedné nezávislé proměnné může skutečně být vyneseny na ose x.,

Tady máme vypočítat předpokládané hodnoty závislé proměnné (srdeční onemocnění) v celé šíři pozorované hodnoty, procento lidí jezdit do práce na kole.

zahrnout vliv kouření na nezávislé proměnné, vypočítali jsme, tyto předpokládané hodnoty kouření, zatímco drží konstantní na minimální, střední a maximální pozorovaný kouření.

Nejčastější dotazy týkající se vícenásobné lineární regrese

co je to regresní model?,

regresní model je statistický model, který odhaduje, že vztah mezi jednou závislou proměnnou a jednou nebo více nezávislých proměnných pomocí řádku (nebo letadlo v případě dvou nebo více nezávislých proměnných).

regresní model lze použít, pokud je závislá proměnná kvantitativní, s výjimkou logistické regrese, kde je závislá proměnná binární.

co je vícenásobná lineární regrese?,

vícenásobná lineární regrese je regresní model, který odhaduje vztah mezi kvantitativní závislou proměnnou a dvěma nebo více nezávislými proměnnými pomocí přímky.

jak se chyba vypočítá v lineárním regresním modelu?

lineární regrese nejčastěji používá mean-square error (MSE) pro výpočet chyby modelu., MSE se vypočítá:

  1. měření vzdálenosti pozorované hodnoty y od předpokládané hodnoty y na každou hodnotu x;
  2. kvadratura každá z těchto vzdáleností;
  3. výpočet střední jednotlivých vzdáleností.

lineární regrese odpovídá přímce k datům tím, že najde regresní koeficient, který má za následek nejmenší MSE.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *