Regresní modely se používají k popisu vztahů mezi proměnnými montáž linky na pozorovaných datech. Regrese umožňuje odhadnout, jak se závislá proměnná mění jako nezávislá proměnná.
vícenásobná lineární regrese se používá k odhadu vztahu mezi dvěma nebo více nezávislými proměnnými a jednou závislou proměnnou., Můžete použít vícenásobné lineární regrese, když chcete vědět:
- Jak silný je vztah mezi dvěma nebo více nezávislými proměnnými a jednou závislou proměnnou (např. srážek, teplot a množství hnojiva přidány ovlivnit růst plodin).
- hodnota závislé proměnné při určité hodnotě nezávislých proměnných (např. očekávaný výnos plodiny při určitých úrovních srážek, teploty a přidávání hnojiv).,
Předpoklady vícenásobné lineární regrese
Vícenásobné lineární regrese dělá všechny stejné předpoklady jako jednoduchá lineární regrese:
Homogenity rozptylu (homoskedasticita): velikost chyby v naší predikce nemění výrazně přes hodnot nezávislé proměnné.
nezávislost pozorování: pozorování v datovém souboru byla shromážděna pomocí statisticky platných metod a mezi proměnnými nejsou žádné skryté vztahy.,
Ve vícenásobné lineární regresi, je možné, že některé nezávislé proměnné jsou skutečně v korelaci s navzájem, takže je důležité zkontrolovat tyto před tím, než regresní model. Pokud jsou dvě nezávislé proměnné příliš korelovány (r2 > ~0.6), pak by měl být v regresním modelu použit pouze jeden z nich.
normálnost: data sledují normální distribuci.
Linearita: linie nejlépe vyhovující datovým bodům je přímka, spíše než křivka nebo nějaký faktor seskupení.,
Jak provést vícenásobné lineární regrese
Vícenásobné lineární regrese vzorec
vzorec pro vícenásobné lineární regrese je:
- y = předpokládaná hodnota závislé proměnné
- B0 = y-intercept (hodnota y, když všechny ostatní parametry jsou nastaveny na 0)
- B1X1= regresní koeficient (B1) první nezávislá proměnná (X1) (.k.a., ten účinek, že zvýšení hodnoty nezávislé proměnné má na předpovídané hodnoty y)
- … = udělat totéž pro nicméně mnoho nezávislých proměnných, testování
- BnXn = regresní koeficient poslední nezávislou proměnnou
- e = chyby modelu (.k.a. jak velký rozdíl je v náš odhad y)
Aby jste našli nejlepší-fit linie pro každou z nezávisle proměnných, vícenásobná lineární regrese vypočítá tři věci:
- regresní koeficienty, které vedou k co nejmenší celkové chyby modelu.
- t-statistika celkového modelu.,
- přidružená hodnota p (jak je pravděpodobné, že by K T-statistice došlo náhodou, pokud by nulová hypotéza o žádném vztahu mezi nezávislými a závislými proměnnými byla pravdivá).
poté vypočítá statistiku t a hodnotu p pro každý regresní koeficient v modelu.
vícenásobná lineární regrese v R
zatímco je možné provádět více lineárních regresí ručně, je mnohem běžněji prováděno pomocí statistického softwaru. Budeme používat R pro naše příklady, protože je zdarma, výkonný a široce dostupný., Stáhněte si ukázkový datový soubor a vyzkoušejte si to sami.
Dataset pro vícenásobnou lineární regresi (.csv)
načíst srdce.,data datový soubor do vašeho prostředí R a spusťte následující kód:
Tento kód trvá datové sady heart.data
a spočítá v tom smyslu, že nezávislé proměnné biking
smoking
mají na závislé proměnné heart disease
pomocí rovnice pro lineární model: lm()
.,
Dozvědět se více o těchto krok-za-krokem průvodce, aby lineární regrese v R.
Interpretaci výsledků
zobrazit výsledky na modelu, můžete použít summary()
funkce:
Tato funkce má nejdůležitější parametry z lineární model a staví je do tabulky, která vypadá takto:
shrnutí první vytiskne vzorec („Call“), pak model rezidua (‚Zbytky‘)., Pokud odchylky jsou zhruba ve středu kolem nuly a s podobnou šíří na obou stranách, stejně jako tyto (medián 0.03, a min a max kolem -2 a 2), pak model pravděpodobně odpovídá předpokladu, že heteroskedasticita.
další jsou regresní koeficienty modelu („koeficienty“). Řádek 1 tabulky koeficientů je označen (Intercept)-toto je y-intercept regresní rovnice. To je užitečné vědět, odhadované zachytit s cílem zapojit je do regresní rovnice a předpovídat hodnoty závislé proměnné:
nejdůležitější věcí, na vědomí, v tomto výstupní tabulky jsou další dvě tabulky – odhady pro nezávislé proměnné.
sloupecEstimate
je odhadovaný efekt, nazývaný také regresní koeficient nebo hodnota r2. Odhady v tabulce nám říkají, že pro každé jedno procento zvýšení jezdit do práce na kole je spojena 0,2 procenta, pokles onemocnění srdce, a to pro každé jedno procento zvýšení kouření je spojeno .17 procentní nárůst srdečních onemocnění.,
sloupecStd.error
zobrazuje standardní chybu odhadu. Toto číslo ukazuje, kolik variací je kolem odhadů regresního koeficientu.
sloupect value
zobrazuje statistiku testu. Není-li uvedeno jinak, statistikou testu použitou v lineární regresi je hodnota t z oboustranného t-testu. Čím větší je statistika testu, tím méně je pravděpodobné, že výsledky nastaly náhodou.
sloupecPr( > | t | )
zobrazuje hodnotu p., To ukazuje, jak pravděpodobně by vypočtená hodnota t nastala náhodou, kdyby byla pravdivá nulová hypotéza o žádném účinku parametru.
Protože tyto hodnoty jsou tak nízké (p < 0.001 v obou případech), můžeme nulovou hypotézu zamítnout a konstatovat, že jak jezdit do práce na kole a kouřit jak pravděpodobné, že vlivem výskytu srdečních onemocnění.
Prezentace výsledků
Při hlášení výsledků, uveďte odhadovaný účinek (tj. regresní koeficient), standardní chybu odhadu, a p-hodnota., Měli byste také interpretovat svá čísla, abyste čtenářům objasnili, co znamená regresní koeficient.
vizualizace výsledků v grafu
může být také užitečné zahrnout graf s výsledky. Vícenásobná lineární regrese je poněkud komplikovanější než jednoduchá lineární regrese, protože existuje více parametrů, než se vejde na dvourozměrný graf.
Nicméně, tam jsou způsoby, jak zobrazit vaše výsledky, které zahrnují účinky více nezávislých proměnných na závislé proměnné, i když pouze jedné nezávislé proměnné může skutečně být vyneseny na ose x.,
Tady máme vypočítat předpokládané hodnoty závislé proměnné (srdeční onemocnění) v celé šíři pozorované hodnoty, procento lidí jezdit do práce na kole.
zahrnout vliv kouření na nezávislé proměnné, vypočítali jsme, tyto předpokládané hodnoty kouření, zatímco drží konstantní na minimální, střední a maximální pozorovaný kouření.
Nejčastější dotazy týkající se vícenásobné lineární regrese
regresní model je statistický model, který odhaduje, že vztah mezi jednou závislou proměnnou a jednou nebo více nezávislých proměnných pomocí řádku (nebo letadlo v případě dvou nebo více nezávislých proměnných).
regresní model lze použít, pokud je závislá proměnná kvantitativní, s výjimkou logistické regrese, kde je závislá proměnná binární.
vícenásobná lineární regrese je regresní model, který odhaduje vztah mezi kvantitativní závislou proměnnou a dvěma nebo více nezávislými proměnnými pomocí přímky.
lineární regrese nejčastěji používá mean-square error (MSE) pro výpočet chyby modelu., MSE se vypočítá:
- měření vzdálenosti pozorované hodnoty y od předpokládané hodnoty y na každou hodnotu x;
- kvadratura každá z těchto vzdáleností;
- výpočet střední jednotlivých vzdáleností.
lineární regrese odpovídá přímce k datům tím, že najde regresní koeficient, který má za následek nejmenší MSE.