Többszörös lineáris regresszió / a gyors és egyszerű útmutató

regressziós modellek a változók közötti kapcsolatok leírására szolgálnak egy sornak a megfigyelt adatokhoz való illesztésével. A regresszió lehetővé teszi annak becslését, hogy egy függő változó hogyan változik független változóként.

a két vagy több független változó és egy függő változó közötti kapcsolat becslésére többszörös lineáris regressziót alkalmaznak., Több lineáris regressziót is használhat, ha tudni szeretné:

mennyire erős a kapcsolat két vagy több független változó és egy függő változó között (például hogyan befolyásolja a csapadék, a hőmérséklet és a hozzáadott műtrágya mennyisége a növény növekedését).
a függő változó értéke a független változók egy bizonyos értékénél (pl. egy növény várható hozama bizonyos mennyiségű csapadék, hőmérséklet és műtrágya hozzáadásával).,

példa

Ön közegészségügyi kutató, akit a szívbetegségeket befolyásoló társadalmi tényezők érdekelnek. Ön 500 várost vizsgál meg, és adatokat gyűjt az egyes városokban dohányzók százalékos arányáról, az egyes városokban dolgozó emberek százalékos arányáról, valamint a szívbetegségben szenvedők százalékos arányáról.

mivel két független változója és egy függő változója van, és minden változója kvantitatív, több lineáris regresszió segítségével elemezheti a köztük lévő kapcsolatot.,

többszörös lineáris regresszió feltételezései

többszörös lineáris regresszió ugyanazokat a feltételezéseket teszi, mint az egyszerű lineáris regresszió:

a variancia homogenitása (homoscedasticity): a hiba nagysága előrejelzésünkben nem változik jelentősen a független változó értékein.

a megfigyelések függetlensége: az adathalmaz megfigyeléseit statisztikailag érvényes módszerekkel gyűjtöttük össze, a változók között nincsenek rejtett összefüggések.,

többszörös lineáris regresszióban lehetséges, hogy egyes független változók ténylegesen korrelálnak egymással, ezért fontos ezeket ellenőrizni a regressziós modell kidolgozása előtt. Ha két független változó túlságosan korrelál (r2 > ~0.6), akkor csak az egyiket kell használni a regressziós modellben.

normalitás: az adatok normál eloszlást követnek.

linearitás: az adatpontokon keresztül legjobban illeszkedő vonal egyenes vonal, nem pedig görbe vagy valamilyen csoportosítási tényező.,

, Hogyan kell elvégezni egy többszörös lineáris regressziós

Többszörös lineáris regressziós formula

A képlet a többszörös lineáris regresszió:

y = a becsült érték a függő változó
B0 = az y-tengellyel (értéke y, ha minden más paraméter 0-ra van állítva)
B1X1= a regressziós együttható (B1), az első független változó (X1) (egy.k.egy., a hatása, hogy növeli az értéket, a független változó a becsült y érték)
… = ugyanezt azonban sok független változók a tesztet
bnxn lesz = a regressziós együttható az utolsó független változó
e = modell hiba (egy.k.egy. mennyi változás van a becsült y)

ahhoz, Hogy megtalálja a legjobb-fit vonal minden egyes független változó, többszörös lineáris regressziós számítja három dolgot:

A regressziós együtthatók, melyek a legkisebb általános modell hiba.
a teljes modell t-statisztikája.,
a kapcsolódó p-érték (mennyire valószínű, hogy a T-statisztika véletlenül történt volna, ha a független és függő változók közötti kapcsolat nélküli null hipotézis igaz).

ezután kiszámítja a t-statisztikát és a P-értéket a modell minden regressziós együtthatójára.

többszörös lineáris regresszió R

bár lehetséges, hogy nem több lineáris regresszió kézzel, ez sokkal gyakrabban történik keresztül statisztikai szoftver. Mi fog használni r a példákat, mert ingyenes, erős, széles körben elérhető., Töltse le a minta adatkészletet, hogy kipróbálhassa magát.

adatkészlet többszörös lineáris regresszióhoz (.csv)

töltse be a szívet.,adatok adatkészlet a R környezetet, majd futtassa a következő kódot:

R kód többszörös lineáris regressziós

heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Ez a kód kerül az adathalmaz heart.data, majd kiszámítja a hatása, hogy a független változók biking vagy smoking a függő változó heart disease egyenlet a lineáris modell: lm().,

Tudjon meg többet az R.

mi a plágium pontszáma?

hasonlítsa össze a papírt több mint 60 milliárd weboldallal és 30 millió publikációval.,/li>

Scribbr Plágium Ellenőrző

Értelmezése az eredmények

megtekintése az eredmények a modell, akkor használja a summary() funkció:

summary(heart.disease.lm)

Ez a funkció kerül a legfontosabb paraméterek a lineáris modell teszi őket egy táblázat, ami így néz ki:

Az összefoglaló első kiírja a képlet (“Call”), akkor a modell maradványok (‘Lefolyása’)., Ha a maradványok nagyjából nulla körül helyezkednek el, és mindkét oldalon hasonló elterjedésűek ,mint ezek (medián 0,03, min és Max körül -2 és 2), akkor a modell valószínűleg megfelel a heteroszkedaszticitás feltételezésének.

ezután a modell regressziós együtthatói (“együtthatók”). Az együtthatók táblázatának 1. sora fel van tüntetve – Intercept) – ez a regressziós egyenlet y-elfogása. Hasznos tudni, hogy a becsült intercept annak érdekében, hogy csatlakoztassa a regressziós egyenlet, és megjósolni értékek a függő változó:

szívbetegség = 15 + (-0.,2 * kerékpározás) + (0.178*dohányzás) ± e

a legfontosabb dolog, amit ebben a kimeneti táblázatban meg kell jegyezni, a következő két táblázat – a független változók becslései.

a Estimate oszlop a becsült hatás, más néven regressziós együttható vagy r2 érték. A táblázatban szereplő becslések azt mutatják, hogy a kerékpározás minden egy százalékos növekedése esetén a szívbetegség 0, 2% – kal csökken, és a dohányzás minden egy százalékos növekedése összefügg .A szívbetegség 17 százalékos növekedése.,

aStd.error oszlop megjeleníti a becslés standard hibáját. Ez a szám azt mutatja, hogy mennyi eltérés van a regressziós együttható becslései körül.

at value oszlop megjeleníti a tesztstatisztikát. Eltérő rendelkezés hiányában a lineáris regresszióban alkalmazott vizsgálati statisztika a kétoldalas t-teszt t-értéke. Minél nagyobb a tesztstatisztika, annál kevésbé valószínű, hogy az eredmények véletlenül történtek.

a Pr( > | t | ) oszlop mutatja A p-értéket., Ez azt mutatja, hogy a kiszámított t-érték valószínűleg véletlenül történt volna, ha a paraméter hatástalanságának null hipotézise igaz lenne.

mivel ezek az értékek olyan alacsonyak (p < 0.001 mindkét esetben), elutasíthatjuk a null hipotézist, és arra a következtetésre juthatunk, hogy mind a kerékpározás a munka, mind a dohányzás valószínűleg befolyásolja a szívbetegség arányát.

az eredmények bemutatása

Az eredmények jelentésekor tartalmazza a becsült hatást (azaz a regressziós együtthatót), a becslés standard hibáját és a p-értéket., A számokat is értelmeznie kell, hogy világossá tegye olvasóinak, hogy mit jelent a regressziós együttható.

500 városban végzett felmérésünkben jelentős összefüggéseket találtunk a kerékpározás gyakorisága és a szívbetegségek gyakorisága, valamint a dohányzás gyakorisága és a szívbetegségek gyakorisága között (p < 0.001). Konkrétan 0,2% – os csökkenést (±0,0014) találtunk a szívbetegség gyakoriságában a kerékpározás minden 1% – os növekedése esetén, 0,178% – os növekedést (± 0.,0035) a szívbetegségek gyakoriságában a dohányzás minden 1% – os növekedése esetén.

az eredmények megjelenítése egy grafikonon

hasznos lehet egy grafikon hozzáadása az eredményekhez. A többszörös lineáris regresszió valamivel bonyolultabb, mint az egyszerű lineáris regresszió, mivel több paraméter van, mint egy kétdimenziós telken.

azonban vannak olyan módok Az eredmények megjelenítésére, amelyek több független változó hatását tartalmazzák a függő változóra, annak ellenére, hogy csak egy független változó ábrázolható az x tengelyen.,

itt kiszámítottuk a függő változó (szívbetegség) előre jelzett értékeit a megfigyelt értékek teljes tartományában a munkába kerékpározó emberek százalékában.

tartalmazza a hatás, a dohányzás, a független változó, úgy számoltuk, hogy ezek a becsült értékeket, miközben a dohányzás, állandó a minimális, illetve maximális megfigyelt árak a dohányzás.

Gyakran Ismételt Kérdések a többszörös lineáris regresszióval kapcsolatban

mi a regressziós modell?,

a regressziós modell olyan statisztikai modell, amely egy függő változó és egy vagy több független változó kapcsolatát egy sor (vagy két vagy több független változó esetében egy sík) segítségével becsüli meg.

regressziós modell akkor használható, ha a függő változó kvantitatív, kivéve a logisztikai regressziót, ahol a függő változó bináris.

mi a többszörös lineáris regresszió?,

a többszörös lineáris regresszió egy regressziós modell, amely egy kvantitatív függő változó és két vagy több független változó közötti kapcsolatot egyenes vonal segítségével becsüli meg.

hogyan számítják ki a hibát egy lineáris regressziós modellben?

a lineáris regresszió leggyakrabban Közép-négyzet hibát (MSE) használ a modell hibájának kiszámításához., MSE számítja ki:

mérési távolság a megfigyelt y-értékek a becsült y-értékek az egyes értéke x;
négyszögesítése egyes ezeket a távolságokat;
kiszámítása jelenti, minden négyzet távolságok.

lineáris regresszió illeszkedik egy sort az adatokat megtalálni a regressziós együttható, ami a legkisebb MSE.

a többszörös lineáris regresszió bevezetése