regressziós modellek a változók közötti kapcsolatok leírására szolgálnak egy sornak a megfigyelt adatokhoz való illesztésével. A regresszió lehetővé teszi annak becslését, hogy egy függő változó hogyan változik független változóként.
a két vagy több független változó és egy függő változó közötti kapcsolat becslésére többszörös lineáris regressziót alkalmaznak., Több lineáris regressziót is használhat, ha tudni szeretné:
- mennyire erős a kapcsolat két vagy több független változó és egy függő változó között (például hogyan befolyásolja a csapadék, a hőmérséklet és a hozzáadott műtrágya mennyisége a növény növekedését).
- a függő változó értéke a független változók egy bizonyos értékénél (pl. egy növény várható hozama bizonyos mennyiségű csapadék, hőmérséklet és műtrágya hozzáadásával).,
többszörös lineáris regresszió feltételezései
többszörös lineáris regresszió ugyanazokat a feltételezéseket teszi, mint az egyszerű lineáris regresszió:
a variancia homogenitása (homoscedasticity): a hiba nagysága előrejelzésünkben nem változik jelentősen a független változó értékein.
a megfigyelések függetlensége: az adathalmaz megfigyeléseit statisztikailag érvényes módszerekkel gyűjtöttük össze, a változók között nincsenek rejtett összefüggések.,
többszörös lineáris regresszióban lehetséges, hogy egyes független változók ténylegesen korrelálnak egymással, ezért fontos ezeket ellenőrizni a regressziós modell kidolgozása előtt. Ha két független változó túlságosan korrelál (r2 > ~0.6), akkor csak az egyiket kell használni a regressziós modellben.
normalitás: az adatok normál eloszlást követnek.
linearitás: az adatpontokon keresztül legjobban illeszkedő vonal egyenes vonal, nem pedig görbe vagy valamilyen csoportosítási tényező.,
, Hogyan kell elvégezni egy többszörös lineáris regressziós
Többszörös lineáris regressziós formula
A képlet a többszörös lineáris regresszió:
- y = a becsült érték a függő változó
- B0 = az y-tengellyel (értéke y, ha minden más paraméter 0-ra van állítva)
- B1X1= a regressziós együttható (B1), az első független változó (X1) (egy.k.egy., a hatása, hogy növeli az értéket, a független változó a becsült y érték)
- … = ugyanezt azonban sok független változók a tesztet
- bnxn lesz = a regressziós együttható az utolsó független változó
- e = modell hiba (egy.k.egy. mennyi változás van a becsült y)
ahhoz, Hogy megtalálja a legjobb-fit vonal minden egyes független változó, többszörös lineáris regressziós számítja három dolgot:
- A regressziós együtthatók, melyek a legkisebb általános modell hiba.
- a teljes modell t-statisztikája.,
- a kapcsolódó p-érték (mennyire valószínű, hogy a T-statisztika véletlenül történt volna, ha a független és függő változók közötti kapcsolat nélküli null hipotézis igaz).
ezután kiszámítja a t-statisztikát és a P-értéket a modell minden regressziós együtthatójára.
többszörös lineáris regresszió R
bár lehetséges, hogy nem több lineáris regresszió kézzel, ez sokkal gyakrabban történik keresztül statisztikai szoftver. Mi fog használni r a példákat, mert ingyenes, erős, széles körben elérhető., Töltse le a minta adatkészletet, hogy kipróbálhassa magát.
adatkészlet többszörös lineáris regresszióhoz (.csv)
töltse be a szívet.,adatok adatkészlet a R környezetet, majd futtassa a következő kódot:
Ez a kód kerül az adathalmaz heart.data
, majd kiszámítja a hatása, hogy a független változók biking
vagy smoking
a függő változó heart disease
egyenlet a lineáris modell: lm()
.,
Tudjon meg többet az R.
Értelmezése az eredmények
megtekintése az eredmények a modell, akkor használja a summary()
funkció:
Ez a funkció kerül a legfontosabb paraméterek a lineáris modell teszi őket egy táblázat, ami így néz ki:
Az összefoglaló első kiírja a képlet (“Call”), akkor a modell maradványok (‘Lefolyása’)., Ha a maradványok nagyjából nulla körül helyezkednek el, és mindkét oldalon hasonló elterjedésűek ,mint ezek (medián 0,03, min és Max körül -2 és 2), akkor a modell valószínűleg megfelel a heteroszkedaszticitás feltételezésének.
ezután a modell regressziós együtthatói (“együtthatók”). Az együtthatók táblázatának 1. sora fel van tüntetve – Intercept) – ez a regressziós egyenlet y-elfogása. Hasznos tudni, hogy a becsült intercept annak érdekében, hogy csatlakoztassa a regressziós egyenlet, és megjósolni értékek a függő változó:
a legfontosabb dolog, amit ebben a kimeneti táblázatban meg kell jegyezni, a következő két táblázat – a független változók becslései.
a Estimate
oszlop a becsült hatás, más néven regressziós együttható vagy r2 érték. A táblázatban szereplő becslések azt mutatják, hogy a kerékpározás minden egy százalékos növekedése esetén a szívbetegség 0, 2% – kal csökken, és a dohányzás minden egy százalékos növekedése összefügg .A szívbetegség 17 százalékos növekedése.,
aStd.error
oszlop megjeleníti a becslés standard hibáját. Ez a szám azt mutatja, hogy mennyi eltérés van a regressziós együttható becslései körül.
at value
oszlop megjeleníti a tesztstatisztikát. Eltérő rendelkezés hiányában a lineáris regresszióban alkalmazott vizsgálati statisztika a kétoldalas t-teszt t-értéke. Minél nagyobb a tesztstatisztika, annál kevésbé valószínű, hogy az eredmények véletlenül történtek.
a Pr( > | t | )
oszlop mutatja A p-értéket., Ez azt mutatja, hogy a kiszámított t-érték valószínűleg véletlenül történt volna, ha a paraméter hatástalanságának null hipotézise igaz lenne.
mivel ezek az értékek olyan alacsonyak (p < 0.001 mindkét esetben), elutasíthatjuk a null hipotézist, és arra a következtetésre juthatunk, hogy mind a kerékpározás a munka, mind a dohányzás valószínűleg befolyásolja a szívbetegség arányát.
az eredmények bemutatása
Az eredmények jelentésekor tartalmazza a becsült hatást (azaz a regressziós együtthatót), a becslés standard hibáját és a p-értéket., A számokat is értelmeznie kell, hogy világossá tegye olvasóinak, hogy mit jelent a regressziós együttható.
az eredmények megjelenítése egy grafikonon
hasznos lehet egy grafikon hozzáadása az eredményekhez. A többszörös lineáris regresszió valamivel bonyolultabb, mint az egyszerű lineáris regresszió, mivel több paraméter van, mint egy kétdimenziós telken.
azonban vannak olyan módok Az eredmények megjelenítésére, amelyek több független változó hatását tartalmazzák a függő változóra, annak ellenére, hogy csak egy független változó ábrázolható az x tengelyen.,
itt kiszámítottuk a függő változó (szívbetegség) előre jelzett értékeit a megfigyelt értékek teljes tartományában a munkába kerékpározó emberek százalékában.
tartalmazza a hatás, a dohányzás, a független változó, úgy számoltuk, hogy ezek a becsült értékeket, miközben a dohányzás, állandó a minimális, illetve maximális megfigyelt árak a dohányzás.
Gyakran Ismételt Kérdések a többszörös lineáris regresszióval kapcsolatban
a regressziós modell olyan statisztikai modell, amely egy függő változó és egy vagy több független változó kapcsolatát egy sor (vagy két vagy több független változó esetében egy sík) segítségével becsüli meg.
regressziós modell akkor használható, ha a függő változó kvantitatív, kivéve a logisztikai regressziót, ahol a függő változó bináris.
a többszörös lineáris regresszió egy regressziós modell, amely egy kvantitatív függő változó és két vagy több független változó közötti kapcsolatot egyenes vonal segítségével becsüli meg.
a lineáris regresszió leggyakrabban Közép-négyzet hibát (MSE) használ a modell hibájának kiszámításához., MSE számítja ki:
- mérési távolság a megfigyelt y-értékek a becsült y-értékek az egyes értéke x;
- négyszögesítése egyes ezeket a távolságokat;
- kiszámítása jelenti, minden négyzet távolságok.
lineáris regresszió illeszkedik egy sort az adatokat megtalálni a regressziós együttható, ami a legkisebb MSE.