Wprowadzenie do wielokrotnej regresji liniowej

Wprowadzenie do wielokrotnej regresji liniowej

modele regresji są używane do opisu zależności między zmiennymi poprzez dopasowanie linii do obserwowanych danych. Regresja pozwala oszacować, jak zmienna zależna zmienia się wraz ze zmianą zmiennej niezależnej.

regresja liniowa wielokrotna jest używana do oszacowania zależności między dwiema lub więcej zmiennymi niezależnymi i jedną zmienną zależną., Możesz użyć wielokrotnej regresji liniowej, gdy chcesz wiedzieć:

  1. jak silny jest związek między dwiema lub więcej niezależnymi zmiennymi i jedną zależną zmienną (np. jak opady deszczu, Temperatura i ilość dodanego nawozu wpływają na wzrost plonów).
  2. wartość zmiennej zależnej przy określonej wartości zmiennych niezależnych (np. oczekiwany plon uprawy przy określonych poziomach opadów, temperatury i dodatku nawozu).,
przykład
jesteś badaczem zdrowia publicznego zainteresowanym czynnikami społecznymi wpływającymi na choroby serca. Przeglądasz 500 miast i zbierasz dane na temat odsetka osób w każdym mieście, które palą, odsetka osób w każdym mieście, które jeżdżą rowerem do pracy i odsetka osób w każdym mieście, które mają choroby serca.

ponieważ masz dwie zmienne niezależne i jedną zmienną zależną, a wszystkie Twoje zmienne są ilościowe, możesz użyć wielokrotnej regresji liniowej do analizy relacji między nimi.,

założenia wielokrotnej regresji liniowej

wielokrotna regresja liniowa sprawia, że wszystkie te same założenia co prosta regresja liniowa:

jednorodność wariancji (homoscedasticity): rozmiar błędu w naszej prognozie nie zmienia się znacząco w stosunku do wartości zmiennej niezależnej.

niezależność obserwacji: obserwacje w zbiorze danych zostały zebrane przy użyciu metod statystycznie poprawnych i nie ma ukrytych zależności między zmiennymi.,

w regresji liniowej wielokrotnej możliwe jest, że niektóre zmienne niezależne są rzeczywiście skorelowane ze sobą, dlatego ważne jest, aby je sprawdzić przed opracowaniem modelu regresji. Jeśli dwie niezależne zmienne są zbyt silnie skorelowane (r2 > ~0.6), to tylko jedna z nich powinna być używana w modelu regresji.

normalność: dane są zgodne z rozkładem normalnym.

Liniowość: linia najlepszego dopasowania przez punkty danych jest linią prostą, a nie krzywą lub jakimś czynnikiem grupującym.,

jak wykonać wielokrotną regresję liniową

formuła wielokrotnej regresji liniowej

formuła wielokrotnej regresji liniowej jest:

  • y = przewidywana wartość zmiennej zależnej
  • B0 = przechwycenie y (wartość Y, gdy wszystkie inne parametry są ustawione na 0)
  • b1x1= współczynnik regresji (B1) pierwszej zmiennej niezależnej (X1) (vel., wpływ, że zwiększenie wartości zmiennej niezależnej ma na przewidywaną wartość y)
  • … = zrób to samo dla wielu zmiennych niezależnych, które testujesz
  • BnXn = współczynnik regresji ostatniej zmiennej niezależnej
  • e = błąd modelu (a.K.a. ile zmienności jest w naszym oszacowaniu y)

aby znaleźć najlepszą linię dla każdej zmiennej niezależnej, regresja liniowa wielokrotna oblicza trzy rzeczy:

  • współczynniki regresji, które prowadzą do najmniejszego ogólnego błędu modelu.
  • t-statystyka całego modelu.,
  • skojarzona wartość p (jak prawdopodobne jest, że statystyka t miałaby miejsce przez przypadek, gdyby hipoteza zerowa nie miała związku między niezależnymi i zależnymi zmiennymi była prawdziwa).

następnie oblicza statystykę t i wartość p dla każdego współczynnika regresji w modelu.

wielokrotna regresja liniowa w R

chociaż możliwe jest ręczne wykonywanie wielokrotnej regresji liniowej, jest to znacznie częściej wykonywane za pomocą oprogramowania statystycznego. Będziemy używać R dla naszych przykładów, ponieważ jest darmowy, potężny i powszechnie dostępny., Pobierz przykładowy zestaw danych, aby wypróbować go samodzielnie.

zbiór danych dla wielokrotnej regresji liniowej (.csv)

Load the heart.,zestaw danych do środowiska R i uruchom następujący kod:

kod R dla wielokrotnej regresji liniowej
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Ten kod pobiera zestaw danych heart.data i oblicza efekt, że zmienne niezależne biking I smoking mają na zmiennej zależnej heart disease używając równania dla modelu liniowego: lm()div>.,

Dowiedz się więcej, wykonując pełny przewodnik krok po kroku do regresji liniowej w R.

jaki jest Twój wynik plagiatu?

porównaj swoją pracę z ponad 60 miliardami stron internetowych i 30 milionami publikacji.,/li>

Scribbr Plagiat Checker

interpretowanie wyników

aby wyświetlić wyniki modelu, możesz użyć summary() funkcja:

summary(heart.disease.lm)

Ta funkcja pobiera najważniejsze parametry z modelu liniowego i umieszcza je w tabeli, która wygląda następująco:

podsumowanie najpierw wypisuje formułę (’call'), a następnie pozostałości modelu (’residuals')., Jeśli pozostałości są z grubsza wyśrodkowane wokół zera i z podobnym rozłożeniem po obu stronach, jak to robią (mediana 0,03, A min i max wokół -2 i 2), to model prawdopodobnie pasuje do założenia heteroscedasticity.

następnie są współczynniki regresji modelu („współczynniki”). Wiersz 1 tabeli współczynników jest oznaczony (Intercept) – jest to y-intercept równania regresji. Warto znać szacowaną wartość przechwytu, aby włączyć ją do równania regresji i przewidzieć wartości zmiennej zależnej:

choroby serca = 15 + (-0.,2 * biking) + (0.178*smoking) ± e

najważniejsze rzeczy do odnotowania w tej tabeli wyjściowej są dwie następne tabele – szacunki dla zmiennych niezależnych.

kolumnaEstimate jest szacowanym efektem, zwanym również współczynnikiem regresji lub wartością R2. Szacunki w tabeli mówią nam, że za każdy jeden procent wzrostu jazdy na rowerze do pracy jest związany 0,2 procent spadek chorób serca, a za każdy jeden procent wzrost palenia jest związany .17-procentowy wzrost chorób serca.,

kolumnaStd.error wyświetla standardowy błąd oszacowania. Liczba ta pokazuje, ile zmienności jest wokół szacunków współczynnika regresji.

kolumna t value wyświetla statystyki testu. O ile nie określono inaczej, statystyka badania stosowana w regresji liniowej jest wartością t z dwustronnego testu T. Im większa statystyka testu, tym mniej prawdopodobne jest, że wyniki wystąpiły przez przypadek.

kolumnaPr( > | t | ) pokazuje wartość P., To pokazuje, jak prawdopodobne obliczona wartość t miałaby miejsce przez przypadek, gdyby hipoteza zerowa braku wpływu parametru były prawdziwe.

ponieważ wartości te są tak niskie (p < 0.001 W obu przypadkach), możemy odrzucić hipotezę zerową i stwierdzić, że zarówno jazda na rowerze do pracy, jak i palenie tytoniu prawdopodobnie wpływają na częstość chorób serca.

prezentowanie wyników

podczas raportowania wyników należy podać szacowany efekt (tj. współczynnik regresji), standardowy błąd oszacowania i wartość P., Powinieneś również zinterpretować swoje liczby, aby wyjaśnić czytelnikom, co oznacza współczynnik regresji.

w naszym badaniu 500 miast, znaleźliśmy istotne związki między częstością jazdy rowerem do pracy i częstością chorób serca oraz częstością palenia i częstością chorób serca (p < 0,001 dla każdego). W szczególności stwierdzono 0,2% spadek (±0,0014) częstości występowania chorób serca na każdy 1% wzrost w kolarstwie i 0,178% wzrost (±0.,0035) w częstości występowania chorób serca na każdy 1% wzrost palenia.

wizualizacja wyników na wykresie

pomocne może być również dołączenie wykresu z wynikami. Wielokrotna regresja liniowa jest nieco bardziej skomplikowana niż prosta regresja liniowa, ponieważ jest więcej parametrów niż zmieści się na dwuwymiarowym wykresie.

istnieją jednak sposoby wyświetlania wyników, które zawierają wpływ wielu zmiennych niezależnych na zmienną zależną, nawet jeśli tylko jedna zmienna niezależna może być wykreślona na osi X.,

tutaj obliczyliśmy przewidywane wartości zmiennej zależnej (choroby serca) w pełnym zakresie obserwowanych wartości dla odsetka osób jeżdżących rowerem do pracy.

aby uwzględnić wpływ palenia na zmienną niezależną, obliczyliśmy te przewidywane wartości, utrzymując stałą palenia na minimalnym, średnim i maksymalnym obserwowanym wskaźniku palenia.

Najczęściej zadawane pytania dotyczące wielokrotnej regresji liniowej

czym jest model regresji?,

model regresji jest modelem statystycznym, który szacuje zależność między jedną zmienną zależną i jedną lub więcej zmiennych niezależnych za pomocą linii (lub płaszczyzny w przypadku dwóch lub więcej zmiennych niezależnych).

model regresji może być stosowany, gdy zmienna zależna jest ilościowa, z wyjątkiem przypadku regresji logistycznej, gdzie zmienna zależna jest binarna.

Co to jest regresja liniowa wielokrotna?,

wielokrotna regresja liniowa jest modelem regresji, który szacuje zależność między zmienną zależną ilościowo a dwiema lub więcej zmiennymi niezależnymi za pomocą linii prostej.

jak obliczany jest błąd w modelu regresji liniowej?

regresja liniowa najczęściej wykorzystuje błąd średniego kwadratu (MSE) do obliczenia błędu modelu., MSE jest obliczane przez:

  1. pomiar odległości obserwowanych wartości y od przewidywanych wartości y przy każdej wartości x;
  2. wyrównanie każdej z tych odległości;
  3. obliczanie średniej z każdej z kwadratowych odległości.

regresja liniowa dopasowuje linię do danych, znajdując współczynnik regresji, który skutkuje najmniejszym MSE.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *