Analiza regresji generuje równanie opisujące zależność statystyczną między jedną lub więcej zmiennych predykcyjnych a zmienną odpowiedzi. Po użyciu oprogramowania statystycznego Minitab do dopasowania modelu regresji i zweryfikowaniu dopasowania poprzez sprawdzenie Wykresów resztkowych, będziesz chciał zinterpretować wyniki. W tym poście pokażę Ci, jak interpretować wartości p i współczynniki, które pojawiają się na wyjściu do analizy regresji liniowej.
jak interpretować wartości P w analizie regresji liniowej?,
wartość p dla każdego terminu testuje hipotezę zerową, że współczynnik jest równy zeru(brak efektu). Niska wartość p (< 0.05) wskazuje, że można odrzucić hipotezę zerową. Innymi słowy, predyktor o niskiej wartości p może być znaczącym dodatkiem do twojego modelu, ponieważ zmiany wartości predyktora są związane ze zmianami w zmiennej odpowiedzi.
odwrotnie, większa (nieistotna) wartość p sugeruje, że zmiany w predyktorze nie są związane ze zmianami w odpowiedzi.,
na poniższym wykresie widzimy, że zmienne predykcyjne południa i Północy są znaczące, ponieważ obie ich wartości p wynoszą 0,000. Jednak wartość P dla Wschodu (0,092) jest większa niż wspólny poziom alfa wynoszący 0,05, co wskazuje, że nie jest statystycznie istotny.
zazwyczaj używa się współczynników wartości p, aby określić, które terminy zachować w modelu regresji. W powyższym modelu powinniśmy rozważyć usunięcie Wschodu.
Related: f-test of overall significance
jak interpretować współczynniki regresji dla zależności liniowych?,
współczynniki regresji reprezentują średnią zmianę zmiennej odpowiedzi dla jednej jednostki zmiany zmiennej predyktora podczas utrzymywania innych predyktorów w stałej modelu. Ta statystyczna kontrola, którą zapewnia regresja, jest ważna, ponieważ izoluje rolę jednej zmiennej od wszystkich innych w modelu.
kluczem do zrozumienia współczynników jest myślenie o nich jako o zboczach i często są one nazywane współczynnikami nachylenia. Zilustruję to na poniższym wykresie linii dopasowanej, gdzie wykorzystam wzrost osoby do modelowania jej wagi., Po pierwsze, wyjście okna sesji Minitab:
dopasowany Wykres linii pokazuje graficznie te same wyniki regresji.
równanie pokazuje, że współczynnik wysokości w metrach wynosi 106,5 kilograma. Współczynnik wskazuje, że za każdy dodatkowy metr wzrostu można oczekiwać, że waga wzrośnie średnio o 106,5 kg.
Niebieska linia graficznie pokazuje te same informacje. Jeśli przesuniesz się w lewo lub w prawo wzdłuż osi x o kwotę, która oznacza zmianę wysokości o jeden metr, zamontowana linia wzrośnie lub opada o 106,5 kg., Jednak te wysokości są od dziewcząt w wieku gimnazjalnym i wahają się od 1,3 m do 1,7 m. relacja jest ważna tylko w tym zakresie danych, więc w tym przypadku nie przesunęlibyśmy się w górę lub w dół linii o pełny metr.
gdyby zamontowana linia była płaska (współczynnik nachylenia równy zero), wartość oczekiwana dla wagi nie zmieniłaby się bez względu na to, jak daleko w górę iw dół linii idziesz. Tak więc niska wartość p sugeruje, że nachylenie nie jest zerowe, co z kolei sugeruje, że zmiany w zmiennej predykcyjnej są związane ze zmianami w zmiennej odpowiedzi.,
użyłem dopasowanego wykresu liniowego, ponieważ naprawdę ożywia matematykę. Jednak dopasowane wykresy liniowe mogą wyświetlać tylko wyniki prostej regresji, która jest jedną zmienną predykcyjną i odpowiedzią. Pojęcia są prawdziwe dla wielokrotnej regresji liniowej, ale potrzebowałbym dodatkowego wymiaru przestrzennego dla każdego dodatkowego predyktora, aby wykreślić wyniki. Trudno to pokazać dzięki dzisiejszej technologii!
jak interpretować współczynniki regresji dla relacji krzywoliniowych i terminów interakcji?,
w powyższym przykładzie wysokość jest efektem liniowym; nachylenie jest stałe, co wskazuje, że efekt jest również stały wzdłuż całej linii. Jeśli jednak twój model wymaga wielomianów lub terminów interakcji, interpretacja jest nieco mniej intuicyjna.
jako odświeżacz, terminy wielomianowe modelują krzywiznę w danych, podczas gdy terminy interakcji wskazują, że wpływ jednego predyktora zależy od wartości innego predyktora.
następny przykład wykorzystuje zestaw danych, który wymaga kwadratowego (kwadratowego) terminu do modelowania krzywizny., Na poniższym wykresie widzimy, że wartości p zarówno dla terminów liniowych, jak i kwadratowych są znaczące.
Pozostałe wykresy (Nie pokazane) wskazują na dobre dopasowanie, więc możemy kontynuować interpretację. Ale jak interpretować te współczynniki? To naprawdę pomaga wykreślić go w dopasowanym wykresie linii.
możesz zobaczyć, jak zmienia się zależność między ustawieniem maszyny a zużyciem energii w zależności od miejsca uruchomienia na wyposażonej linii. Na przykład, jeśli zaczniesz od ustawienia maszyny 12 i zwiększysz ustawienie o 1, spodziewasz się zmniejszenia zużycia energii., Jeśli jednak zaczniesz od 25, wzrost o 1 powinien zwiększyć zużycie energii. A jeśli masz około 20 lat, zużycie energii nie powinno się zbytnio zmieniać.
znaczący termin wielomianowy może sprawić, że interpretacja stanie się mniej intuicyjna, ponieważ efekt zmiany predyktora zmienia się w zależności od wartości tego predyktora. Podobnie, znacząca interakcja wskazuje, że wpływ predyktora zmienia się w zależności od wartości innego predyktora.
należy zachować szczególną ostrożność podczas interpretacji modelu regresji, który zawiera te typy terminów., Nie można po prostu spojrzeć na główny efekt (termin liniowy) i zrozumieć, co się dzieje! Niestety, jeśli wykonujesz wielokrotną analizę regresji, nie będziesz w stanie użyć dopasowanego wykresu liniowego do graficznej interpretacji wyników. Tutaj wiedza z zakresu tematycznego jest niezwykle cenna!
szczególnie uważni czytelnicy mogli zauważyć, że nie powiedziałem Ci, jak interpretować stałą. Napiszę o tym w następnym poście!,
upewnij się, że:
- sprawdź pozostałe wykresy, aby zaufać wynikom
- Oceń dobroć dopasowania i R-kwadrat
Jeśli uczysz się o regresji, przeczytaj mój samouczek regresji!