Eine Einführung in multiple lineare Regression

Eine Einführung in multiple lineare Regression

Regressionsmodelle werden verwendet, um Beziehungen zwischen Variablen zu beschreiben, indem eine Linie an die beobachteten Daten angepasst wird. Mit der Regression können Sie abschätzen, wie sich eine abhängige Variable ändert, wenn sich die unabhängigen Variablen ändern.

Die multiple lineare Regression wird verwendet, um die Beziehung zwischen zwei oder mehr unabhängigen Variablen und einer abhängigen Variablen zu schätzen., Sie können mehrere lineare Regressionen verwenden, wenn Sie wissen möchten:

  1. Wie stark die Beziehung zwischen zwei oder mehr unabhängigen Variablen und einer abhängigen Variablen ist (z. B. wie Niederschlag, Temperatur und Menge des hinzugefügten Düngers das Pflanzenwachstum beeinflussen).
  2. Der Wert der abhängigen Variablen bei einem bestimmten Wert der unabhängigen Variablen (z. B. der erwartete Ertrag einer Kulturpflanze bei bestimmten Niederschlägen, Temperaturen und Düngemittelzusatz).,
Beispiel
Sie sind ein Gesundheitsforscher, der sich für soziale Faktoren interessiert, die Herzerkrankungen beeinflussen. Sie befragen 500 Städte und sammeln Daten über den Prozentsatz der Menschen in jeder Stadt, die rauchen, den Prozentsatz der Menschen in jeder Stadt, die mit dem Fahrrad zur Arbeit fahren, und den Prozentsatz der Menschen in jeder Stadt, die an Herzerkrankungen leiden.

Da Sie zwei unabhängige Variablen und eine abhängige Variable haben und alle Ihre Variablen quantitativ sind, können Sie die Beziehung zwischen ihnen mithilfe mehrerer linearer Regression analysieren.,

Annahmen der multiplen linearen Regression

Multiple lineare Regression macht alle Annahmen wie einfache lineare Regression:

Homogenität der Varianz (Homoskedastizität): Die Größe des Fehlers in unserer Vorhersage ändert sich nicht signifikant über die Werte der unabhängigen Variablen hinweg.

Unabhängigkeit der Beobachtungen: Die Beobachtungen im Datensatz wurden mit statistisch gültigen Methoden gesammelt, und es gibt keine versteckten Beziehungen zwischen Variablen.,

In der multiplen linearen regression ist es möglich, dass einige der unabhängigen Variablen sind korreliert mit einem anderen, so ist es wichtig, diese zu überprüfen, bevor die Entwicklung des Regressionsmodells. Wenn zwei unabhängige Variablen zu stark korreliert sind (r2 > ~0.6), sollte nur eine davon im Regressionsmodell verwendet werden.

Normalität: Die Daten folgen einer Normalverteilung.

Linearität: Die Linie, die am besten durch die Datenpunkte passt, ist eher eine gerade Linie als eine Kurve oder eine Art Gruppierungsfaktor.,

So führen Sie eine multiple lineare Regression durch

Multiple lineare Regressionsformel

Die Formel für eine multiple lineare Regression lautet:

  • y = der vorhergesagte Wert der abhängigen Variablen
  • B0 = der y-Intercept (Wert von y, wenn alle anderen Parameter auf 0 gesetzt sind)
  • B1X1= der Regressionskoeffizient (B1) der ersten unabhängigen Variablen (X1) (a. k. a., der Effekt, den die Erhöhung des Wertes der unabhängigen Variablen auf den vorhergesagten y-Wert hat)
  • … = Machen Sie dasselbe für so viele unabhängige Variablen, die Sie testen
  • BnXn = der Regressionskoeffizient der letzten unabhängigen Variablen
  • e = Modellfehler (auch bekannt als wie viel Variation in unserer Schätzung von y)

Um die am besten geeignete Linie für jede unabhängige Variable zu finden, berechnet die multiple linear Regression drei Dinge:

  • > Die Regressionskoeffizienten, die zum kleinsten Gesamtmodellfehler führen.
  • Die T-Statistik des Gesamtmodells.,
  • Der zugehörige p-Wert (wie wahrscheinlich ist es, dass die t-Statistik zufällig aufgetreten wäre, wenn die Nullhypothese einer Beziehung zwischen den unabhängigen und abhängigen Variablen wahr wäre).

Es berechnet dann die T-Statistik und den p-Wert für jeden Regressionskoeffizienten im Modell.

Multiple lineare Regression in R

Während es möglich ist, mehrere lineare Regression von Hand zu tun, ist es viel häufiger über statistische Software getan. Wir werden R für unsere Beispiele verwenden, da es kostenlos, leistungsstark und weit verbreitet ist., Laden Sie den Beispieldatensatz herunter, um ihn selbst auszuprobieren.

Datensatz für mehrere lineare Regression (.csv)

Laden Sie das Herz.,dataset in Ihre R-Umgebung und führen Sie den folgenden Code:

R-Code für mehrere lineare Regression
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Dieser Code nimmt den Datensatz heart.data und berechnet den Effekt, dass die unabhängigen Variablen biking und smoking haben auf der abhängigen Variablen heart disease unter Verwendung der Gleichung für das lineare Modell: lm().,

Erfahren Sie mehr, indem Sie der vollständigen Schritt-für-Schritt-Anleitung zur linearen Regression in R folgen.

Was ist Ihr Plagiats-Score?

Vergleichen Sie Ihr Papier mit über 60 Milliarden web-Seiten und 30 Millionen Veröffentlichungen.,/li>

Scribbr Plagiatsprüfer

Interpretation der Ergebnisse

Um die Ergebnisse des Modells anzuzeigen, können Sie die Funktion:

summary(heart.disease.lm)

Diese Funktion nimmt die wichtigsten Parameter aus dem linearen Modell und legt sie in eine Tabelle, die wie folgt aussieht:

Die Zusammenfassung druckt zuerst die Formel (‚Call‘), dann das Modell residuen („Residuen“)., Wenn die Residuen ungefähr um Null zentriert und auf beiden Seiten ähnlich verteilt sind (Median 0,03 und min und max um -2 und 2), dann passt das Modell wahrscheinlich zur Annahme der Heteroskedastizität.

Weiter sind die Regressionskoeffizienten des Modells (‚Koeffizienten‘). Zeile 1 der Koeffizientententabelle ist beschriftet (Intercept) – dies ist der y-Intercept der Regressionsgleichung. Es ist hilfreich, den geschätzten Intercept zu kennen, um ihn in die Regressionsgleichung einzufügen und Werte der abhängigen Variablen vorherzusagen:

heart disease = 15 + (-0.,2*1) + (0.178*2) ± e

Die wichtigsten Punkte in dieser Ausgabetabelle sind die nächsten beiden Tabellen – die Schätzungen für die unabhängigen Variablen.

Die Spalte Estimate ist der geschätzte Effekt, auch Regressionskoeffizient oder r2-Wert genannt. Die Schätzungen in der Tabelle sagen uns, dass für jeden Anstieg der Arbeitszufriedenheit um ein Prozent ein Rückgang der Herzkrankheit um 0,2 Prozent und für jeden Anstieg des Rauchens um ein Prozent ein Anstieg vorliegt .17 prozent Anstieg bei Herzerkrankungen.,

In der Spalte Std.error wird der Standardfehler der Schätzung angezeigt. Diese Zahl zeigt an, wie stark sich die Schätzungen des Regressionskoeffizienten unterscheiden.

In der Spalte t value wird die Teststatistik angezeigt. Sofern nicht anders angegeben, ist die in der linearen Regression verwendete Teststatistik der t-Wert aus einem zweiseitigen t-Test. Je größer die Teststatistik ist, desto unwahrscheinlicher ist es, dass die Ergebnisse zufällig aufgetreten sind.

In der Spalte Pr( > | t | ) wird der p-Wert angezeigt., Dies zeigt, wie wahrscheinlich der berechnete t-Wert zufällig aufgetreten wäre, wenn die Nullhypothese ohne Wirkung des Parameters wahr wäre.

Da diese Werte so niedrig sind (p < 0.001 in beiden Fällen), können wir die Nullhypothese ablehnen und daraus schließen, dass beide arbeiten und Rauchen beide wahrscheinlich beeinflussen Raten von Herzerkrankungen.

Darstellung der Ergebnisse

Wenn Sie Ihre Ergebnisse melden, geben Sie den geschätzten Effekt (dh den Regressionskoeffizienten), den Standardfehler der Schätzung und den p-Wert an., Sie sollten auch Ihre Zahlen interpretieren, um Ihren Lesern klar zu machen, was der Regressionskoeffizient bedeutet.

In unserer Umfrage unter 500 Städten fanden wir signifikante Zusammenhänge zwischen der Häufigkeit der Arbeitsunfähigkeit und der Häufigkeit von Herzerkrankungen sowie der Häufigkeit des Rauchens und der Häufigkeit von Herzerkrankungen (p < jeweils 0,001). Insbesondere fanden wir eine Abnahme der Häufigkeit von Herzerkrankungen um 0, 2% (±0, 0014) bei jedem Anstieg der Herzfrequenz um 1% und eine Zunahme um 0, 178% (±0.,0035) in der Häufigkeit von Herzerkrankungen für jeden 1% Anstieg des Rauchens.

Visualisierung der Ergebnisse in einem Diagramm

Es kann auch hilfreich sein, ein Diagramm in Ihre Ergebnisse aufzunehmen. Die mehrfache lineare Regression ist etwas komplizierter als die einfache lineare Regression, da es mehr Parameter gibt, als in ein zweidimensionales Diagramm passen.

Es gibt jedoch Möglichkeiten, Ihre Ergebnisse anzuzeigen, die die Auswirkungen mehrerer unabhängiger Variablen auf die abhängige Variable enthalten, obwohl tatsächlich nur eine unabhängige Variable auf der x-Achse dargestellt werden kann.,

Hier haben wir die vorhergesagten Werte der abhängigen Variablen (Herzkrankheit) über den gesamten beobachteten Wertebereich für den Prozentsatz der Personen berechnet, die zur Arbeit gehen.

Um die Auswirkungen des Rauchens auf die unabhängige Variable einzuschließen, berechneten wir diese vorhergesagten Werte, während wir das Rauchen bei den Minimal -, Mittel-und maximal beobachteten Raucherraten konstant hielten.

Häufig gestellte Fragen zur multiplen linearen Regression

Was ist ein Regressionsmodell?,

Ein Regressionsmodell ist ein statistisches Modell, das die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen mithilfe einer Linie (oder einer Ebene bei zwei oder mehr unabhängigen Variablen) schätzt.

Ein Regressionsmodell kann verwendet werden, wenn die abhängige Variable quantitativ ist, mit Ausnahme der logistischen Regression, bei der die abhängige Variable binär ist.

Was ist multiple lineare regression?,

Multiple lineare Regression ist ein Regressionsmodell, das die Beziehung zwischen einer quantitativen abhängigen Variablen und zwei oder mehr unabhängigen Variablen mithilfe einer geraden Linie schätzt.

Wie wird der Fehler in einem linearen Regressionsmodell berechnet?

Die lineare Regression verwendet meistens den mittleren quadratischen Fehler (MSE), um den Fehler des Modells zu berechnen., MSE wird berechnet durch:

  1. Messen der Entfernung der beobachteten y-Werte von den vorhergesagten y-Werten bei jedem Wert von x;
  2. Quadrieren jeder dieser Abstände;
  3. Berechnen des Mittelwerts jeder der quadratischen Abstände.

Die lineare Regression passt eine Zeile an die Daten an, indem der Regressionskoeffizient ermittelt wird, der zum kleinsten MSE führt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.