Een inleiding tot multiple linear regression

Een inleiding tot multiple linear regression

regressiemodellen worden gebruikt om de relaties tussen variabelen te beschrijven door een lijn aan de waargenomen gegevens toe te passen. Met regressie kunt u inschatten hoe een afhankelijke variabele verandert als de onafhankelijke variabele(s) verandert.

meervoudige lineaire regressie wordt gebruikt om de relatie tussen twee of meer onafhankelijke variabelen en één afhankelijke variabele te schatten., U kunt meerdere lineaire regressie gebruiken als u wilt weten:

  1. hoe sterk de relatie is tussen twee of meer onafhankelijke variabelen en één afhankelijke variabele (bijvoorbeeld hoe regenval, temperatuur en hoeveelheid toegevoegde meststof de groei van het gewas beïnvloeden).
  2. de waarde van de afhankelijke variabele bij een bepaalde waarde van de onafhankelijke variabelen (bijvoorbeeld de verwachte opbrengst van een gewas bij bepaalde niveaus van regenval, temperatuur en bemesting).,
voorbeeld
u bent een onderzoeker in de volksgezondheid die geïnteresseerd is in sociale factoren die hartziekten beïnvloeden. Je onderzoekt 500 steden en verzamelt gegevens over het percentage mensen in elke stad die roken, het percentage mensen in elke stad die fietsen naar het werk, en het percentage mensen in elke stad die hartziekten hebben.

omdat u twee onafhankelijke variabelen en één afhankelijke variabele hebt, en al uw variabelen kwantitatief zijn, kunt u meerdere lineaire regressie gebruiken om de relatie tussen hen te analyseren.,

aannames van meervoudige lineaire regressie

aannames van meervoudige lineaire regressie maken allemaal dezelfde aannames als enkelvoudige lineaire regressie:

homogeniteit van variantie (homoscedasticiteit): de grootte van de fout in onze voorspelling verandert niet significant over de waarden van de onafhankelijke variabele.

onafhankelijkheid van waarnemingen: de waarnemingen in de dataset werden verzameld met behulp van statistisch geldige methoden, en er zijn geen verborgen relaties tussen variabelen.,

bij meervoudige lineaire regressie is het mogelijk dat sommige onafhankelijke variabelen met elkaar gecorreleerd zijn, dus is het belangrijk deze te controleren voordat het regressiemodel wordt ontwikkeld. Als twee onafhankelijke variabelen te sterk gecorreleerd zijn (r2 > ~0.6), dan moet er slechts één worden gebruikt in het regressiemodel.

normaliteit: de gegevens volgen een normale verdeling.

lineariteit: De lijn die het best door de datapunten past is een rechte lijn, in plaats van een kromme of een soort van groeperingsfactor.,

een meervoudige lineaire regressie uitvoeren

meervoudige lineaire regressie formule

De formule voor een meervoudige lineaire regressie is:

  • y = de voorspelde waarde van de afhankelijke variabele
  • B0 = de y-intercept (waarde van y wanneer alle andere parameters op 0 zijn ingesteld)
  • b1x1= de regressiecoëfficiënt (B1) van de eerste onafhankelijke variabele (x1) (alias, het effect dat het verhogen van de waarde van de onafhankelijke variabele heeft op de voorspelde y-waarde)
  • … = hetzelfde doen echter veel onafhankelijke variabelen zijn het testen
  • BnXn = regressie coëfficiënt van de laatste onafhankelijke variabele
  • e = model fout (een.k.een. hoeveel variatie er is in onze schatting van y)

Om het vinden van de best passende rechte lijn voor elke onafhankelijke variabele, multiple lineaire regressie berekent drie dingen:

  • De regressie coëfficiënten die leidt tot de kleinste totale model fout.
  • de t-statistiek van het algemene model.,
  • de bijbehorende p-waarde (hoe waarschijnlijk het is dat de T-statistiek bij toeval zou hebben plaatsgevonden als de nulhypothese van geen relatie tussen de onafhankelijke en afhankelijke variabelen waar was).

Het berekent vervolgens de T-statistiek en de p-waarde voor elke regressiecoëfficiënt in het model.

meervoudige lineaire regressie in R

hoewel het mogelijk is om meerdere lineaire regressie met de hand te doen, wordt dit veel vaker gedaan via statistische software. We gaan R gebruiken voor onze voorbeelden omdat het gratis, krachtig en op grote schaal beschikbaar is., Download de voorbeelddataset om het zelf uit te proberen.

Dataset voor meervoudige lineaire regressie (.csv)

laad het hart.,gegevens gegevensset in uw omgeving R en voer de volgende code:

R-code voor de meervoudige lineaire regressie
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Deze code worden de gegevens set heart.data en berekent het effect van de onafhankelijke variabelen biking en smoking hebben op de afhankelijke variabele heart disease met behulp van de vergelijking voor het lineaire model: lm().,

leer meer door de volledige stapsgewijze handleiding voor lineaire regressie te volgen in R.

Wat is uw plagiaatscore?

vergelijk uw papier met meer dan 60 miljard webpagina ‘ s en 30 miljoen publicaties.,/li>

Scribbr Plagiaat Checker

het Interpreteren van de resultaten

om de resultaten Te bekijken van het model, kunt u gebruik maken van de summary() functie:

summary(heart.disease.lm)

met Deze functie neemt de belangrijkste parameters van de lineaire model en zet ze in een tabel die er als volgt uitziet:

Het eerste overzicht geeft de formule (‘Call’), dan wordt het model van de restwaarden (‘Rest’)., Als de reststoffen ruwweg gecentreerd zijn rond nul en met vergelijkbare spreiding aan weerszijden, zoals deze doen (mediaan 0,03, en min en max rond -2 en 2) dan past het model waarschijnlijk in de aanname van heteroscedasticiteit.

vervolgens zijn de regressiecoëfficiënten van het model (“coëfficiënten”). Rij 1 van de coëfficiënten tabel is gelabeld (Intercept) – dit is de y-intercept van de regressievergelijking. Het is handig om de geschatte onderschepping te kennen om deze in de regressievergelijking te stoppen en waarden van de afhankelijke variabele te voorspellen:

hartziekte = 15 + (-0.,2 * fietsen) + (0.178*roken) ± e

de belangrijkste dingen om op te merken in deze outputtabel zijn de volgende twee tabellen – de schattingen voor de onafhankelijke variabelen.

de kolom Estimate is het geschatte effect, ook wel de regressiecoëfficiënt of r2-waarde genoemd. De schattingen in de tabel vertellen ons dat voor elke procent toename van fietsen naar het werk is er een bijbehorende 0,2 procent daling van hart-en vaatziekten, en dat voor elke procent toename van roken is er een bijbehorende.17 procent toename van hart-en vaatziekten.,

de kolom Std.error geeft de standaardfout van de schatting weer. Dit aantal geeft aan hoeveel variatie er is rond de schattingen van de regressiecoëfficiënt.

de kolom t value geeft de teststatistiek weer. Tenzij anders vermeld, is de in lineaire regressie gebruikte teststatistiek de T-waarde van een dubbelzijdige t-test. Hoe groter de teststatistiek, hoe minder waarschijnlijk het is dat de resultaten bij toeval plaatsvonden.

de kolom Pr( > | t | ) toont de p-waarde., Dit laat zien hoe waarschijnlijk de berekende T-waarde bij toeval zou hebben plaatsgevonden als de nulhypothese van geen effect van de parameter waar was.

omdat deze waarden zo laag zijn (p < 0,001 in beide gevallen), kunnen we de nulhypothese verwerpen en concluderen dat zowel fietsen naar het werk als roken beide waarschijnlijke invloed hebben op het aantal hartziekten.

presentatie van de resultaten

bij het rapporteren van uw resultaten moet u het geschatte effect (d.w.z. de regressiecoëfficiënt), de standaardfout van de schatting en de p-waarde vermelden., U moet ook uw cijfers interpreteren om uw lezers duidelijk te maken wat de regressiecoëfficiënt betekent.

in ons onderzoek in 500 steden vonden we significante verbanden tussen de frequentie van fietsen naar het werk en de frequentie van hartziekten en de frequentie van roken en frequentie van hartziekten (p < 0,001 voor elk). Specifiek vonden we een 0.2% daling (± 0.0014) in de frequentie van hart-en vaatziekten voor elke 1% stijging van fietsen, en een 0.178% stijging (± 0.,0035) in de frequentie van hart-en vaatziekten voor elke 1% toename van roken.

visualiseren van de resultaten in een grafiek

Het kan ook nuttig zijn om een grafiek bij uw resultaten op te nemen. Meervoudige lineaire regressie is iets ingewikkelder dan eenvoudige lineaire regressie, omdat er meer parameters zijn dan op een tweedimensionale grafiek past.

Er zijn echter manieren om uw resultaten weer te geven die de effecten van meerdere onafhankelijke variabelen op de afhankelijke variabele bevatten, ook al kan er slechts één onafhankelijke variabele op de x-as worden uitgezet.,

Hier hebben we de voorspelde waarden van de afhankelijke variabele (hartziekte) berekend over het volledige bereik van de waargenomen waarden voor het percentage mensen dat naar het werk fietst.

om het effect van roken op de onafhankelijke variabele op te nemen, berekenden we deze voorspelde waarden terwijl we het roken constant hielden op het minimale, gemiddelde en maximale waargenomen percentage van roken.

Veelgestelde vragen over meervoudige lineaire regressie

Wat is een regressiemodel?,

een regressiemodel is een statistisch model dat de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen schat met behulp van een lijn (of een vlak in het geval van twee of meer onafhankelijke variabelen).

een regressiemodel kan worden gebruikt wanneer de afhankelijke variabele kwantitatief is, behalve in het geval van logistische regressie, waar de afhankelijke variabele binair is.

Wat is meervoudige lineaire regressie?,

Multiple linear regression is een regressiemodel dat de relatie tussen een kwantitatieve afhankelijke variabele en twee of meer onafhankelijke variabelen schat met behulp van een rechte lijn.

Hoe wordt de fout berekend in een lineair regressiemodel?

lineaire regressie gebruikt meestal gemiddelde kwadraatfout (MSE) om de fout van het model te berekenen., MSE wordt berekend door:

  1. het meten van de afstand van de waargenomen y-waarden van de voorspelde y-waarden bij elke waarde van x;
  2. squaring elk van deze afstanden;
  3. het berekenen van het gemiddelde van elk van de kwadraatafstanden.

lineaire regressie past een lijn aan de gegevens door het vinden van de regressiecoëfficiënt die resulteert in de kleinste MSE.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *