o introducere în regresia liniară multiplă

o introducere în regresia liniară multiplă

modelele de regresie sunt utilizate pentru a descrie relațiile dintre variabile prin montarea unei linii la datele observate. Regresia vă permite să estimați modul în care o variabilă dependentă se schimbă pe măsură ce variabila(variabilele) independente se schimbă.regresia liniară multiplă este utilizată pentru a estima relația dintre două sau mai multe variabile independente și o variabilă dependentă., Puteți utiliza regresia liniară multiplă atunci când doriți să știți:

  1. cât de puternică este relația dintre două sau mai multe variabile independente și o variabilă dependentă (de exemplu, modul în care precipitațiile, temperatura și cantitatea de îngrășământ adăugată afectează creșterea culturilor).
  2. valoarea variabilei dependente la o anumită valoare a variabilelor independente (de exemplu, randamentul așteptat al unei culturi la anumite niveluri de precipitații, temperatură și adaos de îngrășăminte).,
Exemplu
esti un sănătății publice cercetător interesat de factori sociali care influențează boli de inima. Cercetați 500 de orașe și colectați date despre procentul de persoane din fiecare oraș care fumează, procentul de persoane din fiecare oraș care merg cu bicicleta la muncă și procentul de persoane din fiecare oraș care au boli de inimă.

deoarece aveți două variabile independente și o variabilă dependentă și toate variabilele dvs. sunt cantitative, puteți utiliza regresie liniară multiplă pentru a analiza relația dintre ele.,

Ipoteze de regresie liniară multiplă

regresie liniară Multiplă face toate aceleași ipoteze ca de regresie liniară simplă:

Omogenitate a varianței (homoscedasticității): mărimea de eroare în predicția noastră nu se schimbă semnificativ peste valorile variabilei independente.

independența observațiilor: observațiile din setul de date au fost colectate folosind metode valide statistic și nu există relații ascunse între variabile.,

în regresia liniară multiplă, este posibil ca unele dintre variabilele independente să fie corelate între ele, deci este important să le verificați înainte de a dezvolta modelul de regresie. Dacă două variabile independente sunt prea corelate (r2 > ~0.6), atunci numai una dintre ele ar trebui utilizată în modelul de regresie.

normalitate: datele urmează o distribuție normală.

liniaritate: linia cea mai potrivită prin punctele de date este o linie dreaptă, mai degrabă decât o curbă sau un fel de factor de grupare.,

Cum de a efectua o regresie liniară multiplă

de regresie liniară Multiplă formula

formula pentru o regresie liniară multiplă este:

  • y = valoarea prezis variabilei dependente
  • B0 = y-intercepta (valoarea lui y când toți ceilalți parametri sunt setați la 0)
  • B1X1= coeficientul de regresie (B1) de prima variabilă independentă (X1) (un.k.o., efectul pe care creșterea valorii variabilei independente a prezis valoare y)
  • … = face la fel pentru toate acestea, de multe variabile independente sunt de testare
  • BnXn = coeficientul de regresie de ultima variabilă independentă
  • e = model de eroare (un.k.o. cât de mult variație nu este în estimarea noastră de y)

Pentru a găsi cea mai potrivită linie pentru fiecare variabilă independentă, de regresie liniară multiplă calculează trei lucruri:

  • coeficienții De regresie care să conducă la cel mai mic model global de eroare.
  • statistica t a modelului general.,
  • valoarea p asociată (cât de probabil este că statistica t ar fi apărut din întâmplare dacă ipoteza nulă a lipsei de relație între variabilele independente și dependente ar fi adevărată).

apoi calculează t-Statistica și p-valoarea pentru fiecare coeficient de regresie în model.

regresie liniară multiplă în R

deși este posibil să se facă regresie liniară multiplă manual, este mult mai frecvent realizată prin intermediul software-ului statistic. Vom folosi R pentru exemplele noastre, deoarece este gratuit, puternic și disponibil pe scară largă., Descărcați setul de date eșantion pentru a încerca singur.

set de date pentru regresie liniară multiplă (.csv)

încărcați inima.,date de date în R mediu și executați următorul cod:

R cod de regresie liniară multiplă
heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Acest cod are setul de date heart.data și calculează efectul pe care variabilele independente biking și smoking au asupra variabilei dependente heart disease folosind ecuația pentru modelul liniar: lm().,

Aflați mai multe urmând ghidul complet pas cu pas pentru regresia liniară în R.

care este scorul dvs. de plagiat?

comparați hârtia cu peste 60 de miliarde de pagini web și 30 de milioane de publicații.,/li>

Scribbr Plagiatul Checker

Interpretarea rezultatelor

Pentru a vizualiza rezultatele de model, puteți folosi summary() funcția:

summary(heart.disease.lm)

Această funcție are cei mai importanți parametri din modelul liniar și pune-le într-un tabel care arata ca aceasta:

rezumatul prima imprimă formula („Apel”), atunci modelul reziduale (‘Reziduuri’)., Dacă reziduurile sunt aproximativ centrate în jurul valorii de zero și cu o răspândire similară pe ambele părți, așa cum fac acestea (mediana 0.03 și min și max în jurul valorii de -2 și 2), atunci modelul se potrivește probabil presupunerii heteroscedasticității.

urmează coeficienții de regresie ai modelului (‘coeficienți’). Rândul 1 din tabelul coeficienților este etichetat (Intercept) – aceasta este interceptarea y a ecuației de regresie. Este util să cunoașteți interceptarea estimată pentru a o conecta la ecuația de regresie și a prezice valorile variabilei dependente:

boli de inimă = 15 + (-0.,2*ciclism) + (0.178 * fumat) ± e

cele mai importante lucruri de remarcat în acest tabel de ieșire sunt următoarele două tabele – estimările pentru variabilele independente.

coloana Estimate este efectul estimat, numit și coeficientul de regresie sau valoarea r2. Estimările din tabel ne spun că pentru fiecare creștere procentuală a ciclismului la locul de muncă există o scădere asociată cu 0,2% a bolilor de inimă și că pentru fiecare creștere procentuală a fumatului există o asociată .Creșterea cu 17% a bolilor de inimă.,

coloana Std.error afișează eroarea standard a estimării. Acest număr arată cât de multă variație există în jurul estimărilor coeficientului de regresie.

coloana t value afișează statistica testului. Cu excepția cazului în care se specifică altfel, statistica de testare utilizată în regresia liniară este valoarea t dintr-un test T cu două fețe. Cu cât este mai mare statistica testului, cu atât este mai puțin probabil ca rezultatele să apară din întâmplare.

coloana Pr( > | t | ) arată valoarea P., Acest lucru arată cât de probabil ar fi avut loc valoarea t calculată din întâmplare dacă ipoteza nulă a efectului parametrului nu ar fi fost adevărată.deoarece aceste valori sunt atât de scăzute (p < 0.001 în ambele cazuri), putem respinge ipoteza nulă și concluzionăm că atât ciclismul la muncă, cât și fumatul influențează probabil ratele bolilor de inimă.

Prezentarea rezultatelor

când raportați rezultatele, includeți efectul estimat (adică coeficientul de regresie), eroarea standard a estimării și valoarea P., De asemenea, ar trebui să interpretați numerele dvs. pentru a le clarifica cititorilor ce înseamnă coeficientul de regresie.

În sondajul nostru de 500 de orașe, am găsit o relație semnificativă între frecvența cu bicicleta la serviciu și frecvența bolilor de inima și de frecvența de fumat și frecvența de boli de inima (p < 0, 001 pentru fiecare). Mai exact, am constatat o scădere de 0,2% (±0,0014) a frecvenței bolilor de inimă pentru fiecare creștere de 1% a ciclismului și o creștere de 0,178% (±0.,0035) în frecvența bolilor de inimă pentru fiecare creștere de 1% a fumatului.

vizualizarea rezultatelor într-un grafic

De asemenea, poate fi util să includeți un grafic cu rezultatele dvs. Regresia liniară multiplă este oarecum mai complicată decât regresia liniară simplă, deoarece există mai mulți parametri decât se vor potrivi pe un complot bidimensional.cu toate acestea, există modalități de a afișa rezultatele care includ efectele mai multor variabile independente asupra variabilei dependente, chiar dacă o singură variabilă independentă poate fi de fapt reprezentată grafic pe axa X.,

Aici, am calculat valorile estimate ale variabilei dependente (boli de inima), întreaga gamă completă de valorile observate pentru procentul de oameni cu bicicleta la serviciu.pentru a include efectul fumatului asupra variabilei independente, am calculat aceste valori prezise, menținând constant fumatul la ratele minime, medii și maxime observate de fumat.

Întrebări Frecvente despre regresia liniară multiplă

ce este un model de regresie?,

un model de regresie este un model statistic care estimează relația dintre o variabilă dependentă și una sau mai multe variabile independente folosind o linie (sau un plan în cazul a două sau mai multe variabile independente).

un model de regresie poate fi utilizat atunci când variabila dependentă este cantitativă, cu excepția cazului regresiei logistice, unde variabila dependentă este binară.

ce este regresia liniară multiplă?, regresia liniară multiplă este un model de regresie care estimează relația dintre o variabilă dependentă cantitativă și două sau mai multe variabile independente folosind o linie dreaptă.
cum se calculează eroarea într-un model de regresie liniară?

regresia liniară utilizează cel mai adesea eroarea medie-pătrată (MSE) pentru a calcula eroarea modelului., MSE se calculează prin:

  1. măsurarea distanței valorilor y observate față de valorile y prezise la fiecare valoare a lui x;
  2. Cuadratura fiecăreia dintre aceste distanțe;
  3. calcularea mediei fiecăreia dintre distanțele pătrate.

regresia liniară se potrivește unei linii cu datele prin găsirea coeficientului de regresie care are ca rezultat cel mai mic MSE.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *