Lineaarse regressiooni statistika ja analüüs

Lineaarne regressioon on statistiline tehnika, mida kasutatakse sõltumatu (ennustava) muutuja ja sõltuva (kriteeriumi) muutuja vahelise seose tundmaõppimiseks. Kui teie analüüsis on mitu sõltumatut muutujat, nimetatakse seda mitmeks lineaarseks regressiooniks. Üldiselt võimaldab regressioon uurijal esitada üldküsimus „Milline on parim ennustaja…?“

Näiteks oletame, et uurisime selle põhjuseid rasvumine, mõõdetuna kehamassiindeksiga (KMI). Eelkõige tahtsime teada saada, kas järgmised muutujad ennustavad inimese kehamassiindeksi olulisel määral: kiirtoidu arv nädalas söödud toidud, nädalas vaadatud televisioonitundide arv, nädalas treenitud minutite arv ja vanemate KMI. Selle analüüsi jaoks oleks hea meetod lineaarne regressioon.

Regressioonivõrrand

Kui teete regressioonanalüüsi ühe sõltumatu muutujaga, on regressioonivõrrand Y = a + b * X kus Y on sõltuv muutuja, X on sõltumatu muutuja, a on konstant (või katkend) ja b on regressioonijoone kalle. Näiteks oletame, et GPA-d ennustatakse kõige paremini regressioonivõrrandiga 1 + 0,02 * IQ. Kui õpilase IQ on 130, siis oleks tema GPA 3,6 (1 + 0,02 * 130 = 3,6).

instagram viewer

Kui teete regressioonanalüüsi, milles teil on rohkem kui üks sõltumatu muutuja, on regressioonivõrrand Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Näiteks kui tahaksime oma GPA analüüsi lisada rohkem muutujaid, näiteks motivatsiooni ja enesedistsipliini mõõtmeid, kasutaksime seda võrrand.

R-ruut

R-ruut, tuntud ka kui määramiskoefitsienton regressioonivõrrandi mudeli sobivuse hindamiseks tavaliselt kasutatav statistika. See tähendab, kui head on kõik teie sõltumatud muutujad teie sõltuva muutuja ennustamisel? R-ruudu väärtus on vahemikus 0,0 kuni 1,0 ja protsendi saamiseks võib seda korrutada 100-ga dispersioon seletas. Naastes näiteks meie GPA regressioonivõrrandi juurde ainult ühe sõltumatu muutujaga (IQ)... Ütleme nii, et meie Võrrandi R-ruut oli 0,4. Võiksime seda tõlgendada nii, et 40% GPA erinevusest on seletatav: IQ. Kui liitame siis oma ülejäänud kaks muutujat (motivatsioon ja enesedistsipliin) ja R-ruut tõuseb väärtuseni 0,6, see tähendab, et IQ, motivatsioon ja enesedistsipliin selgitavad koos 60% GPA variatsioonist hinded.

Regressioonanalüüsid tehakse tavaliselt statistilise tarkvara, näiteks SPSS või SAS abil, nii et R-ruut arvutatakse teie jaoks.

Regressioonikoefitsientide tõlgendamine (b)

Ülaltoodud võrrandite b koefitsiendid tähistavad sõltumatute ja sõltuvate muutujate vahelise seose tugevust ja suunda. Kui vaatame GPA ja IQ võrrandit, siis 1 + 0,02 * 130 = 3,6, 0,02 on muutuja IQ regressioonikordaja. See ütleb meile, et suhte suund on positiivne, nii et kui IQ suureneb, suureneb ka GPA. Kui võrrand oleks 1 - 0,02 * 130 = Y, tähendaks see, et suhe IQ ja GPA vahel oli negatiivne.

Eeldused

Lineaarse regressioonianalüüsi tegemiseks tuleb andmete osas täita mitu eeldust:

  • Lineaarsus: Eeldatakse, et suhe sõltumatute ja sõltuvate muutujate vahel on lineaarne. Kuigi seda eeldust ei saa kunagi täielikult kinnitada, vaadates a hajuvusdiagramm teie muutujate hulgast võib aidata seda kindlaks teha. Kui suhetes on kumerus, võite kaaluda muutujate muutmist või mittelineaarsete komponentide selgesõnalist lubamist.
  • Normaalsus: Eeldatakse, et jäägid teie muutujatest on tavaliselt jaotatud. See tähendab, et Y (sõltuva muutuja) väärtuse ennustamisel esinevad vead jaotatakse viisil, mis läheneb tavakõverale. Võite vaadata histogrammid või normaalse tõenäosuse graafikud, et kontrollida teie muutujate jaotust ja nende jääkväärtusi.
  • Iseseisvus: Eeldatakse, et Y väärtuse ennustamisel esinevad vead on kõik teineteisest sõltumatud (ei ole korrelatsioonis).
  • Homoscedasticity: Eeldatakse, et regressioonisirge ümber olev dispersioon on sõltumatute muutujate kõigi väärtuste korral sama.

Allikas

  • StatSoft: Elektroonilise statistika õpik. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.