Ühel päeval lõuna ajal sõi noor naine suure kausitäie jäätist ja õppejõudude liige kõndis tema juurde ning ütles: "Teil peaks olema ettevaatlikum, seal on kõrge statistilinekorrelatsioon jäätise ja uppumise vahel. ” Ta pidi talle segase pilgu andma, kuna ta täpsustas veel mõnda. "Enim jäätist müüvate päevade ajal on kõige rohkem inimesi uppumas."
Kui ta oli minu jäätise valmis saanud, arutasid kaks kolleegi tõsiasja, et lihtsalt sellepärast, et üks muutuja on statistiliselt seotud teisega, ei tähenda see, et üks on teise põhjus. Mõnikord peitub taustal muutuja. Sel juhul on andmetes peidus aastapäev. Kuumadel suvepäevadel müüakse rohkem jäätist kui lumisel talvel. Suvel ujub rohkem inimesi ja seetõttu uppub suvel rohkem kui talvel.
Hoiduge varjavatest muutujatest
Ülaltoodud anekdoot on ehe näide sellest, mida tuntakse varitseva muutujana. Nagu nimigi ütleb, võib varitsev muutuja olla raskesti tuvastatav ja keeruline. Kui leiame, et kaks numbrilist andmekogumit on tugevas korrelatsioonis, peaksime alati küsima: "Kas võiks olla midagi muud, mis seda suhet põhjustab?"
Järgnevad näited varjatud muutuja põhjustatud tugevast korrelatsioonist:
- Arvutite keskmine arv inimese kohta riigis ja selle riigi keskmine eluiga.
- Tuletõrjujate arv tulekahjus ja tulekahju tekitatud kahju.
- Põhikooliõpilase pikkus ja tema lugemistase.
Kõigil neil juhtudel on muutujate vaheline seos väga tugev. Tavaliselt tähistab seda täht korrelatsioonikordaja mille väärtus on lähedal 1 või -1. Pole tähtis, kui lähedal on see korrelatsioonikordaja 1 või -1, see statistika ei saa näidata, et üks muutuja on teise muutuja põhjus.
Varitsevate muutujate tuvastamine
Oma olemuselt on varjavaid muutujaid raske tuvastada. Üks strateegia, kui see on olemas, on uurida, mis andmetega aja jooksul juhtub. See võib paljastada hooajalisi suundumusi, näiteks jäätise näidet, mis varjatakse, kui andmeid koondatakse. Teine meetod on vaadata kõrvalnähud ja proovige kindlaks teha, mis eristab neid teistest andmetest. Mõnikord annab see vihje kulisside taga toimuvale. Parim viis on olla ennetav; küsige eeldusi ja kavandage eksperimente hoolikalt.
Miks see oluline on?
Oletagem avatsenaariumi puhul, et heatahtlik, kuid statistiliselt mitteteadlik kongresmen tegi uppumise vältimiseks ettepaneku keelata kogu jäätis. Selline seaduseelnõu tekitaks suurtele elanikkonnarühmadele ebamugavusi, sunniks mitmeid ettevõtteid pankrotti ja kaotaks tuhandeid töökohti, kuna riigi jäätisetööstus suleti. Parimatest kavatsustest hoolimata ei vähendaks see seaduseelnõu uppumissurmade arvu.
Kui see näide tundub pisut liiga kaugele tõmmatud, kaaluge järgmist, mis tegelikult juhtus. 1900. aastate alguses märkasid arstid, et mõned imikud surid unes salapäraselt tajutavate hingamisprobleemide tõttu. Seda kutsuti võrevoodi surmaks ja on nüüd tuntud kui SIDS. Üks asi, mis SIDS-i surma tagajärjel läbi viidud lahkamistest välja jäi, oli laienenud harknääre - rinnus paiknev nääre. Laienenud harknäärme näärmete korrelatsioonist SIDSi lastel eeldasid arstid, et ebanormaalselt suur harknääre põhjustas ebaõiget hingamist ja surma.
Kavandatud lahendus oli kahandada harknääre suure kiirgusega või eemaldada nääre täielikult. Nendel protseduuridel oli kõrge suremus ja see tõi kaasa veelgi suurema surmajuhtumi. Kurb on vaid see, et neid toiminguid ei pidanud tegema. Hilisemad uuringud on näidanud, et need arstid eksisid oma eeldustes ja harknääre ei vastuta SIDS-i eest.
Korrelatsioon ei tähenda põhjuslikku seost
Ülaltoodu peaks panema meid pausi tegema, kui arvame, et statistilisi tõendeid kasutatakse näiteks meditsiinirežiimide, õigusaktide ja haridusettepanekute õigustamiseks. On oluline, et andmete tõlgendamisel tehtaks head tööd, eriti kui korrelatsiooniga seotud tulemused mõjutavad teiste elusid.
Kui keegi väidab: "Uuringud näitavad, et A on B põhjus ja mõni statistika varundab seda," olge valmis vastus: "korrelatsioon ei tähenda põhjuslikku seost." Pöörake alati tähelepanu sellele, mis varitseb allpool andmed.