Mitu korda, kui uurime mõnda rühma, võrdleme tõesti kahte populatsiooni. Sõltuvalt parameeter Selles rühmas, millest oleme huvitatud, ja tingimustes, millega me tegeleme, on saadaval mitmeid tehnikaid. Statistiline järeldused kahe populatsiooni võrdlemisega seotud protseduure ei saa tavaliselt kohaldada kolme või enama populatsiooni suhtes. Rohkem kui kahe populatsiooni korraga uurimiseks vajame erinevat tüüpi statistilisi vahendeid. Dispersiooni analüüsehk ANOVA on statistilistest häiretest tulenev tehnika, mis võimaldab meil toime tulla mitme populatsiooniga.
Vahendite võrdlus
Vaatleme näidet, et näha, millised probleemid tekivad ja miks vajame ANOVA-d. Oletame, et proovime kindlaks teha, kas tähendama roheliste, punaste, siniste ja oranžide M&M kommide massid erinevad üksteisest. Esitame nende populatsioonide keskmise massi μ1, μ2, μ3 μ4 ja vastavalt. Võime kasutada sobivat hüpoteesi test mitu korda ja katse C (4,2) või kuus erinevat nullhüpoteesid:
- H0: μ1 = μ2 et kontrollida, kas punaste kommide populatsiooni keskmine mass erineb siniste kommide elanike keskmisest massist.
- H0: μ2 = μ3 kontrollida, kas siniste kommide populatsiooni keskmine mass erineb roheliste kommide elanike keskmisest massist.
- H0: μ3 = μ4 kontrollida, kas roheliste kommide populatsiooni keskmine mass erineb apelsinikommide elanike keskmisest massist.
- H0: μ4 = μ1 et kontrollida, kas apelsinikommide populatsiooni keskmine mass erineb punaste kommide populatsiooni keskmisest massist.
- H0: μ1 = μ3 kontrollida, kas punaste kommide populatsiooni keskmine mass erineb roheliste kommide populatsiooni keskmisest massist.
- H0: μ2 = μ4 et kontrollida, kas siniste kommide populatsiooni keskmine mass erineb apelsinikommide populatsiooni keskmisest massist.
Sellise analüüsiga on palju probleeme. Meid on kuus lk-väärtused. Isegi kui võime testida kõiki 95% enesekindluse tase, on meie usaldus kogu protsessi suhtes väiksem kui see, kuna tõenäosused korrutavad: .95 x .95 x .95 x .95 x .95 x .95 on umbes .74 ehk 74% usaldusnivoo. Seega on I tüüpi vea tõenäosus suurenenud.
Põhimõttelisemal tasemel ei saa me neid nelja parameetrit tervikuna võrrelda, kui võrrelda neid kahte korraga. Punase ja sinise M & Ms keskmised väärtused võivad olla märkimisväärsed, punase keskmise kaal on suhteliselt suurem kui sinise keskmine kaal. Kui arvestada kõigi nelja tüüpi kommide keskmist kaalu, ei pruugi siiski olulist erinevust olla.
Variatsiooni analüüs
Olukordade lahendamiseks, kus peame tegema mitu võrdlust, kasutame ANOVA-d. See test võimaldab meil kaaluda korraga mitme populatsiooni parameetreid, laskumata käsitleda mõnda probleemi, millega meie silmitsi seisame hüpoteesitestide läbiviimine kahel parameetril korraga.
Ülaltoodud M&M näite abil ANOVA läbiviimiseks testime nullhüpoteesi H0:μ1 = μ2 = μ3= μ4. See väidab, et punase, sinise ja rohelise M & Ms keskmise kaalu vahel pole vahet. Alternatiivne hüpotees on, et on olemas mõningane erinevus punase, sinise, rohelise ja oranži M & Ms keskmise kaalu vahel. See hüpotees on tõesti mitme väite kombinatsioon Ha:
- Punaste kommide populatsiooni keskmine kaal ei ole võrdne siniste kommide populatsiooni keskmise kaaluga, VÕI
- Siniste kommide populatsiooni keskmine kaal ei ole võrdne roheliste kommide populatsiooni keskmise kaaluga, VÕI
- Roheliste kommide populatsiooni keskmine kaal ei võrdu apelsinikommide populatsiooni keskmise kaaluga, VÕI
- Roheliste kommide populatsiooni keskmine kaal ei ole võrdne punaste kommide populatsiooni keskmise kaaluga, VÕI
- Siniste kommide populatsiooni keskmine kaal ei ole võrdne apelsinikommide populatsiooni keskmise kaaluga, VÕI
- Siniste kommide populatsiooni keskmine kaal ei ole võrdne punaste kommide populatsiooni keskmise kaaluga.
Sel konkreetsel juhul kasutaksime oma p-väärtuse saamiseks a tõenäosusjaotus tuntud kui F-jaotus. ANOVA F-testi sisaldavaid arvutusi saab teha käsitsi, kuid tavaliselt arvutatakse need statistilise tarkvara abil.
Mitu võrdlust
Mis eraldab ANOVA teistest statistilistest meetoditest, on see, et seda kasutatakse mitmete võrdluste tegemiseks. See on kogu statistikas tavaline, kuna on palju kordi, kui tahame võrrelda rohkem kui kahte rühma. Tavaliselt näitab üldine test, et uuritavate parameetrite vahel on mingisugune erinevus. Seejärel jälgime seda testi mõne muu analüüsi abil, et otsustada, milline parameeter erineb.