Kõrvaliste väärtuste määramine statistikas

Kõrvalekalded on andmeväärtused, mis erinevad suuresti suurema osa andmekogumi korral. Need väärtused jäävad väljapoole andmete üldist suundumust. Andmekogumi hoolikas uurimine kõrvalnähtude otsimiseks põhjustab teatavaid raskusi. Kuigi on lihtne näha, kasvõi stemplotti kasutades, et mõned väärtused erinevad ülejäänud andmetest, siis kui palju erinevat väärtust tuleb pidada väliseks? Vaatleme konkreetset mõõtmist, mis annab meile objektiivse standardi selle kohta, mis kujutab endast kõrvalekallet.

Kvartalitevaheline vahemik

kvartiilidevaheline vahemik just seda saame kasutada, et teha kindlaks, kas äärmuslik väärtus on tõepoolest kõrvaline väärtus. Kvartalidevaheline vahemik põhineb osal viiekohaline kokkuvõte andmekogu, nimelt esimene ja kolmas kvartiil. Kvartalidevahelise vahemiku arvutamine hõlmab ühte aritmeetilist operatsiooni. Kvartalitevahelise vahemiku leidmiseks peame tegema ainult esimese kvartiili lahutamise kolmandast kvartiilist. Tekkinud erinevus näitab meile, kui lai on meie andmete keskmine pool.

instagram viewer

Kõrvaliste väärtuste kindlaksmääramine

Kvartalitevahelise vahemiku (IQR) korrutamine 1,5-ga annab meile võimaluse kindlaks teha, kas teatud väärtus on kõrvalekalle. Kui lahutame esimesest kvartiilist 1,5 x IQR, loetakse kõik sellest väärtusest väiksemad andmeväärtused väliseks. Sarnaselt, kui lisame kolmandale kvartiilile 1,5 x IQR, loetakse kõik sellest väärtusest suuremad andmeväärtused väliseks.

Tugevad kõrvalnähud

Mõned kõrvalnähud näitavad ülejäänud andmestikust äärmist kõrvalekallet. Sellistel juhtudel võime astuda samme ülalt, muutes ainult IQR-iga korrutatavat arvu ja määratledes teatud tüüpi väliste väärtuste. Kui lahutame esimesest kvartiilist 3,0 x IQR, nimetatakse kõiki punkte, mis on sellest arvust allapoole, tugevaks väliseks. Samamoodi võimaldab 3,0 x IQR lisamine kolmandale kvartiilile määratleda tugevad kõrvalekalded, vaadates punkte, mis on sellest arvust suuremad.

Nõrgad kõrvalnähud

Tugevate kõrvalnähtude kõrval on kõrvaliste kategooriate hulgas veel üks kategooria. Kui andmeväärtus on kõrvaline, kuid mitte tugev, siis ütleme, et väärtus on nõrk. Vaatleme neid mõisteid, uurides mõnda näidet.

Näide 1

Esiteks oletame, et meil on andmekogum {1, 2, 2, 3, 3, 4, 5, 5, 9}. Number 9 näeb kindlasti välja, et see võiks olla võõras. See on palju suurem kui ükski teine ​​väärtus ülejäänud komplektist. Objektiivseks määramiseks, kas 9 on kõrvalekalle, kasutame ülaltoodud meetodeid. Esimene kvartiil on 2 ja kolmas kvartiil on 5, mis tähendab, et kvartiilidevaheline ulatus on 3. Korrutame kvartiilidevahelise vahemiku 1,5-ga, saades 4,5, ja siis lisame selle arvu kolmandaks kvartiiliks. Tulemus 9,5 on suurem kui ükski meie andmetest. Seetõttu puuduvad kõrvalekalded.

Näide 2

Nüüd vaatleme sama andmekogumit nagu varem, erandiga, et suurim väärtus on 9, mitte 10: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Esimene kvartiil, kolmas kvartiil ja kvartiilide vahemik on identsed näitega 1. Kui lisame kolmandale kvartiilile 1,5 x IQR = 4,5, on summa 9,5. Kuna 10 on suurem kui 9,5, peetakse seda kõrvaliseks.

Kas 10 on tugev või nõrk? Selleks peame vaatama 3 x IQR = 9. Kui lisame kolmandasse kvartalisse 9, saame lõpuks summa 14. Kuna 10 ei ole suurem kui 14, pole see tugev kõrvalseis. Seega järeldame, et 10 on nõrk kõrvalseis.

Kõrvaliste väärtuste tuvastamise põhjused

Peame alati olema tähelepanelikud kõrvalekallete osas. Mõnikord on nende põhjuseks tõrge. Teinekord osutavad piirväärtused varem tundmatu nähtuse esinemisele. Veel üks põhjus, miks peame kõrvalekallete kontrollimiseks olema hoolikad, on kõigi põhjuste tõttu kirjeldav statistika mis on tundlikud kõrvalnähtude suhtes. Keskmine, standardhälve ja korrelatsioonikordaja paarisandmed on vaid mõned seda tüüpi statistikat.