Andmete puhastamine sotsioloogia andmete analüüsiks

Andmete puhastamine on andmeanalüüsi ülioluline osa, eriti kui kogute omaenda kvantitatiivseid andmeid. Pärast andmete kogumist peate need sisestama arvutiprogrammi, näiteks SAS, SPSS või Excel. Selle protsessi käigus ilmnevad vead, olenemata sellest, kas seda tehakse käsitsi või arvutiskanneriga. Ükskõik kui hoolikalt andmeid sisestatakse, on vead vältimatud. See võib tähendada ebaõiget kodeerimist, kirjalike koodide valet lugemist, mustade märkide valesti tuvastamist, puuduvaid andmeid jne. Andmete puhastamine on nende kodeerimisvigade tuvastamise ja parandamise protsess.

Andmekogumite puhastamiseks tuleb teha kahte tüüpi andmeid. Need on võimalik koodipuhastus ja eriolukorras puhastamine. Mõlemad on andmeanalüüsiprotsessi jaoks üliolulised, sest kui neid eirata, saate peaaegu alati eksitavaid uuringutulemusi.

Võimalik koodipuhastus

Igal antud muutujal on määratletud vastusevalikute ja koodide komplekt, mis vastavad igale vastusevalikule. Näiteks muutuja sugu on igaühel kolm vastusevalikut ja kood: 1 meestele, 2 naistele ja 0 vastuseta. Kui teil on selle muutuja jaoks kood 6, on ilmne, et on tehtud viga, kuna see pole võimalik vastuskood. Võimalik koodipuhastus on kontrolliprotsess, mille käigus kontrollitakse, kas andmefaili kuvatakse ainult igale küsimusele vastusevalikutele määratud koodid (võimalikud koodid).

instagram viewer

Mõni andmesisestuseks saadaolev arvutiprogramm ja statistiline tarkvarapakett kontrollivad seda tüüpi vigu andmete sisestamise ajal. Siin määratleb kasutaja enne andmete sisestamist iga küsimuse võimalikud koodid. Seejärel, kui sisestatakse number, mis asub väljaspool eelnevalt määratletud võimalusi, ilmub veateade. Näiteks kui kasutaja üritas sisestada soo jaoks 6, võib arvuti piiksuda ja keelduda koodist. Muud arvutiprogrammid on loodud selleks, et testida ebaseaduslike koodide olemasolu lõpetatud andmefailides. See tähendab, et kui neid ei kontrollitud andmesisestuse käigus, nagu äsja kirjeldatud, siis on võimalusi failide kodeerimisvigade kontrollimiseks pärast andmesisestuse lõpetamist.

Kui te ei kasuta arvutiprogrammi, mis kontrollib andmesisestuse ajal kodeerimisvigu, võite mõned vead üles leida, uurides lihtsalt andmete iga üksuse vastuste jaotust seatud. Näiteks võite genereerida muutuja sagedustabeli sugu ja siin näeksite numbrit 6, mis oli valesti sisestatud. Seejärel võiksite seda faili andmefailist otsida ja seda parandada.

Eriolukorra puhastamine

Teist tüüpi ravimid andmed puhastamist nimetatakse eriolukorras puhastamiseks ja see on pisut keerulisem kui võimalik koodipuhastus. Andmete loogiline struktuur võib seada teatavate vastajate vastustele või teatud muutujatele teatud piirid. Erakorraline puhastus on kontroll, mille käigus kontrollitakse, kas selliseid andmeid on tegelikult ainult neil juhtudel, kui peaks olema andmeid konkreetse muutuja kohta. Oletagem näiteks, et teil on küsimustik, milles küsite vastajatelt, mitu korda nad on rasedad olnud. Kõigil naissoost vastajatel peaks olema andmetes kodeeritud vastus. Mehed peaksid aga kas tühjaks jääma või vastamata jätmise korral peaks neil olema spetsiaalne kood. Kui mõni andmetest kodeerib näiteks 3 rasedust, siis teate, et on viga ja see tuleb parandada.

Viited

Babbie, E. (2001). Ühiskonnauuringute praktika: 9. väljaanne. Belmont, CA: Wadsworth Thomson.