Tegelikult ei ole reeglit, kui palju klasse peaks olema. Klasside arvu osas tuleb arvestada paari asjaga. Kui oleks ainult üks klass, siis langeksid kõik andmed sellesse klassi. Meie histogramm oleks lihtsalt üks ristkülik, mille kõrgus oleks antud meie andmestiku elementide arvu järgi. See ei oleks väga kasulik või kasulik histogramm.
Teises äärmuses võiks meil olla palju klasse. Selle tulemuseks oleks palju tulpe, millest ükski poleks tõenäoliselt väga pikk. Seda tüüpi histogrammi abil oleks andmete põhjal väga raske eristada karakteristikuid.
Nende kahe äärmuse eest kaitsmiseks on meil histogrammi klasside arvu määramiseks rusikareegel. Kui meil on suhteliselt väike andmekogum, kasutame tavaliselt ainult umbes viit klassi. Kui andmekogum on suhteliselt suur, siis kasutame umbes 20 klassi.
Veelkord rõhutage, et see on rusikareegel, mitte absoluutne statistiline põhimõte. Erinevate klasside arvu saamiseks andmete jaoks võib olla hea põhjus. Selle näite näeme allpool.
Enne mõne näite kaalumist näeme, kuidas teha kindlaks, millised klassid tegelikult on. Alustame seda protsessi leidmisega
vahemik meie andmetest. Teisisõnu lahutame kõrgeimast andmeväärtusest madalaima andmeväärtuse.Kui andmekogum on suhteliselt väike, jagame vahemiku viieks. Jagaja on meie histogrammi klasside laius. Tõenäoliselt peame selles protsessis tegema mõned ümardamised, mis tähendab, et klasside koguarv ei pruugi lõpuks olla viis.
Kui andmekogum on suhteliselt suur, jagame vahemiku 20-ga. Nii nagu varem, annab see jagamisprobleem meile histogrammi jaoks klasside laiuse. Nagu nägime ka varem, võib meie ümardamine põhjustada pisut rohkem või vähem kui 20 klassi.
Mõlemal suurel või väikesel andmestikul anname esimese klassi alguses punkti, mis on pisut väiksem kui väikseim andmeväärtus. Peame seda tegema nii, et esimene andmete väärtus langeb esimesse klassi. Muud järgnevad klassid määratakse laiuse järgi, mis määrati vahemiku jagamisel. Me teame, et oleme viimases klassis, kui see klass sisaldab meie kõige suuremat andmeväärtust.
Näite jaoks määrame andmekogumi jaoks sobiva klassi laiuse ja klassid: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Näeme, et meie komplektis on 27 andmepunkti. See on suhteliselt väike komplekt ja seega jagame vahemiku viieks. Vahemik on 19,2 - 1,1 = 18,1. Jagame 18,1 / 5 = 3,62. See tähendab, et klassi laius oleks 4. Meie väikseim andmeväärtus on 1,1, seega alustame esimest klassi sellest väiksemast punktist. Kuna meie andmed koosnevad positiivsetest arvudest, oleks mõistlik lasta esimesel klassil minna vahemikku 0 kuni 4.
Oletame, et selle ühe näite jaoks on valikvastustega test, milles on 35 küsimust, ja testi võtab vastu keskkooli 1000 õpilast. Soovime moodustada histogrammi, mis näitab nende õpilaste arvu, kes said katsel teatud hinded. Me näeme, et 35/5 = 7 ja see 35/20 = 1,75. Hoolimata meie rusikareeglist, mis annab meile histogrammi jaoks valida klassid laiusega 2 või 7, võib olla parem, kui klassid on 1. laiusega. Need klassid vastavad igale küsimusele, millele õpilane vastas testis õigesti. Neist esimene oleks koondatud nulli ja viimane - 35.