Quantiilide mõistmine: mõisted ja kasutusalad

Kokkuvõtlik statistika, näiteks mediaan, esimene ja kolmas kvartiil on positsiooni mõõtmised. Põhjuseks on see, et need numbrid näitavad, kus on kindel osa andmete jaotusest. Näiteks mediaan on uuritavate andmete keskmine positsioon. Pooltel andmetel on väärtused vähem kui mediaanil. Samamoodi on 25% -l andmetest väärtused vähem kui esimeses kvartiilis ja 75% -l andmetest on väärtused väiksemad kui kolmandas kvartiilis.

Seda mõistet saab üldistada. Üks viis selleks on kaaluda protsentiilid. 90. protsentiil näitab punkti, kus 90% protsenti andmetest on sellest arvust väiksemad väärtused. Üldisemalt lkkümnes protsentiil on arv n mille jaoks lk% andmetest on alla n.

Pidevad juhuslikud muutujad

Kuigi mediaani, esimese kvartiili ja kolmanda kvartiili järjekordade statistika võetakse tavaliselt kasutusele a-ga Diskreetse andmekogumiga seadistades saab seda statistikat määratleda ka pideva juhu korral muutuja. Kuna töötame pideva jaotusega, kasutame integraali. lkkümnes protsentiil on arv n selline, et:

instagram viewer

-₶nf ( x ) dx = lk/100.

Siin f ( x ) on tõenäosustiheduse funktsioon. Nii võime saada mis tahes protsentiili, mida me a jaoks vajame pidev levitamine.

Quantiles

Veel üks üldistus on märkida, et meie tellimuste statistika jagab jaotuse, millega me töötame. Mediaan jagab andmekogumi pooleks ja pideva jaotuse mediaan ehk 50. protsentiil jagab jaotuse pindala järgi pooleks. Esimene kvartiil mediaan ja kolmas kvartal jaotavad meie andmed neljaks tükiks, igas numbris sama arv. Ülaltoodud integraali abil saame 25., 50. ja 75. protsentiili ja jagada pidev jaotus neljaks võrdse pindalaga osaks.

Saame selle protseduuri üldistada. Küsimusele, millest võime alustada, antakse naturaalarv n, kuidas jagada muutuja jaotust n võrdse suurusega tükid? See puudutab otseselt kvantide ideed.

n Andmekogumi kvantid leitakse ligikaudselt, järjestades andmed järjekorras ja jagades seejärel selle paremusjärjestuse läbi n - 1 võrdse vahega punkt vahemikus.

Kui meil on tõenäolise tiheduse funktsioon pideva juhusliku muutuja jaoks, siis kasutame ülaltoodud integraali kvantide leidmiseks. Sest n kvantid, me tahame:

  • Esimesed, kellel on 1 /n sellest vasakul asuva jaotuse pindala.
  • Teine, kellel on 2 /n sellest vasakul asuva jaotuse pindala.
  • rth olema r/n sellest vasakul asuva jaotuse pindala.
  • Viimane, kellel on (n - 1)/n sellest vasakul asuva jaotuse pindala.

Me näeme seda mis tahes naturaalarvu korral n, n kvantid vastavad 100-ler/ntuhat protsentiili, kus r võib olla ükskõik milline naturaalarv vahemikus 1 kuni n - 1.

Tavalised kvantiilid

Teatud tüüpi kvantereid kasutatakse piisavalt sageli, et neil oleks kindlad nimed. Allpool on loetelu neist:

  • 2 kvantiili nimetatakse mediaaniks
  • Neid kolme kvantiili nimetatakse terciilideks
  • 4 kvantiili nimetatakse kvartiilideks
  • Viie kvantiili nimetatakse kvintiilideks
  • Neid 6 kvantiili nimetatakse sekstiilideks
  • Neid 7 kvantiili nimetatakse septiles
  • Neid 8 kvantiili nimetatakse oktiilideks
  • 10 kvantiili nimetatakse detsiilideks
  • Neid 12 kvantiili nimetatakse duodetsiilideks
  • 20 kvantiili nimetatakse vigintiilideks
  • 100 kvantiili nimetatakse protsentiilideks
  • 1000 kvantiili nimetatakse permiilideks

Muidugi, lisaks ülaltoodud loetelus on ka teisi kvante. Mitu korda vastab konkreetne kasutatud kvantiil pideva proovi suurusele levitamine.

Kvantiilide kasutamine

Lisaks andmekogumite asukoha täpsustamisele on kvantid abiks ka muul viisil. Oletame, et meil on populatsiooni juhuslik valim ja populatsiooni jaotus pole teada. Et aidata kindlaks teha, kas selline mudel nagu normaaljaotus või Weibulli jaotus sobib hästi meie valimisse kuuluva populatsiooni jaoks, saame vaadata oma andmete ja mudeli kvante.

Sobitades meie prooviandmete kvantid konkreetse konkreetse kvantitidega tõenäosusjaotus, on tulemuseks paaritud andmete kogum. Joonistame need andmed hajutatud graafikusse, mida nimetatakse kvantiils-kvantitaalseks graafiks või q-q graafikuks. Kui tulemuseks olev hajutatud graafik on enam-vähem lineaarne, sobib mudel meie andmete jaoks hästi.

instagram story viewer