Numărul optim de intervale histogramei

de colectare a datelor de ieșire:

Numărul optim de intervale HISTOGRAM

Bardasov Sergey Aleksandrovich

Cand. Sci. Stiinte, profesor asociat de la Universitatea de Stat Tyumen, Tyumen

Una dintre ideile principale în statistica este conceptul de funcție a densității de probabilitate (densitate de probabilitate). În legătură cu această problemă importantă este evaluarea acesteia. În acest scop, utilizate în mod obișnuit de histograme. În construcția sa este necesară pentru a determina numărul de intervale (grupe) pentru care cadrul probei va fi rupt. Pentru a face acest lucru folosesc adesea formula Sturgess:

unde - volumul eșantionului. Rezultatul este rotunjit la cel mai apropiat întreg.

La primirea acestui rezultat, se presupune că numărul de probe din grupul i-lea este un coeficient binom

.

Suma coeficienților (grup de frecvențe) este

,

aceasta trebuie să se potrivească cu volumul eșantionului, prin urmare,

.

Logaritmare acestei expresii, obținem formula Sturgess, care este nefondată statistic, dar pe scară largă în literatura de specialitate.

Mai jos considerăm criteriile statistice utilizate pentru a estima numărul de intervale de histogramei sau lungimea lor. sunt utilizate formule asimptotic, adică acestea ar trebui să fie utilizate pentru volume mari de probă.


Minimizarea integrală eroarea medie la pătrat

Este notat printr-o evaluare a funcției adevărate,

Chiar și în [1, p. 189] NV Smirnov a arătat că evaziunea histogramă o densitate program necunoscut descrește. În [3, p. 605] J. Scott pentru a evalua lungimea intervalului de histogramei integrală a minimiza eroarea medie pătrată

,

în cazul în care - punctul varianța - offset punct - un simbol de așteptare.

Următoarea evaluare a fost obținut [3, p. 607]

,

unde - lungimea perioadei de grup.

Minimalizarea primii doi termeni, Scott a primit estimare asimptotic lungimea optimă a intervalului [3, p. 607]

Astfel, spre deosebire de formula numarul Sturgess de sloturi este proporțională în schimb.


De exemplu, obținem pentru distribuția normală

în care deviația standard. Formula (3) este adesea folosit pentru intervalele inițiale lungime de evaluare, indiferent de tipul de distribuție.

Fie funcția adevărata densitate de probabilitate a formei (distribuție liniară):

În acest caz,

Apoi, lungimea optimă a intervalului va fi egal cu

.

Pentru a obține numărul de intervale


Aplicarea criteriului informațional Akaike lui (AIC)

Pentru a estima numărul optim al intervalelor criteriului Akaike [2] este rar folosit. Când această operație este denumit în mod obișnuit Taylor [4]. AIC pentru a evalua numărul optim de intervale histogramei devine

Aici - funcția de probabilitate. Utilizarea factorului 2 în formula (6) este în general acceptată (așa istoric). Funcția de probabilitate pentru histograma are forma

,

unde - numărul de valori eșantion ale variabilei din primul grup;

- lungimea histogramei intervalului. La determinarea funcției de probabilitate noi credem că nu ar trebui să fie grupuri goale și un grup de intervale care sunt egale cu zero.

În cazul unor intervale egale, avem:

în cazul în care - variații leagăn.

Logaritmul natural al funcției de probabilitate este dată de:

în cazul în care - ceea ce privește numărul de grupuri independente.

Fără a lua în considerare valoarea numărului de grupuri independente care substitut (7) în (6), schimba semnul și împărțit la 2. Concluzionăm că, în cazul de intervale egale, numărul optim de grupuri este egal cu:

Luați în considerare intervalele echiprobabile (frecvență egală). În acest caz,

Apoi, în conformitate cu criteriul Akaike, numărul optim de sloturi este egal cu:

Ecuațiile (8) și (9) nu conțin ipoteze privind forma funcțiilor de distribuție de probabilitate, deci neparametrică.

Este de interes pentru a studia dependența numărului de grupe pe dimensiunea eșantionului pentru diferite tehnici. Prin urmare, este oportun să se obțină formule explicite criterii corespunzătoare (8), (9).

Fie funcția densității de probabilitate a formei (4). Luați în considerare cazul de intervale egale. Vom împărți segmentul în părți și se calculează probabilitatea ca valoarea semnului ar fi în intervalul-lea:

.

Prin urmare, numărul de observații în intervalul th ca o estimare. În acest caz,

Apoi, pentru o cantitate dată de date este numărul optim de grupuri de condiții

Analizarea expresiei (10):

Când se ia în considerare simplificările care. Aruncați termenul, care nu depinde de numărul de grupuri. Introducem notația

Apoi, numărul optim de grupuri pentru o dimensiune a eșantionului corespunde expresiei maxime

Diferențierea (11) conform obține că, atunci când un anumit volum al eșantionului număr optim de grupuri se determină din ecuația

.

Conform formulei lui Euler-Maclaurin

în care coeficientul Bernoulli.

Diferențierea și simplificarea, obținem

Conform (12, 13) a numărului optim de intervale histogramei se obține din ecuația


Tabelul 1 prezintă rezultatele evaluării pentru funcția densității de probabilitate (4) prin formulele Sturgess, Scott și (14).


Numărul de intervale de histogramă pentru o funcție de densitate de probabilitate liniară

articole similare