Estimarea densității distribuției

Modelele de clasificare Bayesiene se bazează pe cunoașterea probabilităților a priori ale claselor și a legilor de distribuire a probabilităților de atribute în fiecare clasă. În practică, știm doar eșantionul de pregătire a obiectelor. Vom considera elementele eșantionului drept variabile aleatoare independente având aceeași distribuție. Din eșantion este necesar să se estimeze densitatea acestei distribuții.

Este necesar să se estimeze densitatea distribuției dintr-un eșantion de vectori independenți distribuiți în conformitate cu această lege.

Există trei abordări principale pentru estimarea densității de distribuție: nonparametric, parametric și recuperarea amestecurilor de distribuții.

Reducerea densității neparametrice

Presupunem că forma generală a funcției de distribuție este necunoscută, doar anumite proprietăți sunt cunoscute - de exemplu, funcția este netedă și continuă. Apoi se utilizează metode non-parametrice de estimare a densității.

Construiți o funcție care aproximează o funcție necunoscută într-un anumit sens.

Metoda de estimare a histogramei

Ideea. dacă este densitatea unui vector aleator, atunci, unde, este măsura regiunii. Dacă - eșantionare, - numărul de eșantioane în, atunci

Prin urmare, estimarea densității.

  1. Vom găsi o regiune limitată de spațiu (spațiu obiect) care conține toate vectorii din eșantionul de formare;
  2. Împărțim în domenii disjuncte;
  3. dacă - numărul de elemente ale eșantionului de formare aparținând domeniului, atunci

unde este măsura regiunii.

Evaluarea va fi în concordanță cu o anumită alegere. Din păcate, nu există un mod universal de selectare a unor zone astfel încât estimarea să fie consecventă.

Metode de estimare locală

Ideea. Pentru a estima densitatea într-un punct, cu ajutorul elementelor din eșantionul de formare care au căzut în unele cartiere.

Fie o secvență de probe de vectori aleatori independenți, o secvență de domenii care conțin un punct, numărul de valori ale eșantionului eșantionat care intră în domeniu.

Teorema. Dacă funcția este continuă într-un punct, toate regiunile conțin un punct și îndeplinesc condițiile

atunci funcția va fi o estimare imparțială, asimptotic eficientă și consistentă a densității la un punct.

Există două abordări de bază pentru selectarea zonelor care conțin un punct:

  1. metoda ferestrei Parzen. se presupune că sunt domenii obișnuite a căror dimensiune satisface condițiile teoremei, pe baza căreia se determină un număr.
  2. k cea mai apropiată metoda vecinilor. Nu sunt zone fixe și număr, apoi pentru un punct este definită zona obișnuită care conține cel mai apropiat punct.

Metoda de estimare prin aproximarea funcției de densitate

Ideea. funcția este aproximată printr-un sistem de funcții de bază - estimarea este căutată în formă

Coeficienții sunt aleși în așa fel încât eroarea de aproximare să fie minimă, adică

De fapt, în locul unei serii infinite (1), este luată în considerare o sumă finită a primilor termeni.

De regulă, este considerat un sistem ortogonal al funcțiilor de bază, folosind polinomii Legendre, Chebyshev, Hermite, Lagrange, Laguerre și așa mai departe.

Restabilirea parametrică a densității

Dacă forma generală a funcției de distribuție a vectorului aleator ξ este cunoscută în sensul că forma exactă a funcției este determinată complet de un set de parametri care pot fi estimați din eșantionul de formare, se aplică metodele de estimare a densității parametrice.

Știm forma generală a funcției de distribuție a unui vector aleator, care depinde de vectorul parametru. Este necesar din eșantionul de formare a valorilor vectorilor să se obțină estimarea vectorilor.

Metoda maximă de probabilitate

Ideea. găsiți un vector de parametri astfel încât

Să presupunem că densitatea are forma unei distribuții normale multidimensionale:

Apoi estimările parametrilor și utilizarea metodei probabilității maxime din eșantion au următoarea formă

Ideea. dacă este densitatea distribuției unui vector aleator, atunci momentele ordinii i sunt egale (presupunem că):

Evaluarea poate fi găsită din eșantion:

Estimarea poate fi găsită din sistemul de ecuații:

Dacă dependența este continuă, atunci este o estimare consistentă.

Restaurarea amestecurilor de distribuții

Dacă "forma" de clase are o formă destul de complexă care nu este "supusă" descrierii printr-o singură distribuție, atunci se folosesc metode de reconstrucție a amestecurilor de distribuții - descriu clasa prin mai multe distribuții.

Să presupunem că densitatea distribuției are forma unui amestec de distribuții:

unde este densitatea de distribuție a componentei i a amestecului, este probabilitatea sa a priori. Funcțiile de probabilitate aparțin familiei parametrice de distribuții și diferă numai în valorile parametrului.

O probă este cunoscută - sunt cunoscute observațiile aleatorii independente dintr-un amestec, un număr și o funcție. Este necesar să se găsească o estimare a parametrilor.

Ideea. introduce artificial un vector de variabile ascunse, care are următoarele proprietăți:

  1. Acesta poate fi calculat dacă sunt cunoscute valorile vectorului parametru;
  2. căutarea maximă a probabilității este mult simplificată dacă sunt cunoscute valorile variabilelor ascunse.

Algoritmul EM constă într-o repetare iterativă a două etape. La pasul E, valoarea așteptată a vectorului variabilelor ascunse se calculează prin aproximarea curentă a vectorului parametru. La etapa M se rezolvă sarcina de maximizare a probabilității (maximizare) și următoarea aproximare a vectorului se obține din valorile curente ale vectorilor și.

Iterațiile se opresc când valorile funcționale, unde

sau variabilele ascunse încetează să se schimbe în mod semnificativ. Este mai convenabil să controlați variabilele ascunse, deoarece acestea au un sentiment de probabilitate și ia valori din intervalul [0, 1].

"Probleme" rezultate din implementarea algoritmului EM

  • Problema alegerii aproximării inițiale. Deși algoritmul EM converge sub ipoteze suficient de generale, rata de convergență poate depinde în mod substanțial de alegerea "bună" a aproximării inițiale. Convergența este mai gravă atunci când se face o încercare de a plasa mai multe componente într-o singură grupă de distribuție sau de a plasa componenta în mijloc între cheaguri.
  • Problema alegerii numărului de componente. Până în prezent sa presupus că numărul de componente este cunoscut în prealabil. În practică, acest lucru nu este de obicei cazul.

Un algoritm EM cu adăugarea secvențială de componente permite rezolvarea ambelor probleme. Ideea acestei metode este după cum urmează. Având un anumit set de componente, este posibil să selectați obiectele care sunt descrise mai greșit de un amestec - ele sunt obiecte cu cele mai mici valori de probabilitate. Pentru aceste obiecte se construiește o altă componentă. Apoi se adaugă la amestec și se lansează iterațiile EM, astfel încât noua componentă și cele vechi sunt "frecate împreună". Aceasta continuă până când toate obiectele sunt acoperite cu componente.

Trei abordări ale problemei de estimare a densității distribuției au fost luate în considerare: nonparametrice, parametrice și separarea amestecurilor. Fiecare dintre ele este aplicată cu anumite cunoștințe a priori despre densitatea distribuției. Metodele de reconstrucție parametrice sunt utilizate dacă forma funcției de distribuție este cunoscută până la un set de parametri care sunt estimate de eșantionul de formare. Metodele nonparametrice nu mai necesită cunoașterea funcției de distribuție cu precizia parametrilor, ci numai anumite proprietăți ale funcției, de exemplu, continuitatea sau netezirea. Dacă forma claselor are o formă mai degrabă "complexă" care nu poate fi descrisă printr-o singură distribuție, atunci se utilizează metode de separare a amestecurilor atunci când se presupune că într-o clasă densitatea de distribuție este un amestec de mai multe distribuții.

În ciuda faptului că, parcă toate abordările au domenii diferite de aplicabilitate și folosesc diferite metode de formare, se pot distinge asemănările dintre ele. Estimările densității nonparametrice pot fi considerate ca fiind cazul limitator al unui amestec de distribuții în care exact o componentă cu o probabilitate a priori și o densitate sferică cu un centru la un punct corespunde fiecărui obiect de învățare. Pe de altă parte, abordarea parametrică este, de asemenea, o situație extremă a unui amestec - când se ia numai o singură componentă. Astfel, toate cele trei abordări diferă, în primul rând, de numărul de componente aditive din modelul de distribuție :. Aceasta duce la diferențe calitative în metodele de predare. Cerințele pentru forma componentelor sunt slăbite pe măsură ce crește numărul acestora. Revenirea unui amestec dintr-un număr arbitrar de componente ale k este, aparent, cea mai comună abordare în clasificarea Bayesiană.

Consultați și instrucțiunile metodice de utilizare a Resurselor MachineLearning.ru în procesul educațional.