Minimalizare a riscului empirică

risc empirica (Risc empirica) - este media erorii algoritmului de pe setul de antrenare.

Metoda de minimizare a riscurilor empirice (empirice de reducere a riscului, ERM) - aceasta este o abordare comună pentru rezolvarea unei clase largi de probleme de formare pe precedente. în primul rând - de formare sarcini cu profesorul. inclusiv sarcinile de clasificare și de regresie.

defini

Sarcina de formare pe precedente

Să - mai multe descrieri ale obiectelor - setul de răspunsuri posibile. Se presupune că există o dependență țintă necunoscută - spectacole: \ „/>, ale căror valori sunt cunoscute numai în ultimele site-uri eșantion de formare.

de precedente sarcina de predare este de a construi un algoritm care ar aduce dependență țintă necunoscută ca celula de probă, și pe întregul set.

pierderile și funcția de risc empiric

Prezentați funcția pierderilor care caracterizează valoarea de răspuns a abaterii de la răspunsul corect la un obiect arbitrar.

algoritmi modelul introdus, în care va fi cautat de afișare care aproximează dependența țintă necunoscută.

risc empiric - este calitatea funcționalitatea care caracterizează eroarea medie a algoritmului pe un eșantion:

Metoda de minimizare a riscului empiric este pentru un anumit model de algoritmi pentru a găsi un algoritm care furnizează valoarea minimă a riscului empiric funcțional:

Funcții de pierdere Specii

În probleme de clasificare, alegerea cea mai naturală este pierderea funcției de prag

Când funcția este pierderea discontinuă, minimizarea riscului empiric este un complex de probleme de optimizare combinatorie. În multe cazuri de importanță practică, acest lucru se reduce la găsirea subsistemului maxim consecvent în sistemul inegalităților (număr inegalități coincide cu numărul de obiecte de studiu) și este NP -Complet.

Împreună cu pragul de pierdere fuktsii folosit tot felul de aproximare continuă. acesta poate fi folosit metode clasice destul de eficiente de îmbunătățire continuă, inclusiv metode de gradient. Mai mult decât atât, se pare că utilizarea anumitor aproximări capabile să îmbunătățească performanța generalizare a algoritmului de clasificare. aproximări continue Mai multe detalii sunt discutate în articolul „clasificatorul liniar“.

În probleme de regresie alegerea cea mai comună este o funcție pierdere pătratică

Avantaje și dezavantaje ale metodei

Principalul avantaj constă în faptul că aceasta este o abordare constructivă și flexibilă, ceea ce reduce problema de învățare la problemele de optimizare numerică.

Principalul dezavantaj - fenomenul de re-educare. care apare aproape întotdeauna atunci când se utilizează metoda minimizării riscului empiric.

Soiurile de modele de algoritmi

  • Modelul de clasificare liniar
  • Linear Model de regresie
  • Modelul de clasificare non-linear
  • Modele de regresie non-liniară

literatură