Puteți ajuta proiectul completând traducerea.
Histograma gradienților orientați (HOG) - descriptorii punctelor singulare care sunt utilizate în viziunea calculatorului și prelucrarea imaginilor în scopul recunoașterii obiectelor. Această tehnică se bazează pe numărarea numărului de direcții de gradient în zonele locale ale imaginii. Această metodă este similară histogramei direcției de margine. Descriptorii SIFT și contextele formate. dar diferă prin faptul că se calculează pe o rețea densă de celule distribuite uniform și utilizează normalizarea contrastului local suprapus pentru a spori acuratețea.
Teoria [edit]
Ideea principală a algoritmului este presupunerea că aspectul și forma obiectului din zona imaginii pot fi descrise prin distribuirea gradientilor de intensitate sau a direcției marginilor. Implementarea acestor descriptori se poate face prin împărțirea imaginii în zone mici, conectate, numite celule, și calcularea pentru fiecare histogramă de celule a direcțiilor de gradient sau a direcțiilor de margine pentru pixelii din interiorul celulei. Combinația acestor histograme este un descriptor. Pentru a crește precizia, histogramele locale se supun normalizării în contrast. În acest scop, măsura intensității este calculată pe un fragment de imagine mai mare, numit bloc, iar valoarea obținută este folosită pentru normalizare. Descriptorii normalizați au o invarianță mai bună în ceea ce privește iluminarea.
Descriptorul HOG are mai multe avantaje față de alți descriptori. Deoarece HOG funcționează la nivel local, metoda susține invarianța transformărilor geometrice și fotometrice, cu excepția orientării obiectului. Modificările similare vor apărea numai în fragmente mai mari ale imaginii. Mai mult decât atât, așa cum se găsește Dalal și Triggs, partiția aspră a spațiului, un calcul precis al zonelor și normalizarea fotometrice locale puternice de a ignora pietonilor, în cazul în care menține corpul în poziție verticală. Descriptorul HOG este astfel o modalitate bună de a găsi oameni în imagini. [1]
Implementarea algoritmului [edit]
Calculul gradientului [editați]
Primul pas al calculului în multe detectoare de puncte singulare este normalizarea culorilor și corecția gamma. Dalal și Triggs au stabilit că pentru descriptorul HOG acest pas poate fi omis, deoarece normalizarea ulterioară va produce același rezultat. Prin urmare, în prima etapă se calculează valorile de gradient. Metoda cea mai comună este utilizarea unei măști de diferențiere unidimensionale în direcția orizontală și / sau verticală. Această metodă necesită filtrarea componentei de culoare sau luminanță cu ajutorul următoarelor miezuri de filtrare:
Dalal și Triggs au folosit măști mai complexe, cum ar fi Sobel 3x3 (Operator Sobel) sau măști diagonale, dar aceste măști au prezentat performanțe mai scăzute pentru această sarcină. Ei, de asemenea, au experimentat cu estompare Gaussian înainte de a aplica masca diferențiatoare, dar, de asemenea, a constatat că sărind peste acest pas crește performanța fără pierderi vizibile de calitate. [2]
Instrucțiuni de grupare [editați]
Următorul pas este de a calcula histogramele celulelor. Fiecare pixel din celulă participă la votul ponderat pentru canalele de histogramă de direcție pe baza valorii gradienților. Celulele pot fi canale de forma histogramei dreptunghiulare sau circulare, distribuite uniform 0-180 sau de la 0 la 360 de grade, în funcție de faptul dacă calculat „semnul“ sau „unsigned gradientului“. Dalal și Triggs au descoperit că un gradient nesemnificativ împreună cu nouă canale de histogramă oferă rezultate mai bune atunci când recunoaște oamenii. În distribuția greutăților în vot, greutatea unui pixel poate fi specificată fie prin valoarea absolută a gradientului, fie prin o anumită funcție din acesta; în teste reale, valoarea absolută a gradientului oferă rezultate mai bune. Alte opțiuni posibile pot fi o rădăcină pătrată, o valoare pătrată sau o valoare absolută trunchiată a gradientului. [3]
Descriptor blocuri [edita]
Pentru a lua în considerare luminozitatea și contrastul, gradientele ar trebui să fie normalizate local, pentru care celulele trebuie grupate în blocuri conectate mai mari. Descriptorul HOG este astfel vectorul componentelor histogramelor celulare normalizate din toate zonele blocului. De regulă, blocurile se suprapun, adică fiecare celulă introduce mai mult de un descriptor final. Se folosesc două geometrii de bază: dreptunghiulară R-HOG și rotundă C-HOG. Blocurile R-HOG sunt, de obicei, ochiuri pătrate caracterizate prin trei parametri: numărul de celule per bloc, numărul de pixeli per celulă și numărul de canale pe histogramă celulară. În experimentul Dalal și Triggs, parametrii optimi sunt blocuri 16x16, celule 8x8 și 9 canale pe histogramă. Mai mult decât atât, au descoperit că este posibil să se mărească viteza de calcul ușor, aplicând filtrul Gaussian în interiorul fiecărui bloc al procedurii de vot, care, la rândul său, reduce greutatea pixelilor la limitele blocului. Blocurile R-HOG se dovedesc a fi foarte asemănătoare cu descriptorii SIFT; Cu toate acestea, în ciuda structurii lor similare, R-HOG calculat pentru blocurile de ochiuri dense fixe scară fără o direcție fixă, în timp ce cerne-descriptorii sunt calculate în diluat, nu este sensibil la scara punctelor cheie ale imaginii și este utilizat pentru a alinia direcția de rotație. În plus, pentru codificarea informațiilor despre forma obiectelor, blocurile R-HOG sunt utilizate împreună, în timp ce descriptorii SIFT sunt utilizați separat.
Blocurile C-HOG au 2 varietăți: cu o singură celulă centrală și împărțite în sectoare. Aceste blocuri pot fi descrise prin 4 parametri: numărul de sectoare și inele, raza inelului central și coeficientul de expansiune pentru razele inelelor rămase. Dalal și Triggs au descoperit că ambele soiuri au prezentat același rezultat și au împărțit în 2 inele și 4 sectoare cu o rază de 4 pixeli și un factor de expansiune de 2 au dat cel mai bun rezultat experimentului lor. În plus, cântărirea Gaussiană nu a dat nici o îmbunătățire atunci când a folosit unitățile C-HOG. Aceste blocuri sunt similare cu contextele formularului. dar ele au o diferență importantă: blocurile C-HOG conțin celule cu canale multiple de direcție, în timp ce contextele formate utilizează doar o margine. [4]
Normalizarea blocurilor [edit]
Dalal și Triggs au investigat patru metode de normalizare a blocurilor. Fie un vector non-normalizat care conține toate histogramele unui bloc dat, norma lui k pentru u este o anumită constantă constantă (valoarea exactă nu este atât de importantă). Apoi, factorul de normalizare poate fi obținut prin una din următoarele metode:
L2-norma: L2-HYS: L2-norma este limitată de sus (valorile v, 0,2 Bolshie, presupus egal cu 0,2) și renormat, ca în [5] L1-norma: rădăcină al L1-norma:
Dalal și Triggs au constatat că norma L1 oferă rezultate mai puțin fiabile decât celelalte trei, care funcționează aproximativ la fel de bine, dar toate cele patru metode îmbunătățesc semnificativ rezultatele comparativ cu cele ne-normalizate. [4]
Clasificarea SVM [editați]
Ultimul pas în recunoașterea obiectelor folosind HOG este clasificarea descriptorilor utilizând un sistem de învățare cu profesorul. Dalal și Triggs au folosit metoda vectorului de suport (SVM, Vector Machine Support).
Testarea [editați]
Conform rezultatelor cercetării, descriptorii C-HOG și R-HOG produc rezultate comparabile, C-HOG având o proporție puțin mai mică de imagini ignorate cu o proporție fixă de erori de primul tip în ambele seturi de imagini.
Ponderea imaginilor ignorate
Următorul link poate fi folosit pentru a găsi programul DET corespunzător. [2]
Dezvoltare ulterioară [editați]
Vezi și [editați]
Note [editați]
Referințe [editați]
Pentru a îmbunătăți acest articol, este de dorit? :