Persoana poate învăța abilitățile, doar încercând să le închidă. (Seneca)
Principiul optimalitate Bellman ne permite să rezolve sau să înțeleagă multe probleme interesante care apar în viața reală, de exemplu, problema exploatării raționale a companiilor generatoare (TPP, SHE), alegerea compoziției rentabilă a unităților, și altele.
Atunci când funcționează stațiile hidroelectrice și centralele termice, devine necesar să se oprească periodic unitățile atunci când sarcina este redusă și unitățile care sunt în rezervă sunt activate atunci când crește sarcina. Includerea în exploatarea anumitor agregate afectează cantitatea și plasarea rezervelor de sistem, modul de rețea electrică, fluxul între liniile de alimentare inter-sistem, consumul de combustibil și așa mai departe.
Dacă pe stații există n unități și fiecare poate fi pornit sau oprit, atunci întregul set de toate opțiunile de lucru cu orice putere va fi de 2 la puterea lui n.
Chiar și pentru n = 50, numărul de opțiuni devine foarte mare!
În general, astfel de probleme sunt non-lineare, întregi, multi-extremați, compoziția agregatelor este afectată de modul de rețele electrice, care trebuie evaluat și prezis prin metode statistice. Pentru a rezolva astfel de probleme, un aparat matematic obișnuit nu este potrivit.
În cazul special, metodele de programare dinamică permit rezolvarea problemelor similare cu numărul de agregate de ordinul 20-30.
Dăm exemple de probleme în care principiul programării dinamice funcționează eficient și ne permite să găsim soluția optimă.
Sarcina privind programul de funcționare este o centrală electrică. Stația are unități L, performanța unei unități și prețul unitar al energiei electrice generate sunt cunoscute.
Programarea puterii electrice plătite este stabilită, energia electrică generată redundant nu este plătită.
Există cheltuieli cunoscute pentru întreținerea unităților de lucru, costurile pentru conservare și costurile de înființare. Este necesar să se determine modul optim de funcționare.
Problemele alocării investițiilor și resurselor sunt interesante.
Problema alocării de investiții: există mai multe întreprinderi, între care doriți să alocați această sumă de investiție. Este cunoscută eficiența investirii acestei sume de fonduri în fiecare întreprindere.
Problema alocării resurselor: există întreprinderi N, fiecare realizând venituri, în funcție de cota resurselor alocate. Cea mai bună modalitate este de a distribui o resursă limitată a între ele cu o fracție x 1. xN (x 1 ≥ 0. xN ≥ 0, x 1 +. + X N ≤ a).
Sarcina celei mai bune încărcături de transport: transport, cu capacitate de transport a. încărcături încărcate de tipuri N. Fiecare tip de marfă are un cost de yi și o greutate de zi.
Este necesar să se găsească opțiunea optimă de încărcare, în care costul elementelor luate la bord este maxim.
Sarcina de a înlocui mașina: o companie de transporturi de marfă intenționează să cumpere o mașină și să o exploateze timp de N de ani.
Puteți cumpăra fie o mașină nouă vârstă x 0 = 0 ani și cost p. sau a fost în serviciu vârsta x 0> 0 ani la un cost, în funcție de timpul de funcționare.
Indicii de operare a autovehiculelor includ: f (t) - costul produselor fabricate pe an pe echipamentele de vârstă t ani; r (t) - costul de operare în cursul anului mașinii de vârstă t.
În procesul de operare, mașina poate fi vândută la preț lichid și să cumpere una nouă. La sfârșitul vieții, mașina este de asemenea vândută la un preț lichid. Determinați vârsta optimă a mașinii la cumpărare și programul optim pentru înlocuirea acesteia.
Toate aceste și multe alte probleme pot fi rezolvate folosind principiul optimal al Bellman.
Descriim în mod formal principiul Bellman și explicăm sensul acestuia.
Cheia este conceptul unui obiect gestionat, la care se aplică principiul Bellman.
Fie un obiect care variază în timp, pe care se efectuează o acțiune externă u (t) sau control. și x (t) este o descriere a acestui obiect în momentul t.
Dacă controlul este cunoscut până la t1. cunoscând descrierea lui x (t) la momentul t. se poate determina în mod unic valoarea lui x (t) pentru orice t> t1. atunci o astfel de descriere este numită completă.
O descriere completă se numește o stare. setul de stări posibile - spațiul de stare.
Obiectul însuși, admițând posibilitatea unei descrieri complete, se numește un sistem dinamic.
Vom lua în considerare doar momentele discrete ale timpului și, în aceste momente, vom controla sistemul.
Fiecare tranziție de la starea xk la următoarea stare este asociată cu o funcție de cost care depinde de starea xk. timp și control aplicat.
Este necesar să se găsească o astfel de stare inițială și un set de controale admisibile care transferă sistemul într-una din stările finale, astfel încât costurile totale, care reprezintă o funcție de cost aditiv pe etapele individuale, sunt minime.
Deci, la fiecare pas plătim o taxă pentru controlul ales, apoi bordul făcut la fiecare pas este rezumat și rezumat.
Prin urmare, dorim să gestionăm obiectul astfel încât costul total să fie minim.
Aceasta este declarația generală a problemei programării dinamice sau a controlului unui sistem dinamic.
Cu alte cuvinte, avem nevoie de un program de acțiune la fiecare pas, ceea ce ne permite să minimizăm costurile.
Principiul general este formulat după cum urmează: indiferent de modul în care procesul controlat la etapa k a căzut în starea xk. în plus, este necesar să se aplice controlul optim pentru această stare în etapa finală (N - k) luând în considerare continuarea optimă.
Aceasta este una dintre posibilele formulări ale principiului Bellman sub forma unei condiții suficiente.
Fie Yk setul de stări din care (cu ajutorul comenzilor admisibile) se poate obține exact pașii k către una din stările setului final X N.
Putem presupune că Y 0 = X N.
Ia-o xN arbitrar -k ∈Yk și lăsați funcția Sk (xN -k) care descrie dependența costului optim al statului xN -k pentru k ultimele trepte care transformă sistemul de xN -k în X N.
Astfel de funcții sunt numite funcții Bellman.
Deoarece pentru stările xN -1 din setul Y 1 tranziția spre XN are loc într-un singur pas, funcția de cost optimă S 1 (x N -1) poate fi scrisă după cum urmează:
A doua restricție este necesară pentru a garanta realizarea unui anumit set final X N.
Valoarea lui uN. la care se atinge minimul în această relație, denotăm cu u * N (xN-1).
Este ușor de înțeles (face-o!) Că funcția de cost optimă Sk +1 (xN -k -1) pentru fiecare problemă următoare este exprimată recursiv în termeni de Sk anterioare (xN -k)
u * N -k (xN -k-1) este controlul la care se atinge minimul de costuri în (2).
Expresia u * k (xk-1) - determină pentru fiecare moment al timpului regulile optime de control sub forma funcțiilor din starea curentă a procesului dinamic, definește legea controlului optim sub forma unui regulator optim de stare.
Starea inițială optimă x * 0 poate fi obținută din soluția următoarei probleme:
Sistemul (1) - (3) este numit ecuațiile Bellman recurente.
Valorile unui control optim într-o formă explicită pot fi determinate succesiv după cum urmează:
Începem de la starea inițială x0.