Despre fetiș - un singur punct de eșec, despre NetApp

Practica de a construi sisteme extrem de disponibile, în special IT, există conceptul de „punct unic de eșec“ (SPOF, singur punct de defecțiune). Orice sistem de disponibilitate ridicată a datelor tinde să nu aibă în dvs. arhitectura site-ului, link-ul sau un obiect a cărui eșec ar putea aduce în jos întregul sistem, sau poate cauza inaccesibilitatea de date.

Toate acest lucru este adevărat. Cu toate acestea, am observat că, în ultimii ani, în special în shnoy IT-mediu a apărut un fel de „fetishirovanie“ aici este „nici un punct unic de eșec.“ Se crede că pe scară largă „absența unui singur punct de eșec“ este sinonim cu „bun“ și „sistem de drept“ și prezența ei - „sistem greșit“ „rău“ și Și în acest studiu pe capetele de corectitudine arhitecturale. Cu toate acestea, la fel ca în orice alt caz, acesta este, de fapt, se află oarecum mai profundă.

Faptul că „nici un punct unic de eșec“ este un „instrument“ pentru a obține o disponibilitate ridicată, dar nu o „țintă“. „Nu SPOF“ este unul dintre mijloacele de realizare a accesibilității, dar nu și disponibilitatea, ca atare, reprezintă unul dintre, nu un scop, de multe ori o condiție necesară, dar nu suficientă.

Ei bine, în acest caz, de fapt, ea determină caracterul adecvat al soluției?

Se pare că acesta îndeplinește cerințele RPO / RTO pentru provocările de afaceri specifice.

termeni RPO / RTO sunt bine cunoscute specialiștilor în domeniul protecției datelor și de rezervă. RPO, Punct de retur Obiectiv - este „punctul de disponibilitate a datelor“, în caz de pierdere a acestora. RTO, timp de revenire Obiectiv - de data aceasta, care neohodimo sistem pentru a restabili funcționarea, întreținerea și reînnoirea.

Să presupunem că aveți date pierdute, le restaura de la o copie de rezervă, din ultimele 21 de ore ale zilei. Recuperare Baza de date a durat 40 de minute. Dacă se execută o bază de date, atunci încă mai trebuie să actualizeze starea de jurnalele de arhivă, Nakata modificările apărute de la ora 21:00 la ora actuală. Să presupunem că a durat 15 minute. Total, RTO, în cazul dumneavoastră - 55 de minute.

Bine sau rău? Nu se poate răspunde în termeni de IT. Răspunsul este de a oferi o afacere pe care le servesc. Pentru unele sarcini chiar și 10 de minute de nefuncționare foarte mult. Unii destul de pregătit să aștepte câteva ore, iar unele sarcini pot sta foarte bine pentru o zi, nimic rău nu se va întâmpla. Exchange picătură NYSE poate fi plină de panică în economia mondială. Căderea ATM serviciu de rețea al unei mari bănci, care este de 10 minute perioada de nefuncționare ar putea ocupa de zeci de mii de apeluri „fizica“, nu este în panică, dar încă foarte neplăcut. Un homepages hosting ar putea culca și noapte cu mesajul „Ne pare rău, locul de muncă este în curs de desfășurare“, în cel mai bun caz, clienții plătesc o penalizare de ore de mers în gol.

Desigur, afacerea va necesita o RPO de zero / RTO, este întotdeauna cazul, acestea sunt întotdeauna necesare. ) Rețineți, totuși, că toate costurile de bani, și fiecare îmbunătățire în indisponibilitatea costă bani, și de multe ori creste exponential fiecare imbunatatire ulterioara a acestor parametri ar costa de afaceri mai mult și mai scumpe.

Prin urmare, de regulă, de afaceri și IT, de obicei, vin la un compromis. Acest compromis este, de obicei, segmentate în funcție de sarcină. Dar, în cele din urmă de afaceri și IT, împreună produc unele cerințe RPO / RTO.

Și un sistem care îndeplinește aceste cerințe, sistemul satisface aceste cerințe de afaceri pentru bani primelemye de afaceri - este un sistem bun. Un sistem care nu le satisface - rea.

Vă rugăm să rețineți că, în opredennyh meu „rău“ și „bun“ sistem, nu am folosit conceptul de „nici un singur punct de eșec“, la toate.

Ar putea fi bun, care este, pentru a satisface cerințele de business ale RPO / RTO, sistemul cu prezența unui „punct unic de eșec“? Da cu ușurință. În cazul în care perioada de recuperare a sistemului se încadrează în setul cadru - astfel încât să nu fie cât mai multe puncte de eșec. În special, în cazul în care eliminarea în rezolvarea tuturor „punct unic de eșec“ punct de vedere economic, pentru că prea scump pentru problemele de afaceri sunt rezolvate.

Rețineți că fiabilitatea este dependentă de mai mulți factori și mulți participanți parametru complex. Crearea de stocare storadzha ultra-fiabile nu va face extrem de fiabil dvs. IT-sistem în cazul în care acest grup ultra-fiabile, cu nici un singur punct de eșec, și FC dual Fabric conectat server de încredere, fără clustering și cu contract de servicii expirat, efectuați cererea de afaceri reală și de afaceri -funcție. Amintiți-vă că la fel ca și în cazul escadrilei Marine, rata care este determinată de viteza de cel mai lent navei în ea, fiabilitatea sistemelor IT este determinat de fiabilitatea veriga cea mai slabă în ea. și nu foarte fiabile.

Fiabilitatea este nici un „glont magic“, deoarece nu există nici o garanție absolută. Iar prezența sau absența unui „punct unic de eșec“ din partea ta din IT-sisteme nu pot afecta fiabilitatea sistemului de afaceri în ansamblul său. Tu ar trebui să arate întotdeauna mai adânc, și a stabilit în sine scopul, dacă cerințele sunt îndeplinite la RPO / RTO, de afaceri necesar, și cât de mult costă. Și este posibil pentru același preț sau mai ieftin, pentru a găsi o soluție care îmbunătățește viteza și cum.

Și nu fetishirovat doar unul dintre multele instrumente pentru atingerea acestui obiectiv.

articole similare