Cum sunt motoarele de căutare

Pentru a începe să răspundă la întrebarea: „De ce caută un fișier de pe computer poate dura câteva minute de timp, precum și motoarele de căutare pe internet sunt toate într-o secundă?“.

În acest articol, vă vom spune cum Yandex, el caută, și modul de a gestiona pentru a realiza un astfel de timp minim de căutare.

Un alt exemplu. Anterior, atunci când nu au existat computere personale, pentru a găsi o carte în bibliotecă, a fost necesar pentru o lungă perioadă de timp pentru a săpa în carte specială de bibliotecă. Și dacă aceste carduri nu au fost? Caută o carte ar consuma mai mult timp.

Și, în sfârșit, al treilea exemplu - este un indice al cărții. Dacă te uiți bine, atunci indicele de ceva de genul un cod poștal. Despre, de asemenea, în căutarea și motorul de căutare, dar există unele diferențe.

1. În indexul de căutare are absolut toate cuvintele, nu doar termenii de specialitate care apar în index obișnuit. În cărțile de index subiect impuse doar cuvinte obișnuite, în timp ce omițând prepoziții, interjecții și particule. Indicele de căutare folosește în mod absolut toate cuvintele.

2. În indicii de căutare au toate trimiterile la cuvintele. În indexul cărții da referiri la folosirea acestor cuvinte de câteva ori. Robotul index de căutare își amintește absolut nici o mențiune, precum și pagina pe care sunt amplasate, numărul de propoziții și cuvinte în această propoziție. Acest lucru este foarte important pentru formarea emisiunii. În plus, în indexul de căutare este încă o mulțime de avantaje, cum ar fi morfologia, forme de cuvinte, etc.

Cum se poate uita la indexul de căutare Yandex? De exemplu, o anumită interogare (muște și modul în care Barmaglot pylkaet foc). În imagine se poate vedea lista cu toate cuvintele, și lângă ei 2 cifre. Prima cifră - este cât de multe dintre cuvintele de pe Internet, iar al doilea - acest lucru este cât de multe acestea sunt utilizate în documentele.

Dacă ne uităm la cuvântul „pylkaet“, va fi clar că acest cuvânt se găsește pe Internet 11.000 de ori în 5000 de documente. Și, de exemplu, cuvântul „și“ se întâlnește o 38 de miliarde. Times. Practic, totul este clar și logic, la urma urmei, „și“ - o uniune care este adesea folosit în limba română. Indexul de căutare este o listă a tuturor documentelor în cazul în care sunt folosite aceste cuvinte, iar apoi problema baza acestor liste.

Cel mai interesant este faptul că pentru emiterea în mod necesar examina toate 38 de miliarde de $. Folosește cuvântul „și“, și veți găsi doar înregistrările oriunde „și“ folosit în legătură cu cuvântul „pylkaet“. Deși, de obicei, Yandex cuvinte similare, care sunt adesea folosite, în general, nu este în căutarea. De obicei, Yandex este în căutarea pentru un pachet de cuvinte utilizate mai rar.

Există un astfel de lucru ca un motor de căutare. In imagine este o fotografie a primului motor de căutare Yandex server. Odată ce se ocupă de toate solicitările din partea utilizatorilor și dezvoltatorii se bucură de fiecare vizitator nou.

Pentru că la acel moment Internetul a fost foarte mic. Oricât de mult ar suna amuzant, dar fraza ca „Descărcați Internet, și apoi casa de onoare lui - era real.“ Apoi, pe un astfel de motor de căutare ar putea găzdui întregul index al motorului de căutare pe Internet. Acum, desigur, Internetul a crescut, și să vorbim despre aceste servere este ridicol. Acum se folosește conceptul de un cluster de căutare.

clusterului de căutare - acest lucru este atunci când întregul Internet este împărțit în anumite părți, iar fiecare parte este plasat pe un anumit server. Se întâmplă ca o parte a site-ului este pe un server, iar a doua parte a site-ului pe de altă parte. Yandex are un mare server separat „Metalpoisk“.

Cum de căutare? Tu Drives o interogare de căutare Yandex. Yandex serverul surprinde cererea, iar apoi distribuie la mii de servere mai mici. Fiecare server arată în fragmentul său. Apoi, fragmentele sunt colectate într-o singură unitate de la serverul de mare și emise pentru utilizator de pe ecran. Serverul, care descompune cererea, denumit în continuare „Metalpoisk“ și servere mai mici - „Basic Search“.

În continuare Anatoli a spus cum să construiască centre de date Yandex.

Anterior Yandex pe tradiția sa de a folosi literele alfabetului starorumynskogo la numărul de servere mici, iar mai târziu sa încheiat scrisoarea nu numai starorumynskogo, dar alfabetul latin. Acum, Yandex a trebuit să se abată de la tradiție și un server numerotat.

În continuare, explică faptul că această reproducere și date centre. Regula de bază a echipamentelor de birou decât său mai mare, cu atât mai des se rupe în jos. În cazul în care Yandex zbura în jos câteva mașini, pur și simplu nu va fi capabil să găsească unele date solicitărilor. Pentru situații similare nu apar în utilizarea Yandex mașini, care sunt numite replici duplicarea. În cazul în care o mașină nu reușește, apoi opriți imediat pe masina de rezervă, care ajută la menținerea sistemului pe deplin operațional. Acest proces se numește replicare. O astfel de replicare există între toate centrele de date companii. În cazul în care se blochează complet întregul centru de date (o cameră în care se află toate serverele), apoi porniți imediat pe un centru de date de rezervă.

Deoarece există un index? În acest scop, Yandex are un robot special care se angajează să pregătirea tuturor indicilor, și apoi le pune într-o căutare.

Cum robotul? Robotul funcționează destul de simplu. Se descarcă toate site-urile de conținut, le împarte în indici, care se răspândește mai târziu pentru a căuta. Prin urmare, informațiile sunt actualizate într-un motor de căutare Yandex nu este instantanee, dar după câteva zile.

Să începem cu faptul că Internetul este fără sfârșit. De fapt, mulți ar fi de acord, dar este un fapt. Oricine poate crea un site web, care va conține o anumită pagină de la un anumit număr, dar sub un anumit număr, el va emite o anumită pagină. Este clar că un număr infinit de pagini care sunt create de oameni, o mulțime de gunoi. robot de sarcină pentru a cerne coșul de gunoi, selectând numai informațiile necesare și utile pentru utilizator.

A doua problemă în roboți - se schimbă site-uri. Robotul vede pe site-ul vine la acest site. Site-ul se aruncă pe un conținut complet diferit. În acest caz, robotul din nou, trebuie să se cerne prin intermediul unor astfel de site-uri.

De asemenea, robotul este necesar pentru a monitoriza site-urile spam care sunt în mod constant încearcă să trișeze sistemul, alpinism artificial la partea de sus a emisiunii.

În concluzie, în acest articol pentru a răspunde la cele mai frecvente întrebări puse.

1. Cum este coada DMOZ pentru a găsi? Vor exista beneficii dacă vă înregistrați site-ul tau in catalog Yandex? Da, există, pe motiv că site-ul în unitatea de catalog în oameni vii, astfel încât robotul cu ajutorul directorul va fi mult mai multe informații despre site. În orice caz, este util pentru SEO.

2. De ce este uneori motor de căutare răspunde diferit la aceeași cerere? Pentru simplul motiv că motoarele de căutare sunt ghidate de ceva, pentru a oferi utilizatorului informații utile. Prin urmare, exemplele de realizare de site-uri de rang pentru utilizatori diferiți, pot fi diferite.

3. Deoarece site-uri sunt împărțite în grupuri? Nu putem spune că site-urile sunt împărțite în grupuri. Împărțit în grupuri de pagini site-uri. Toate acestea se face în scopul de a reduce sarcina pe motorul de căutare. La un moment dat în Yandex a fost un bug. În cazul în care utilizatorii sunt în căutarea prin Yandex Rambler, ei de multe ori nu a putut să-l găsească. Și a fost că toate Rambler, situată pe aceeași mașină. Și când mulți utilizatori apelează la această mașină, este firesc ca momentul întoarcerii sale a crescut, iar utilizatorii nu pot vedea în Rambler motor de căutare. Mai târziu, acest bug-ul a fost stabilit, distribuirea la fiecare server de pe o felie a site-ului.

4. Ce înseamnă „piesele de Internet“ sau „bucăți de un site?“ Astăzi, există un astfel de lucru ca shardirovanie (ciob - o bucată de Internet). În Yandex shardirovanie are loc aproximativ 10 fișiere.

5. Pe măsură ce robotul găsește site-uri noi? Robotul găsește site-uri noi pentru toate sursele posibile. Robotul scanează link-urile lăsate pe alte site-uri care au fost deja indexate. De asemenea, în motoarele de căutare există un buton „Trimite site-ul dvs.“.

6. Care sunt site-urile prioritare pentru mai frecvente roboți de indexare? Este simplu, cu atât mai frecvent un site este actualizat, acesta mai frecvent indici robotului. Dar este necesar să se înțeleagă că antenele motoarelor de căutare nu au timp să indice dintr-o dată, astfel încât acestea trebuie să aleagă site-uri de indexare în funcție de gradul lor de utilitate.

articole similare