Roboții - modul în care lucrează (partea I), ia act de blogger

Acum, citește articolul

„Motoarele de căutare - modul în care acestea funcționează.“

Motoarele de căutare moderne se ocupe de zeci de mii de accesări pe
în al doilea rând. Cum se întâmplă acest lucru?

Roboții la nivel fizic

motor de căutare modernă - este o structură complexă formată din sute de mii, și Google - milioane de servere fizice. Toate informațiile. care sunt stocate, distribuite, și este protejat de centre de date din întreaga lume.

camera de server Yandex

Diagrama logică a motoarelor de căutare

Atunci când un utilizator dorește să găsească ceva de pe Internet. el intră într-o interogare. Această solicitare este procesată „echilibrist de sarcină“ - un dispozitiv specializat care redirecționează automat cererea de utilizator la cel ocupat în momentul în care cluster-ul. Acest lucru permite utilizarea puterii de calcul disponibile cât mai eficient posibil.

Apoi, interogarea de căutare este transmis la „meta“. Acest sistem primește toate informațiile necesare și de a afla ce tip de date se referă cererea. În această etapă, cererea este verificată pentru ortografia, aici este determinată, din care regiunea a primit o cerere și dacă să-l arate la site-urile regionale.

Logica de procesare Yandex cerere

Și acum pentru problema cea mai arzătoare pentru fiecare proprietar al site-ului și de a afla. cum se întâmplă

proces de indexare

Indexarea - este un proces în care motorul de căutare păianjeni „pentru a face excursii“ pe site-urile și colectează paginile lor cu o varietate de informații, și introduceți-l într-o bază de date specială. Aici face cunoștință personală cu ei! 🙂 Apoi, aceste date sunt într-un fel prelucrate, și este construit pe indicele - micșorării documentelor (pagini web). Acesta este indicele de căutări motor de căutare pentru și oferă link-uri către site-urile bazate pe cererile de utilizator.
Luați în considerare exemplul procesului de indexare Yandex. Motorul de căutare există 2 tipuri de roboți: rapid (fast-robot) și de bază.
Sarcina principală a robotului - indexarea întregului conținut, și rapid - intrarea în baza de date a celor mai recente informații. Scheduler pe șenile este de a vizita rute și transmite-l la „păianjen“, care mersul pe jos pe paginile selectate și dezumflă informații de la ei. Dacă în timpul de indexare a documentelor găsite link-uri noi, acestea sunt adăugate la lista generală.

Succesiunea proceselor Yandex indexare.

Documentele din index se încadrează în două moduri:

2) Fie proprietarul site-ului se poate adăuga o adresă URL utilizând un formular special ( „addurilka“) sau prin Yandeks.Metriku instalate pe site. Acest serviciu transmite pagini URL la indexul Yandex. nu se poate instala codul Metrics la un site web sau pentru a dezactiva această opțiune în interfața sa, dacă se dorește.

Și acum ne-am mutat treptat la conceptul de

Viteza de indexare și actualizarea paginilor

În mod ideal, pagina nou creată ar trebui să fie indexate imediat. Cu toate acestea, cantități mari de date fac dificilă pentru a accelera indexarea pagini noi și să actualizeze cele vechi. roboții motoarelor de căutare sunt în mod constant actualizarea bazei de date de căutat, dar pune la dispoziția utilizatorilor, acesta trebuie să fie transferat într-o „căutare de bază“. Baza de date este transferat la incomplet. Sunt excluse pe site-uri, pagini cu spam motor de căutare, și alte nedorite, în funcție de motorul de căutare, și a documentelor. Cu toate acestea, pentru anumite tipuri de informații, cum ar viteza de actualizare este inacceptabilă. Cum ar fi procesul de site-uri de știri de indexare. Recomandate de știri ar trebui să fie disponibile în motorul de căutare aproape imediat după ce acestea sunt adăugate. Pentru a accelera indexarea paginilor de frecvent actualizate și există un „robot de repede.“ care vizitează site-uri de știri de mai multe ori pe zi.

Tipuri de roboți de motoare de căutare

Dintre toate roboți de căutare existente este de a oferi patru principale:
➜➜ robot de indexare
➜➜ imagini robotice
➜➜ site-ul oglindă robotului;
➜➜ robotului sau site-ul care verifică pagina.
Unii roboți străini pot să treacă drept Yandex roboți prin specificarea user-agent adecvat. Puteți verifica autenticitatea
robotului prin identificarea, pe baza inverse DNS-cereri.

Indexarea robotul detectează și indexează pagina pentru a crea baza pentru cercetarea primară. de imaginile robot intră în informațiile de imagine index, care este ulterior afișat în emiterea serviciului în cauză, de exemplu, Yandeks.Kartinki sau Google Images. Robotul, care determină oglinda, verificați site-urile oglinda înregistrate în fișierul robots.txt. Dacă acestea sunt identice, în rezultatele unui motor de căutare este doar un singur site - oglinda principală.

Asta nu te-ar plictisi cu un articol foarte lung, spun doar că

Atunci când este necesar de conducere pentru a evalua performanța angajaților, în cursul sunt orice mijloace. Primul lucru pe care autoritatile vor verifica activitatea pe internet și ...

  • În mod tradițional, mai aproape de Anul Nou mulțumit Yandex webmasteri nou algoritm. Iar numele noului algoritm este frumos - „Palekh“, și lucrul în sine ...

  • În ultimele luni, materialele de așa-numitele Push-notificările din ce în ce au început să apară. În ciuda faptului că această dezvoltare pentru programatori mai multe ...

  • Articolele cele mai interesante și importante

    articole similare