site-ul de indexare

Indexarea site-ului - denumirea comună a procesului de includere a datelor de pe site-ul în baza de date a motorului de căutare. Acest nume provine din termenul „index“, care indică cea mai importantă parte a bazei de căutare. Abia după finalizarea procesului de indexare orice document pus la dispoziție pentru a căuta și pot fi afișate pe paginile de rezultate ale căutării (SERP).

Pagina de scanare pentru a scana serverele, care funcționează pe baza unui program. Ei rula procese numite păianjeni sau roboții. Sarcina robotului - un -interogare HTTP pe un anumit link pentru a obține documentul și salvați-l. De asemenea, salvat de răspuns HTTP -zagolovok pentru a procesa excepții (server de eroare. Documentul nu este disponibil. Documentul a fost șters. Documentul este mutat). Pagini salvate roboți sunt în coada de așteptare pentru procesare.

Fiecare acceseze o pagină ar trebui să aibă un identificator unic pentru a căuta în baza de date. Atunci când pagina skanirovuetsya pentru prima dată și devine în prelucrarea, i se atribuie un identificator și este atribuit unei pagini URI.

Analiza paginilor se face în același mod ca și browser-ul. Pagina dezasamblat în părțile sale componente, în conformitate cu structura HTML documentului. Din fiecare parte a documentului recuperat de date relevante pentru căutarea. În această etapă, antetul paginii alocate (. ), Descrierea Meta (), Link-uri de extracție, link-uri text (ancora text), blocuri de text, text antet, elemente grafice. De asemenea, ales text alternativ la grafica (atributul alt), și informații suplimentare despre elementele HTML (atribut titlu).

Verificăm schimbările în toate componentele paginii. Modificări în textele, noi fragmente de text, pozițiile și alte elemente sunt stocate pentru bază de date de ajustare ulterioară. bază de căutare în sine nu este afectat, este actualizat periodic efectuat, după achiziție de date.

Link-urile găsite în pagina parsarea, stocate și procesate separat. Toate link-urile interne (care duc la alte pagini de pe același domeniu) sunt reconciliate cu lista existentă de link-uri pentru acest domeniu. În cazul în care link-uri noi găsite, care nu sunt încă pe listă, acestea sunt coada de așteptare pentru scanare. Link-uri externe (pe alte domenii) sunt, de asemenea, verificate pe listele pentru domeniile respective, dacă este găsit link-uri pentru a nu se cunoaște încă la documentele de sistem, au pus, de asemenea, într-o coadă pentru scanare. Acesta este modul în care motoarele de căutare sunt în mod constant găsirea de noi pagini.

De asemenea, a avut loc în considerare de noi legături (interne și externe), pe pagina deja bine-cunoscute. Aceste date sunt stocate pentru listele de reaprovizionare ulterioare de link-uri.

Includerea de noi pagini în baza de date căutate se efectuează imediat, dar periodic. Paginile prelucrate datele scanate sunt preparate și depozitate separat, iar finalizarea și schimbarea bazei ruleaza pe un program. Această abordare este dictată de necesitatea de a ajusta setul de date aferente pentru fiecare pagină noi sau modificate, care vor continua să influențeze clasamentul paginilor și a altor asociate acestuia. Aceste modificări multiple are sens să efectueze un mod suficient de mari cantități de date, deoarece în timpul actualizării bazei de căutare a rezultatelor motorului de căutare pot fi denaturate în mod semnificativ.

Roboții nu fie în măsură să furnizeze rapid cele mai recente și actuale rezultatele căutării, în cazul în care nu aliniat un întreg sistem de priorități. Toată lumea știe că noul site, pe care motorul de căutare doar raportat prin formular pentru a adăuga addurl, este puțin probabil să apară în problema pe unele cereri înainte de o săptămână. Cu toate acestea, pe multe site-uri au prezentat informațiile postate pot apărea în căutarea pentru o oră.

articole similare

Pagina anterioară

Pagina următoare