Acest preparat de căutare și de structurare, uneori numite motoare de căutare sunt folosite pentru a ajuta oamenii să găsească informațiile de care au nevoie. Acest preparat este tipul de agenți de căutare, spider, crawler și roboți sunt utilizate pentru a colecta informații despre documentele care sunt pe Internet. Acestea sunt programe speciale care caută pe paginile web, eliminați hyperlink-uri de pe aceste pagini și indexurile automat informațiile pe care le găsesc pentru a construi o bază de date. Fiecare motor de căutare are propriul set de reguli care determină modul în care documentele Cobiralas. Unii urmați fiecare link găsite pe fiecare pagină, și apoi, la rândul său, de a investiga fiecare link pe fiecare dintre noile pagini, și așa mai departe. Unii ignora link-urile care duc la fișiere grafice și audio, fișierele de animație; alții ignora Link-uri către resurse, cum ar fi bazele de date WAIS; alt lucru proinstruktirova-ne pentru a viziona mai ales cele mai populare pagini.
Informații generale de căutare pe web realizat programe cunoscute sub numele de păianjeni. Păianjenii raport cu privire la conținutul documentului găsit, acesta indicele și extrage informațiile rezultate. ele scana, de asemenea, titluri, unele link-uri și trimite-based indexate de date a motorului de căutare de informații. Crawlere sunt navigarea titlurile și returnează doar primul link.
Agenții recuperate și indexare diferite tipuri de informații. Unii, de exemplu, indexarea fiecare cuvânt întâlnit în document, în timp ce altele index numai cele mai importante 100 de cuvinte în fiecare dimensiune de document indexate și numărul de cuvinte în ea, titlul, titluri și sub-rubrici, și așa mai departe. Vezi indicele construit determină care de căutare poate fi făcută de către un motor de căutare și modul în care este interpretată informația.
Agenții pot naviga pe Internet și pentru a găsi informații, și apoi pune-l în baza de date a motorului de căutare. Administratorii pot motoarele de căutare determina care site-uri sau tipuri de agenți de site-uri ar trebui să viziteze și să indice. indexată informații sunt trimise la baza de date a motorului de căutare în același mod așa cum este descris mai sus.
Oamenii pot pune informații direct în indexul prin completarea unui formular special pentru secțiunea în care le-ar dori să pună informațiile lor. Aceste date sunt transmise bazei de date.
Când cineva vrea să găsească informațiile care sunt disponibile pe internet, el accesează o pagină de motor de căutare și completează un formular care detaliază informațiile de care are nevoie. Aici, cuvintele cheie, pot fi folosite date și alte criterii. Criteriile în formularul de căutare trebuie să îndeplinească criteriile de agentul utilizat pentru indexarea informațiile pe care le găsesc la navigarea prin Web.
Baza de date caută obiectul interogare pe baza informațiilor furnizate în formularul completat și emite documentele relevante întocmite de către baza de date. Pentru a determina ordinea în care va fi afișată lista de documente, baza de date utilizează un algoritm de clasificare. În cazul ideal, documentele care sunt cele mai relevante pentru cererea de utilizator va fi plasat mai întâi pe listă. Diferite motoare de căutare utilizează algoritmi diferite de ierarhizare, dar principiile de bază pentru determinarea relevanței următoarele:- Numărul de cuvinte de interogare într-un conținut de document text (adică cod html).
- Tag-uri, în care sunt aranjate cuvintele.
- Locație cuvinte necunoscute într-un document.
- Proporția celor mai relevante cuvinte din care se determină în raport cu cantitatea totală de cuvinte ale documentului.
Baza de date afișează o listă ordonată de documente într-un mod similar cu HTML și îl returnează persoanei care a făcut cererea. Diferite motoare de căutare pentru a alege, de asemenea, diferite moduri de a afișa lista rezultată - unele afișează doar link-uri; O altă concluzie Link-uri c primele câteva propuneri cuprinse în document sau titlul documentului cu ref.
Când faceți clic pe un link către unul dintre documentele care vă interesează, acest document se solicită de la serverul pe care este situat.