Cum motoarele de căutare - studopediya

căutare Characteristics- și motor de căutare

Instrumentele de căutare al doilea tip se numește Index automat.

Un astfel de indice este colectat în mod automat și este la motoarele de căutare de bază - indicii automate. Caută cuvinte cheie într-o bază de date, ia maximum de câteva secunde, aduce aceleași rezultate ca alegerea WWW-pagini pe web

Index automat este format din trei părți: un program de robot. această bază de date colectate de robot - indexa și o interfață de utilizator pentru a căuta în această bază de date. Toate aceste componente pot funcționa pe deplin în mod automat, fără intervenție umană, de unde și numele.

Căutare cuvinte cheie necesită îngustarea zona de căutare

WWW-pagini sunt automat indici, sunt multe: WebCrawler, Lycos, Excite, Inktomi, Open Text și altele. De exemplu, Lycos este un catalog subiect și un index automat. Alta Vista. deși nu depășește structura tradițională a unui „robot - Baza de date - Search Interface“, este una dintre cele mai puternice instrumente de acest gen.

Un principiu similar de funcționare a sistemului de Archie. concepute pentru a căuta fișiere pe FTP anonime-site-uri. Archie a apărut mult mai devreme decât programul-robotul care călătoresc pe WWW (precum și FTP, a apărut mult mai devreme WWW), astfel că sistemul Archie nu are același proprietar, și serverele sale împrăștiate în întreaga lume.

De bază - Relevanța și pertinenta.

Relevanța (relevo Latină -. Creșterea, facilitarea) în extragerea de informații - potrivirea semantică interogarea de căutare și de căutare a imaginii documentului.

Pertinența (pertineo Latină -. Îngrijorat, atitudine) - respectarea găsit de regăsire a informației nevoile de informare Document sistem ale utilizatorului. Cu alte cuvinte, este raportul dintre volumul de informații utile pentru volumul total al informațiilor primite.

Dacă din zece dintre documentele găsite 8 se potrivesc cu interogarea, dar numai 5 solicitate de către utilizator, ca rezultat al căutării documentelor relevante 8 și 5 pertinenta.

Căutări cistemy în general, format din trei componente:

  • agent (șenile sau de păianjen), care se deplasează pe web și colectează informații;
  • o bază de date care conține toate informațiile colectate păianjeni;
  • un motor de căutare pe care oamenii folosesc ca o interfață pentru a interacționa cu baza de date.

Acest preparat este de căutare (motor de căutare) tipuri de agenți, spider, crawler și roboți sunt utilizate pentru a colecta informații despre documentele care sunt pe Internet. Acestea sunt programe speciale care caută pe paginile web, eliminați hyperlink-uri de pe aceste pagini și indexurile automat informațiile pe care le găsesc pentru a construi o bază de date. Fiecare motor de căutare are propriul set de reguli care determină modul în care documentele Cobiralas.

Agenții recuperate și indexare diferite tipuri de informații. Unii, de exemplu, indexarea fiecare cuvânt întâlnit în document, în timp ce altele index numai cele mai importante 100 de cuvinte în fiecare dimensiune de document indexate și numărul de cuvinte în ea, titlul, titluri și sub-rubrici, și așa mai departe.

Agenții pot naviga pe Internet și pentru a găsi informații, și apoi pune-l în baza de date a motorului de căutare. Administratorii pot motoarele de căutare determina care site-uri sau tipuri de agenți de site-uri ar trebui să viziteze și să indice.

Când cineva vrea să găsească informațiile care sunt disponibile pe internet, el accesează o pagină de motor de căutare și completează un formular care detaliază informațiile de care are nevoie. Aici, cuvintele cheie, pot fi folosite date și alte criterii. Criteriile în formularul de căutare trebuie să îndeplinească criteriile de agentul utilizat pentru indexarea informațiile pe care le găsesc la navigarea prin Web.

Baza de date caută obiectul interogare pe baza informațiilor furnizate în formularul completat și emite documentele relevante întocmite de către baza de date. Pentru a determina ordinea în care va fi afișată lista de documente, baza de date utilizează un algoritm de clasificare. În cazul ideal, documentele care sunt cele mai relevante pentru cererea de utilizator va fi plasat mai întâi pe listă. Diferite motoare de căutare utilizează algoritmi diferite de ierarhizare, dar principiile de bază pentru determinarea relevanței următoarele:

  1. Numărul de cuvinte de interogare într-un conținut de document text (adică cod html).
  2. Tag-uri, în care sunt aranjate cuvintele.
  3. Locație cuvinte necunoscute într-un document.
  4. Proporția celor mai relevante cuvinte din care se determină în raport cu cantitatea totală de cuvinte ale documentului.

Aceste principii se aplică tuturor motoarelor de căutare. Și enumerate mai jos sunt folosite de unii, dar suficient de bine cunoscute (cum ar fi AltaVista, HotBot).

  1. Timpul - cât timp o pagină este în motorul de căutare de baze de date. La început, se pare că este destul de principiu lipsită de sens. Dar, dacă te gândești la cât de multe sunt site-uri de pe Internet, care trăiesc cel mult o lună! Dacă există site-ul pentru o lungă perioadă de timp, aceasta înseamnă că proprietarul este foarte experimentat în acest thread, iar utilizatorul este site-ul mai adecvat care transmite un cuplu de ani, lumea cum să se comporte la masă decât cel care a apărut în urmă cu o săptămână, cu aceeași temă.
  2. Citation Index - cât de multe link-uri pe aceasta pagina conduce la alte pagini sunt înregistrate în motorul de căutare de baze de date.

Baza de date afișează o listă ordonată de documente în acest mod. Diferite motoare de căutare pentru a alege, de asemenea, diferite moduri de a afișa lista rezultată - unele afișează doar link-uri; O altă concluzie Link-uri c primele câteva propuneri cuprinse în document sau titlul documentului cu ref.

Serverele Poshukovі (puți sisteme Yea іnformatsіynimi)

articole similare