- căutare de informații și motoarele de căutare
- Cum motor de căutare
- Cum indexul de căutare
- Unele probleme importante
- motor de căutare de calitate
- Care motor de căutare este mai bine
- constatări
Cei mai mulți oameni sunt doar în idee generală despre modul în care funcționează motorul de căutare. Prin urmare, în acest capitol ne uităm la conceptele de bază și motoarele de căutare dispozitiv (acestea sunt motoare de căutare sau motoarele de căutare). Dacă sunteți conștienți de faptul că un astfel de indice, și interogarea de căutare, puteți sări peste acest capitol în condiții de siguranță.
Elementul principal al structurii Internetului moderne - este motoarele de căutare sau motoarele de căutare. Diferite motoare de căutare sunt atât de multe, dar printre ei sunt principala, cele mai renumite și vizitate. În lumea de Internet este acum dominat de Google (pronunțat cum ar fi Google). în limba română este, sau mai degrabă, în limba rusă Internet (RuNet), cel mai popular motor de căutare - Yandex. De două ori (în numărul de căutări pe zi) din rămase în urmă Yandex Rambler, atunci ar trebui să Google «român“, și apoi, destul de departe de lideri, ar trebui să Sic.
De ce motoarele de căutare pe internet au luat cel mai important loc?
Pentru că ei sunt ordonate haos. După toate site-urile și paginile „sunt împrăștiate pe Internet, fără nici o ordine, fara prima sau ultima pagină, cu nici o cale de a merge la pagina următoare. «Citește» Internet într-un rând - este imposibil.
căutare de informații și motoarele de căutare
De-a lungul secolelor care au trecut de la inventarea cărți, omenirea a venit cu doar trei moduri principale de a găsi informații într-un număr mare de pagini. Și fiecare dintre noi sa întâlnit cu ei înainte de prima lansare pe Internet.
Pe Internet, folosit aceleași metode pentru a găsi pagina pe care doriți, dar ele sunt automatizate și rula programe speciale. Acesta este - un tabel cuprins, link-uri și indicele.
Cuprins
Primul și cel mai natural mod de a localiza - un tabel cuprins. book reader scanează conținutul său, el găsește capitolul, vezi numărul paginii dorite, și deschide-l, răsfoit cartea, până la numărul de pagină dorit.
Acest mod de a căuta pe Internet directorul corespunzător.
Index, sau indicele de
În al treilea rând, cel mai interesant mod pentru noi, pentru a găsi pagina pe care doriți - este o listă alfabetică de termeni importanți la sfârșitul cărții, numit un index sau un index. L-ai văzut, probabil, în cărți, precum și în reviste științifice și tehnice. Iată ce trebuie să caute un fragment dintr-un indice tipic:
A treia Viteza spațială, 255; 294
Nebula, 14; 29; 188
Andromeda, 29; 188
quarci grele, 347
Listele de index importante pentru această carte, termenii (cuvintele cheie), și numărul paginii pe care se găsesc acești termeni. În cazul în care cititorul de carte nu poate găsi conținutul paginii, se poate presupune, ce cuvintele ei se pot întâlni, și uite în index.
Asta e exact ideea paginii dorite de căutare de cuvinte cheie în index și a fost ideea principală, care a creat motoarele de căutare pe Internet. Desigur, pregătirea și utilizarea indicelui de căutare pe Internet automatizat.
De fapt, atunci când un utilizator introduce o interogare de căutare într-un motor de căutare, el se referă la obiectivul indicelui de Internet, sau index, - lista tuturor cuvintelor cheie ale Internetului care indică paginile pe care acestea apar.
Cum, atunci, acesta este întocmit și funcționează acest indice de web?
Cum motor de căutare
Search Engine - un program care compilează și stochează indexul de pe Internet, și găsește în ea cuvintele cheie specificate. Pentru acest program este așa-numitul index.
Iată câteva dintre etapele este procesul de elaborare a unui index de căutare și-l.
O pagină care nu este nici măcar o singură referire la „propria putere“ nu se încadrează în indexul motorului de căutare vreodată, cu excepția cazului în eforturi deosebite.
pagini de pompare
Pentru a lucra cu textul paginii și trage din ea index, motorul de căutare este de a obtine textul.
Pentru a face acest lucru, motorul de căutare trebuie să pompeze textul, adică, întrebați pagina de site-ul specificat. Dezumflă pagina speciala a motorului de căutare modul, numit motorul de căutare „antene“ (în limba engleză pe șenile), sau de căutare robot. trece de căutare roboți definite în etapa anterioară o listă de pagini, de pompare o mare cantitate de material de text prime, păstrează pe discurile de computerele lor și trimite robotul indicele de indexare.
Elaborarea unui index sau indexare
Pentru a crea indexul, roboți motor de căutare indexul trebuie să selecteze toate cuvintele din toate dezumfla textele și le aranja în ordine alfabetică, împreună cu numere de pagină și informații de servicii diferite despre fiecare pagină.
Pentru a face acest lucru, robotul de index prin toate numerele de pagină dezumflat le (desigur, pentru că avem într-un fel de a marca o pagină, apoi pentru a le găsi) sunt eliminate din paginile textului doar inutile, non-text „gunoi“ (de exemplu, HTML markup language), apoi extrase din textul cuvintelor și le plasează în index. În acest caz, cuvintele sunt furnizate informații cu privire la paginile din care au fost luate.
Așa cum este conceput indicele, vom descrie în detaliu un pic mai târziu.
Toate aceste etape anterioare sunt imperceptibile la motorul de căutare a utilizatorilor, acestea sunt executate într-un motor de căutare. Dar de căutare în sine - aceasta este ceea ce vede utilizatorul. Utilizatorul introduce în caseta de căutare interogare (cuvântul sau fraza), iar motorul de căutare - oh, minune! - oferă o listă de link-uri către pagini de pe Internet.
Cum funcționează? Atunci când un utilizator introduce un cuvânt într-un șir de interogare motor de căutare, motorul de căutare se referă la indicele, este o înregistrare a unui cuvânt dat, extrage toate numerele paginilor referitoare la cuvântul dat, și arată utilizatorul rezultatele căutării pe care lista paginilor.
În cazul în care cererea a fost câteva cuvinte, motorul de căutare compară listele de link-uri către pagini pentru fiecare cuvânt și selectează numai acele pagini ale căror numere sunt repetate, de exemplu, găsite în fiecare listă de pagini pentru fiecare cuvânt. Astfel, selectarea numai acele pagini care îndeplinesc simultan toate cuvintele de interogare.
Desigur, există este stabilită esența însăși a motorului de căutare pe index, principiul său de bază, dar în realitate, dezvoltatorii de motoare de căutare folosesc o mare varietate de trucuri (câteva dintre ele, veți învăța mai jos).
Motor de căutare este mai bună decât pagina „dreapta“, se arată utilizatorului ca răspuns la o solicitare. "Dreapta" pagină numită tnym relevan (de exemplu, pentru a fi relevant, adecvat).
Pentru a înțelege modul în care motorul de căutare nu reușește să găsească cele mai relevante pagini, aveți nevoie pentru a înțelege modul în care este indexul motorului de căutare.
HTML (HyperTextMarkupLanguage-- Hypertext Markup Language) - un set de echipe speciale pentru proiectarea afișată pe pagina de web a informațiilor: text, imagini, tabele, formulare, etc.