1. Introducere
2. Motoarele de căutare
Căutări cistemy în general, format din trei componente:
- agent (șenile sau de păianjen), care se deplasează pe web și colectează informații;
- o bază de date care conține toate informațiile colectate păianjeni;
- un motor de căutare pe care oamenii folosesc ca o interfață pentru a interacționa cu baza de date.
2.1. Cum motoare de căutare de lucru
Acest preparat de căutare și de structurare, uneori numite motoare de căutare sunt folosite pentru a ajuta oamenii să găsească informațiile de care au nevoie. Acest preparat este tipul de agenți de căutare, spider, crawler și roboți sunt utilizate pentru a colecta informații despre documentele care sunt pe Internet. Acestea sunt programe speciale care caută pe paginile web, eliminați hyperlink-uri de pe aceste pagini și indexurile automat informațiile pe care le găsesc pentru a construi o bază de date. Fiecare motor de căutare are propriul set de reguli care determină modul în care documentele Cobiralas. Unii urmați fiecare link găsite pe fiecare pagină, și apoi, la rândul său, de a investiga fiecare link pe fiecare dintre noile pagini, și așa mai departe. Unii ignora link-urile care duc la fișiere grafice și audio, fișierele de animație; alții ignora Link-uri către resurse, cum ar fi bazele de date WAIS; alt lucru proinstruktirova-ne pentru a viziona mai ales cele mai populare pagini.
Agenții recuperate și indexare diferite tipuri de informații. Unii, de exemplu, indexarea fiecare cuvânt întâlnit în document, în timp ce altele index numai cele mai importante 100 de cuvinte în fiecare dimensiune de document indexate și numărul de cuvinte în ea, titlul, titluri și sub-rubrici, și așa mai departe. Vezi indicele construit determină care de căutare poate fi făcută de către un motor de căutare și modul în care este interpretată informația.
Agenții pot naviga pe Internet și pentru a găsi informații, și apoi pune-l în baza de date a motorului de căutare. Administratorii pot motoarele de căutare determina care site-uri sau tipuri de agenți de site-uri ar trebui să viziteze și să indice. indexată informații sunt trimise la baza de date a motorului de căutare în același mod așa cum este descris mai sus.
Oamenii pot pune informații direct în indexul prin completarea unui formular special pentru secțiunea în care le-ar dori să pună informațiile lor. Aceste date sunt transmise bazei de date.
Când cineva vrea să găsească informațiile care sunt disponibile pe internet, el accesează o pagină de motor de căutare și completează un formular care detaliază informațiile de care are nevoie. Aici, cuvintele cheie, pot fi folosite date și alte criterii. Criteriile în formularul de căutare trebuie să îndeplinească criteriile de agentul utilizat pentru indexarea informațiile pe care le găsesc la navigarea prin Web.
Baza de date caută obiectul interogare pe baza informațiilor furnizate în formularul completat și emite documentele relevante întocmite de către baza de date. Pentru a determina ordinea în care va fi afișată lista de documente, baza de date utilizează un algoritm de clasificare. În cazul ideal, documentele care sunt cele mai relevante pentru cererea de utilizator va fi plasat mai întâi pe listă. Diferite motoare de căutare utilizează algoritmi diferite de ierarhizare, dar principiile de bază pentru determinarea relevanței următoarele:
1. Numărul de cuvinte de interogare într-un conținut de document text (adică cod html).
2. Tag-uri în care sunt plasate aceste cuvinte.
3. Locația termenilor de căutare în document.
4. Cuvinte gravitaționale specifice, în ceea ce privește relevanța care este determinată în numărul total de cuvinte ale documentului.
Baza de date afișează o listă ordonată de documente într-un mod similar cu HTML și îl returnează persoanei care a făcut cererea. Diferite motoare de căutare pentru a alege, de asemenea, diferite moduri de a afișa lista rezultată - unele afișează doar link-uri; O altă concluzie Link-uri c primele câteva propuneri cuprinse în document sau titlul documentului cu ref.
Când faceți clic pe un link către unul dintre documentele care vă interesează, acest document se solicită de la serverul pe care este situat.
2.2 Analiza comparativă a motoarelor de căutare
2.2.1 Motorul de căutare Rambler
Motorul de căutare conține informații cu privire la mai mult de 12 milioane de documente aflate pe serverele din România și țările CSI. Hoinar se ocupă în fiecare zi, nu mai puțin de 500.000 de interogări de căutare (în medie - 5 cereri pe secundă) de scanare de 48 de mii de Web-servere si folosind mai multe concurente programe de roboți.
Cererea poate fi constituită din unul sau mai multe cuvinte, separate prin spații. Acestea pot fi folosite ca cuvintele și expresiile română și engleză. În mod implicit, există doar acele documente care îndeplinesc toate cuvintele de căutare introduse. Pentru a găsi documente care conțin cel puțin un cuvânt dintr-o interogare utilizând conjuncŃia logică sau (a se vedea mai jos.) Sau alegeți să solicitați o pagină detaliată: „Cuvinte de interogare: Orice“. Pentru a exclude documentele care conțin anumite cuvinte, indicați spre o pagină de cereri detaliate: „Ștergeți documentele care conțin aceste cuvinte.“.
Tot la fel, cu unele litere scrise cuvinte de interogare: cu un mare sau mic. Și construirea indicelui, și o căutare pentru toate capace de litere (mari) „toamna.“
cuvinte de interogare pot fi conectate prin conector logic și ( „și“), sau ( „sau“). În loc de corduri (sau împreună cu ele) pot fi folosite ca simboluri „“, „|“.
porțiunea de interogare pot fi grupate cu paranteze (). Acesta permite de cuibărit multiple combinate cu operatori logici.
Rambler este capabil de a căuta cuvinte în toate formele (de exemplu, aminoacizi, aminoacizi, aminoacizi și așa mai departe. D.). Cuvântul se găsește în toate formele, este necesar să se pună un caracter special „#“ în fața ei. Solicitarea detaliată a modului de meniu poate fi activat pentru toate cuvintele: „Solicitare de expansiune:. Toate formele de cuvinte“ Apel simbolul „@“ înainte de cuvântul vă permite să găsiți nu numai cuvântul în sine, dar, de asemenea, același cuvânt rădăcină. Simbolul meniului cerere detaliat „@“ corespunde „Extinderea interogare: toate aceeași rădăcină.“
În mod implicit, sistemul nostru este în căutarea pentru termenii de căutare pe măsură ce le-ați introdus, în scopul de a reduce „zgomotul“ în documentele găsite. Dacă nu vă amintiți cum să scrie un cuvânt sau doriți să lărgească căutare, puteți utiliza metacaractere „*“ si „?“ pentru a se referi la orice parte a discursului și caracterul arbitrar.
Căutați documentul
Limitați căutarea la o parte a unui document, cum ar fi titlul documentului, titlul, adresa URL etc. puteți solicita un detaliu meniu „Căutare.“.
Puteți limita căutarea documentelor numai în limba rusă sau în numai în limba engleză. Pentru a face acest lucru, selectați modul corespunzător de pe meniul detaliat cerere „limba documentului.“. În mod implicit căutarea se realizează pe documentele în toate limbile.
documente implicite găsite sortate după relevanță (Cereri). Cu toate acestea, puteți solicita ca în loc de proaspete (sau, dimpotrivă, cele mai vechi documente) au fost plasate în partea de sus a listei. Pentru a face acest lucru, selectați setarea corespunzătoare în „Sort by.“ Cererea detaliată.
De asemenea, vă puteți limita căutarea documentelor create într-o anumită perioadă de timp: este necesar să se precizeze pagina cererea detaliată „de la data la data de ...“
Distanța dintre cuvintele
Puteți solicita ca Rambler returnează numai acele documente în cazul în care cuvintele unei interogări se află la o distanță minimă unul față de celălalt. „Limita distanța între cuvintele“ poate fi activat într-o solicitare detaliată. Toate regulile de mai sus pot fi utilizate în conjuncție una cu cealaltă, în ordinea în care au nevoie.
În mod implicit, rezultatele căutării sunt afișate în porțiuni de 15 documente. Meniu, „Afișare pe.“ În pagina de interogare detaliată vă permite să crească acest număr la 30 sau 50. Meniu „formă de ieșire.“ Permite obținerea unor descrieri ale documentelor cu un detaliu mărit sau redus.
2.2.2. Yandex motor de căutare
Yandex scanează zilnic sute de mii de pagini web în căutare de schimbare sau link-uri noi. O colecție de link-uri continuă să crească.
Nu contează în ce formă ați folosit cuvântul într-o interogare, căutare ia în considerare toate formele sale, în conformitate cu regulile limbii române. De exemplu, în cazul în care o cerere „pentru a merge“, atunci rezultatele căutării vor fi găsite link-uri la documentele care conțin cuvântul „du-te“, „este“, „mersul pe jos“, „a fost“, etc. La cerere, informații „caseta“ vor fi emise care conține cuvântul „ferestre“, iar interogarea „retras“ - documentele care conțin cuvântul „retras“.
Căutarea nu se limitează la cuvinte sau fraze numai. Yandex va găsi pagina web a companiei din titlu sau un fișier cu imaginea corectă.
2.2.3. AltaVista motor de căutare
Exemple de interogări simple,
De obicei, o cerere este pur și simplu un cuvânt sau o expresie, cum ar fi:
microprocesoare de la Intel
Conform acestei cereri sunt documente care îndeplinesc toate cuvintele de interogare. Există, totuși, un număr limitat de cuvinte (sindicate, prepoziții, etc.), că cererea este ignorată, pentru că ei nu poartă propria lor încărcătură semantică. De exemplu, pentru:
Mere în zăpadă
Toate documentele vor fi găsite în care două cuvinte sunt ambele „Apple“ și „zăpadă“. În cazul în care în cadrul documentului, cuvintele sunt aranjate în orice formă gramaticală ei sunt - nu contează
Acesta ar trebui să sublinieze încă o dată importanța și proprietatea foarte utilă Aporta: indiferent de ceea ce scrie forma gramaticală a cuvântului de interogare, acesta este documentat în toate formele sale. De exemplu, pentru:
Acestea vor fi găsite, printre altele, și documentele care conțin textul „oamenii merg.“ Recunoașterea tuturor formelor de muncă pentru cuvinte obișnuite ale limbii române. Pentru cuvinte exotice, neologisme, etc. nu trece. În acest caz, operatorul poate fi util pentru a „*“ (asterisc). De exemplu, doriți să găsiți totul în legătură cu activitățile Președintelui România, inclusiv documentele care conțin cuvântul „Yeltsinism“. Utilizați interogarea:
Acesta va permite să găsiți ceea ce doriți (precum și documente cu cuvinte Eltsinische. Eltsintsy. Eltsinenok, etc.) ca un asterisc înlocuiește orice număr de caractere
Puteți căuta documente nu numai peste tot pe Internet vorbitoare de limbă rusă, dar, de asemenea, pe partea lui. Cel mai simplu caz - o căutare pe un anumit server. de exemplu
Conform acestei cereri toate documentele www.intel.ru server va fi găsit că conțin cuvântul „câine“. Poate vă întrebați ce se întâmplă dacă pur și simplu scrie:
În acest caz, veți obține o listă cu toate documentele introduse pe serverul dvs.
Puteți limita căutarea și mai mult - unul din directorul serverului. De exemplu:
Conform acestei cereri, documente care conțin cuvântul „Sf. Bernard“ va căuta doar în directorul / sobaki (și subdirectoarele sale), serverul de la Moscova de către Intel.
2.2.5. Căutare sistemaAltaVista
Indexarea în acest sistem se realizează de către un robot. În acest caz, robotul are următoarele priorități:
În cazul în care nu există nici o etichetă pe pagina, acesta folosește primele 30 de cuvinte, care sunt indexate și afișează în loc de descrierea (descrierea tag-ul)
3. Exemple de solicitări
In Sic cererea de sistem a fost realizat „vid evaporare cristalizor“ .Sistema au raportat următoarele rezultate (primele trei):
Universitatea Tehnică de Stat Tambov
Despre Universitatea - Istoric; lista departamentelor, specialități; personalități de oameni de știință de conducere și alte poveste despre centrul regional Tambov informatizării charter de liceu :., rezultate promițătoare proiecte. Despre Tambov și regiunea: istoria, cultura, linkuri către instituțiile de învățământ, turism.
Site-uri similare 36 0000
Restul paginilor găsite pe site-ul (1)
Institutul de căldură și de transfer de masă. AV Lykov, Belarus Academia de Științe
Informații despre institutul și laboratoarele sale. Noutăți și evenimente. Anunțuri de conferințe și seminarii. Materiale „Revista de Inginerie Fizică“.
Site-uri conexe IFZh 1984
Bodrov V. V. Determinarea parametrilor termici ai tamburului de matriță cu pereți subțiri. 622 Novikov NP Ignatenko KI Mikhailova impuritate în siliciu de tip n, la temperaturi ridicate, în vid. 693 Bulgak I. A. Skoropanov A. Evening A. A. Protsenko G.
A. Eficacitatea gettering pentru transferul de masă în vid. 949 Ageenko I. S. Ilyasov SG Krasnikov V. V. Tyurev E.
Restul paginilor găsite pe site-ul (1)
WWW server de Tambov universitare tehnice de stat
Restul paginilor găsite pe site-ul (1)
Sistemul Yandex a fost făcut, astfel încât aceeași interogare, sistemul a răspuns că nici un rezultat.
3. Referințe
Mulțumesc, ajutat! Ia o pauză, student te distrezi: cel mai real efecte negative ale fumatului - este atunci când te duci afară pentru un fum, și vecinii în cămin au mâncat găluște dumneavoastră. Apropo, anecdota este preluată din chatanekdotov.ru