motor de căutare păianjen (șenile) tipuri și funcții

Antenele motoarelor de căutare (alte nume - robot, panza de paianjen, șenile) - programele de motoare de căutare care scanează resursele web pentru raportarea informațiilor despre ele în baza de date.

În ce scop crearea unor păianjeni motor de căutare?

1), se deschide pagina principală;

2) Introduceți secțiunea „Cele mai descărcate lucrări“;

3) evalueaza noi elemente din listă;

5) citește rezumatul, iar dacă este interesant, descarcă un fișier.

Aceste acțiuni Rob Valeria 10 minute. Cu toate acestea, în cazul în care vă petrece în căutarea timp de 10 minute pe zi, o lună este deja 5:00. În schimb, sarcina poate atrage program care urmărește tendințele în grafic. Mecanismul de acțiune va fi un păianjen web simplu, ascuțit de îndeplinirea anumitor funcții. Crawlere nu va supraviețui fără nici un motor de căutare, fie că este vorba de lideri Google și „Yandex“ sau start-up-întreprinzători. Roboții pentru a naviga pe site-ul, care caută materii prime pentru motorul de căutare. În acest caz, mai eficient decât păianjenul de lucru, cele mai urgente expediem rezultatele (fig. 1).

Fig. 1. Schema de șenile

Fig. 2. Diferențele de inspecție pe șenile (schema)

motor de căutare păianjen (șenile) tipuri și funcții

Fig. 3. Exemplu de fișier robots.txt simplu

În funcție de funcțiile motorului de căutare, pe care le indicați mai jos, poate efectua unul sau mai mulți roboți.

1. Scanarea conținutului site-ului. Funcția pe șenile de prim ordin - detectarea de pagini nou create și colectarea informațiilor de plasare a textului.

2. Citind graficele. Dacă motorul de căutare pentru a include o căutare de fișiere imagine, în acest scop, un păianjen web separat, pot fi introduse.

Tipuri de roboți de căutare

În motoarele de căutare au câteva păianjeni, fiecare dintre care susține executarea funcțiilor pre-programate (fig. 2).

Spiders "Yandex"

păianjeni Google

Păianjenii prietenos - cum să învețe roboți cum să se comporte

Robots.txt prescris:

User-Agent: Twitterbot Allow: / imagini

Descifrez date:

Un robot politicos este întotdeauna reprezentat și indicate în detaliile de antet ale cererii, care permit webmasterul pentru a contacta proprietarul. Ce se impun restricții? Proprietarii de resurse sunt interesați de aducerea utilizatori reali și nu doresc să program de construit pe afacerea lor de conținut. În acest scop, site-urile sunt adesea înființate în browser-ul de serviciu HTTP-cereri și numai pentru cei care - din cererile de program.

Citește alte articole pe tema „păianjeni motor de căutare“:

Link-uri utile

articole similare