Antenele motoarelor de căutare (alte nume - robot, panza de paianjen, șenile) - programele de motoare de căutare care scanează resursele web pentru raportarea informațiilor despre ele în baza de date.
În ce scop crearea unor păianjeni motor de căutare?
1), se deschide pagina principală;
2) Introduceți secțiunea „Cele mai descărcate lucrări“;
3) evalueaza noi elemente din listă;
5) citește rezumatul, iar dacă este interesant, descarcă un fișier.
Aceste acțiuni Rob Valeria 10 minute. Cu toate acestea, în cazul în care vă petrece în căutarea timp de 10 minute pe zi, o lună este deja 5:00. În schimb, sarcina poate atrage program care urmărește tendințele în grafic. Mecanismul de acțiune va fi un păianjen web simplu, ascuțit de îndeplinirea anumitor funcții. Crawlere nu va supraviețui fără nici un motor de căutare, fie că este vorba de lideri Google și „Yandex“ sau start-up-întreprinzători. Roboții pentru a naviga pe site-ul, care caută materii prime pentru motorul de căutare. În acest caz, mai eficient decât păianjenul de lucru, cele mai urgente expediem rezultatele (fig. 1).
Fig. 1. Schema de șenile
Fig. 2. Diferențele de inspecție pe șenile (schema)
Fig. 3. Exemplu de fișier robots.txt simplu
În funcție de funcțiile motorului de căutare, pe care le indicați mai jos, poate efectua unul sau mai mulți roboți.
1. Scanarea conținutului site-ului. Funcția pe șenile de prim ordin - detectarea de pagini nou create și colectarea informațiilor de plasare a textului.
2. Citind graficele. Dacă motorul de căutare pentru a include o căutare de fișiere imagine, în acest scop, un păianjen web separat, pot fi introduse.
Tipuri de roboți de căutare
În motoarele de căutare au câteva păianjeni, fiecare dintre care susține executarea funcțiilor pre-programate (fig. 2).
Spiders "Yandex"
păianjeni Google
Păianjenii prietenos - cum să învețe roboți cum să se comporte
Robots.txt prescris:
User-Agent: Twitterbot Allow: / imagini
Descifrez date:
Un robot politicos este întotdeauna reprezentat și indicate în detaliile de antet ale cererii, care permit webmasterul pentru a contacta proprietarul. Ce se impun restricții? Proprietarii de resurse sunt interesați de aducerea utilizatori reali și nu doresc să program de construit pe afacerea lor de conținut. În acest scop, site-urile sunt adesea înființate în browser-ul de serviciu HTTP-cereri și numai pentru cei care - din cererile de program.