- Definiții și terminologie
- Numele roboților
- Un pic de istorie
- Ce face motorul de căutare păianjeni
- Comportamentul roboți on-line
- de control al robotului
- constatări
Ce este motorul de căutare păianjeni? ei îndeplini funcția ce? Care sunt caracteristicile site-ului de la motoarele de căutare? Mypostaraemsya aici pentru a răspunde la aceste și alte întrebări legate de funcționarea de roboți.
Definiții și terminologie
În limba engleză, există mai multe opțiuni Crawlere nume: roboți, roboții web, crawlere, păianjeni; în limba română a prins de fapt, un termen - roboți, sau în formă prescurtată - roboții.
Pe site-ul www. robotstxt. org este dat următoarea definiție de roboți:
„Robot de Web - un program care șuntează structura WWW hipertext recursiv și regăsirea documentelor interoghează.“
Imenarobotov
Cei mai mulți roboți de căutare au propriul lor nume unic (cu excepția acelor roboți, care, pentru un motiv sau altul sunt deghizate ca browser-ul utilizatorului).
Numele robotului poate fi văzut în fișierele jurnal de server User-agent, sisteme de statistici de server de rapoarte, precum și pe paginile motoarelor de căutare.
Nemnogoistorii
Chiar și în numele robotului principal Yandex pot găsi ecouri ale zilelor apuse: un fragment de numele său complet «compatibil; Win16; »a fost adăugat pentru compatibilitate cu unele servere web mai vechi.
Chtodelayutrobotypoiskovyhsistem
Ce funcții pot efectua roboți?
Motorul de căutare operează mai multe roboți diferite, fiecare cu scopul său. Iată câteva dintre sarcinile îndeplinite de roboți:
Ca un exemplu, lista de roboți Yandex. Yandex utilizează mai multe tipuri de roboți cu diferite funcții. Pentru a identifica ele pot fi pe șirul User-agent.
- Yandex / 1.01.001 (compatibile; Win 16; I) -cu indexare principal robot.
- Yandex / 1.01.001 (compatibile; Win 16; P) -indeksator imagini.
- Yandex / 1.01.001 (compatibil; Win 16; H) -robot înaintați, situri opredelyayuschiyzerkala.
- Yandex / 1.03.003 (compatibil, Win 16, D) -robot înaintați, pagina obraschayuschiysyak prin adăugarea acestuia printr-o formă de „Adăugați URL-ul».
- Yandex / 1.03.000 (compatibile; Win 16; M) - robotul obraschayuschiysyapri deschide pagina link-ul "a găsit expresie."
- YandexBlog / 0.99.101 (compatibil; DOS3.30, Mozilla / 5.0, B, robotul) - un robot de indexare XML-fișiere pentru căutare pe blog.
- YandexSomething / 1.0 - un robot, indexare știri fluxuri fișiere Yandeks.Novosti parteneri și roboți. txt pentru a găsi blog-ul robotului.
În plus, Yandex operează mai multe roboți de control - „doar-kivalok“, care verifică numai disponibilitatea documentelor, dar nu le indexeze.
Cu toate acestea, cele mai comune roboți - cei care caută, să primească și documentele de arhivă pentru prelucrarea ulterioară prin alte mecanisme de motoare de căutare. Este necesar să se separe robotul de indexer.
Comportamentul roboți on-line
Comportamentul diferit al robotului pe site-ul comportamentului utilizator mediu?
S-ar putea arata ca pagina HTML în ochii robotului, noi nu știm, dar putem încerca să ne imaginăm ca acesta să fie dezactivat în ecranul browser-ul de grafică și stil.
Astfel, putem concluziona că indicele de căutare păianjeni motorului este pompat în structura HTML-pagini, dar fără elementele de design și fără imagini.
de control al robotului
Cum poate un webmaster poate controla comportamentul de roboți de căutare de pe site-ul dvs.?
Cu toate acestea, marile roboți motor de căutare urmați regulile de excepții, în plus, să le facă expansiunea lor.
Pe instrucțiunile speciale ale fișierului robots.txt. și speciale roboți meta-tag în detaliu în capitolul 6, „Cum sa faci site-ul dvs. accesibil pentru motoarele de căutare.“
vizite de control de la motoarele de căutare și pot fi în mod indirect, de exemplu, Google robot al unui motor de căutare va de multe ori re-ridica documentele pe care multe link-ul cu alte site-uri.
Roboți - o parte necesară și foarte importantă a motoarelor de căutare. Dacă trimiteți un motor de căutare ca o „cutie neagră“, în cazul în care problema a rezultatelor căutării - este „ieșire“ a sistemului, atunci motorul de căutare păianjeni - este „de intrare“, care primește documente.
Dacă trimiteți corect paginile dvs. la „intrare“, care controlează comportamentul robotului poate obține cele mai bune rezultate de indexare - periodicitate, completitudinea și un rang mai bun.