Informații generale despre roboți de căutare
Căutarea de robot - un program care călătoresc în mod automat pe web, prin solicitarea de documente și recursiv obtinerea tuturor documentelor la care se referă.
Rețineți: cuvântul „recursiv“ aici nu se referă la o punere în aplicare specifică a algoritmilor. Robotul poate, de exemplu, selectați în mod aleatoriu un document care urmează să fie prelucrate următor, sau accesul la acestea printr-o perioadă semnificativă de timp, astfel încât este considerat robotul nemenee.
browsere web convenționale nu sunt roboți, deoarece persoana controlată și nu primesc documente care sunt link-uri în mod automat (cu excepția celor pentru imagini, script-uri, etc.).
Crawlere numite uneori păianjeni, Wanderers Web sau crawlerele Web. Astfel de nume fac unele confuzii, deoarece se pare că programul se mută pe internet pe cont propriu, în maniera de viruși. Acest lucru nu este atât, robotul „vizite“ site-uri, pur și simplu prin solicitarea de documente de la ei.
Ce este un agent?
Cuvântul „agent“ are mai multe înțelesuri. De exemplu:
agenți autonomi
Acest program, se deplasează de la site la site-ul și să decidă singur ce să faci în continuare. De obicei, acestea sunt mutate între server dedicat și greu de răspândit pe Internet.
agenţi inteligenți
un program care ajută utilizatorii - de exemplu, în selectarea unui produs, completarea unor formulare, sau chiar pentru a găsi. Astfel de programe au foarte puțin de rețea.
agentii utilizator
acesta este numele tehnic pentru programe care ajuta utilizatorii acealsi. Acesta poate fi browsere, cum ar fi Internet Explorer, Firefox sau Opera, sau programe de e-mail, cum ar fi Outlook Express, Thunderbird sau Qualcomm Eudora.
Ce este un motor de căutare?
Ce alte tipuri de roboți sunt acolo?
Există roboți pentru diverse scopuri:
- indexare
- Verificați HTML
- Verificați referințe
- Verificați pentru actualizări
- oglindire
Lista de roboți Runet majore, puteți găsi unele informații care sunt necesare pentru robot.
Care sunt roboți, antene, viermi?
Acestea sunt toate numele înseamnă aproape același lucru, dar au unele diferente:
roboți
un nume comun pentru toate tipurile de programe, de mai sus.
păianjeni
La fel ca și roboți, dar suna mult mai rece, cu atât mai mult ca jurnaliști
viermi
La fel ca și roboți, dar spre deosebire de roboți convenționale sunt auto-reproducător
furnici
distribuite (exemplu: ambalaj țânțar). interacționând roboți
Nu vătămați antenele motorului de căutare pe Internet?
Există mai multe motive pentru care oamenii cred că roboții dăunează Internet:
În același timp, cele mai multe dintre roboți sunt bine concepute, gestionate profesional, nu creează probleme și să ofere servicii excelente, în special având în vedere lipsa unor soluții alternative.
Prin urmare, roboți prin natura lor, nu sunt rele și nu sunt bune, și, prin urmare, necesită atitudine atentă.
Există o carte despre roboți de căutare?
Roboții și alte Beasties Internet de Joseph Williams
Nu am citit această carte, dar am auzit următorul răspuns: „Cartea este oarecum dezamăgitoare. Ea pretinde a fi „instrucțiunile“ pentru scris roboți, dar în opinia mea este doar o colecție de capitole scrise de oameni care au o anumită experiență în acest domeniu, și apoi vin împreună.
Agenți de Internet: Antenele, Wanderers, Brokeri și boti Fah-Chun Cheong.
Din câte știu eu, această carte nu mai este publicată. Acesta descrie motorul de căutare păianjeni, agenți pentru tranzacții comerciale, agenții de tină (Dungeons multi-user sau multi-user Dimensiuni jocuri online, de obicei, text) și alți roboți. Cartea este codul sursă un simplu robot de web bazat pe libwww-perl4.
HTTP, HTML, și rețeaua de biblioteci a considerat prea scurt, pentru a se califica pentru rolul de „ghid scris pe roboți“, dar le-a dat o mulțime de teorie și o descriere a implementarile existente. Ce este deosebit de bun, dacă nu aveți timp consumatoare de căutări manuale a informațiilor în rețea.
Perl LWP de Sean M. Burke.
Cartea descrie modul de utilizare LWP, standard perl-beblioteku pentru a lucra cu web. Acesta are un capitol despre roboți. Vă recomandăm.
Spidering Hacks de Kevin Hemenway, Tara Calishain.
Eu nu-l citesc. Cartea descrie păianjeni, LWP, robots.txt
Unde pot găsi mai multe informații despre roboți de căutare?
roboți de indexare
Cum roboți alege ce pagină de index?
Depinde de robotul - fiecare își folosește propriile criterii pentru selecție. În general, ele încep cu documentele, care este o mulțime de opțiuni - cum ar fi cataloage, site-uri de știri și cele mai populare site-uri de pe net.
Cele mai multe motoare de căutare vă permit să adăugați URL-ul manual. După adăugarea de acestea se adaugă la coadă, și după un timp indexate.
Din aceste surse, robotul selectează o adresă URL-uri, care sunt apoi indexate, din care el primește listele de noi URL-uri. Caracteristici de comportament mai frecvente la roboți Runet pot fi găsite în secțiunea relevantă.
Pe măsură ce robotul decide ce să indice?
Dacă robotul de indexare știe despre existența documentului, acesta poate decide să-l analiza (pentru a face cum pentru a analiza propoziții) și se adaugă la baza de date. Procesul în sine depinde de robotul specific: Unii roboți citit doar documente de titlu, unii iau primele câteva paragrafe, anumite - să ia întregul document, indicele de toate cuvintele cu greutăți diferite, în funcție de HTML-marcare. Unele demonteze meta tag-uri sau alte etichete speciale ascunse.
Sperăm că, odată cu dezvoltarea internetului, vor exista mai multe oportunități de a lega în mod eficient meta-date ale documentului cu documentul. Munca în această direcție este în curs de desfășurare.
Cum adaug site-ul meu să fie indexate?
Depinde de motorul de căutare. Multe sisteme oferă link-uri pentru a adăuga site-ul de pe pagina de căutare, sau într-una din sectiunile site-ului. De exemplu:
pentru administratori
Cum știu că site-ul meu a vizitat un robot?
Puteți verifica jurnalele pentru că într-un timp foarte scurt, s-a solicitat o serie de documente.
Dacă zanosti de server pentru a log user-agent-uri, puteți verifica jurnalele neobișnuit user-agent-uri.
Și, în sfârșit, în cazul în care site-ul solicită un fișier «/robots.txt», probabil, a fost un robot.
robotul a venit să mă vadă pe site-ul! Ce fac?
Hmm, practic nimic :-). Linia de jos este că acestea sunt complet automate. Nu trebuie să faceți nimic.
Dacă credeți că ați găsit un robot nou (de exemplu, acesta nu este specificat în lista de roboți activi și vine cu o anumită periodicitate, mi e-mail, așa că am putea adauga la lista. Dar te rog să nu-mi scrie despre tine în fiecare văzut un robot !
Robotul preia prea repede site-ul meu!
Astfel de roboți se numesc „rapid-ardere“, iar utilizatorii care vizualizează fișierele jurnal, acestea sunt de obicei observa imediat.
Cu toate acestea, dacă utilizați un server Web pentru PC-ul sau aveți un software de server lent, sau o mulțime de o lungă perioadă de timp a generat documente (de exemplu, CGI-script-uri sau doar documente foarte mari), aceste probleme se manifestă în eșec în conectarea sarcini mari, încetinește, sau în cel mai rău caz de eșec al sistemului.
În cazul în care robotul nu este listat, vă rugăm să trimiteți-mi vă colectarea de informații, inclusiv acțiunile întreprinse de tine. Chiar și eu nu pot ajuta, voi scrie despre acest robot, și, astfel, avertizează ceilalți utilizatori.
Cum pot obține roboții să stea departe de site-ul meu?
Despre acest lucru în secțiunea următoare.
Roboți de excludere standard
De ce am apar în jurnalele de cererile de fișier robots.txt?
Se cere de roboți care defalcare pentru a primi instrucțiuni pentru tratamentul site-ului, în conformitate cu standardul de excludere a roboților.
Dacă nu doriți să dea orice instrucțiuni pentru roboți, și în același timp doriți să eliminați aceste mesaje din jurnal, creați pur și simplu un site gol la rădăcina fișierului robots.txt.
Nu este necesar să se scrie HTML sau text, cum ar fi „Cine-i acolo?“ - cel mai probabil, nimeni nu a citit vreodată :-).
Cum de a preveni roboții să indexeze site-ul meu?
Cel mai simplu mod - de a pune în /robots.txt următoarele linii:
Mai multe restricții de puncte sunt specificate la fel de simplu.
Unde pot afla cum funcționează /robots.txt fișier?
User-agent: Yandex
Disallow:
User-agent: BadRobot
Disallow: /
User-agent: *
Disallow: / tmp
Disallow: / busteni
Al doilea bloc indică faptul că robotul numit «BadRobot» nu trebuie să indice toate URL-ul, care începe cu „/“. Din moment ce un „/“ start toate URL-ul, aceasta înseamnă pur și simplu că tot site-ul este închis de indexare pentru el.
Al treilea bloc interzice orice altă adresă URL index roboți, începând cu / tmp sau / log. „Zvezdochka“ - este un caracter special însemnând „orice alt User-agent“, dar, cu toate acestea, nu puteți utiliza User-agent Disallow instrucțiuni sau expresii regulate.
Există de multe ori fac două greșeli:
- Metacaracterele nu sunt acceptate: în loc de «Disallow: / tmp / *» doar scrie «Disallow: / tmp /».
- Scrie doar o singură cale pentru fiecare Interdicție-line (în versiunile viitoare ale acestei specificații se pot schimba).
Va robots.txt standard pentru a dezvolta în continuare?
Poate că ... există o serie de idei cu privire la acest standard. Aceste idei nu au fost furnizate în propunerile concrete, din cauza lipsei de timp sau pentru că aceste idei sunt promovate suficient de agresiv. Vă rugăm să trimiteți sugestiile dumneavoastră la lista de discuții dezvoltatorii robot.
Ce se întâmplă dacă am nici o modalitate de a crea un fișier robots.txt?
Uneori nu se poate crea fișierul /robots.txt, de exemplu, din cauza lipsei de drepturi de acces. Pentru astfel de cazuri, există un standard nou, care utilizează meta tag-uri pentru a dezactiva indexarea documentelor.
Dacă rândul său, într-o etichetă de hârtie:
META NAME = «ROBOTI» content = «NOINDEX»
acest document nu va fi indexat.
Iar dacă scrie:
META NAME = «ROBOTI» content = «nofollow»
Este transferul de fișiere și directoare în periculoase robots.txt?
Unii se tem că, listarea fișiere și directoare în /robots.txt de fișiere, ele atrag atenția în mod excesiv pentru a le. Pentru aceste două consilii.
În primul rând, puteți pune toate fișierele pe care nu ar trebui să fie accesibile pentru roboți, într-un director separat, configurați serverul, astfel încât a fost imposibil pentru a obține o listă de fișiere în acel director, și apoi scrie în robots.txt doar numele directorului. Astfel, roboții nu îndeplinesc standardele nu vor fi în măsură să indexeze fișierele din acest director, cu excepția cazului când sunt puse pe ele se leagă de alte pagini.
Pur și simplu pune, în loc de:
User-agent: *
Disallow: /foo.html
Disallow: /bar.html
User-agent: *
Disallow: / norobots /
pune directorul „norobots“ fișiere foo.html și bar.html și dezactivați serverul pentru a da o listă de fișiere care sunt în acest director. Acum, atacatorul va ști că aveți un director „norobots“, dar nu pot găsi numele de fișier care sunt acolo - va trebui să le ghicească.
În practică, cu toate acestea, această abordare este foarte vulnerabilă. Cineva ar putea posta un link către fișierele de pe site-ul tau. Sau numele lor pot să apară într-un fișier jurnal publice, de exemplu, generate de server proxy prin care vizitatorii du-te la site-ul tau. Sau cineva poate reconfigura serverul, din nou, spunându-i să dea o listă de fișiere într-un director. Toate acestea ne conduce la adevăratul răspuns la această întrebare:
disponibilitate
Cum pot beneficia de serviciile de roboți?
Dacă înseamnă serviciile de căutare, dar acum pe Internet o mulțime de ei. De exemplu, încercați Yandex sau Google.
De unde pot obține un robot pentru tine?
De asemenea, o mulțime de proiecte open source pot fi găsite pe SourceForge.
De unde pot obține codul sursă pentru un robot?
A se vedea paragraful anterior - codul sursă este disponibil pentru unele roboți publice.
Sau uite libwww-perl5 - cu el este un mic exemplu.
Și nu uitați să se uite pe SourceForge.
Scriu un robot, ce ar trebui să acorde o atenție?
Oh, o mulțime. Pentru a începe, citiți toate materialele acestui site, apoi - rapoartele din trecut WWW-conferințe, precum și specificația HTML și HTTP ..
Am scris un robot, cum pot include în listă?
Completați formularul de pe pagina Web-ul Roboți Baza de date și trimite-l la mine.