crawlerele motorului de căutare (sau păianjeni, păianjeni, motoare de căutare, etc.) sunt în mod constant scotoci prin intermediul paginilor web, de prelucrare, informațiile conținute pe ele. Webmaster poate controla comportamentul motoarelor de căutare pe site-ul său în două moduri: prin utilizarea meta tag-uri sau fișier robots.txt. Să considerăm a doua metodă.
Fișier Format de înregistrare robots.txt
Fișierul robots.txt specifică: ce robotul, și că nu ar trebui să fie indexat pe server. În general, intrarea în fișierul este compus din mai multe grupuri de instrucțiuni, sau mai simplu - blocuri (separate printr-o linie goală), fiecare dintre acestea fiind destinate uneia sau mai multor roboți. Numele robotului prezentat în prima linie a blocului (opțiunea User-agent al prezenței sale în robots.txt este necesar.)
User-agent: robot1 robot2 robot3. în cazul în care:
robot1, robot2 și robot3 - numele de la motoarele de căutare. De exemplu:
User-agent: WebCrawler Lycos StackRambler
După cum puteți vedea, numele de crawler web, uneori, diferă de numele motorului de căutare (în acest exemplu: un motor de căutare de robot Rambler „numele“ StackRambler). În cele mai multe cazuri, cu toate acestea, scrie numele roboților este necesar. Pur și simplu scrie:
User-agent: *. în cazul în care semnul „*“ indică faptul că intrarea se aplică tuturor roboților (numai o astfel de linie poate fi în fișierul).
Urmează a doua linie:
calea - o parte a URI, care este interzis să viziteze robotul. Poate fi specificată complet sau parțial (orice URI, începând cu valoarea specificată este interzis accesul la robot). Pentru fiecare obiect, interzis să indexare trebuie să scrie un Dissallow separat.
Notă. Nu sunt specificate căi absolute și relative.
Disallow: / TopSecret / - interzice accesul la un director cu același nume, dar nu împiedică fișierele cu același nume, și anume fișier topsecret.html vor fi indexate, și toate fișierele din directorul / TopSecret / - nr.
Disallow: / privat - nu permite accesul la ambele directoare cu acest nume, și servicii de fișiere.
Disallow: /folder/file.htm - neagă accesul la un anumit fișier într-un anumit director.
Exemplul arată că, pentru fiecare obiect, interzis pentru indexare înregistrată linie separată Disallow. Disallow opțiune valoare goală înseamnă că fiecare adresă URL poate fi încărcată. Fișierul robots.txt trebuie să fie de cel puțin un parametru Disallow. Disallow parametru se aplică întotdeauna numai pentru parametrul User-agent anterior, astfel încât pentru fiecare parametru User-agent trebuie să setați parametrii Disallow.
Exemple de fișiere de înregistrare
Cel mai simplu mod de a înțelege sintaxa unui fișier robots.txt, și să învețe să folosească poate fi exemple specifice. Mai jos sunt câteva exemple de intrări tipice din dosar.
User-agent: StackRambler Googlebot
Disallow:
User-agent: *
Disallow: / tmp /
Disallow: / logs /
În acest exemplu, toate roboți interzis să viziteze directoare și jurnalele de TMP și numai roboți StackRambler Googlebot și a permis să viziteze toate.
# Nu-mi place motoarele de căutare!
În acest exemplu, toate roboți interzis orice activitate pe site.
User-agent: *
Disallow: / private / litere /
# Acest lucru este director de top secret.
Disallow: / cgi-bin /
Disallow: /anektods.html
În acest exemplu, toți roboții interzis să viziteze paginile care sunt în directoarele / private / litere / și / cgi-bin /, precum și anektods.html fișier.
Acesta este cel mai simplu caz. Toți roboții se pot ocupa orice documente pe server.
Pe lângă controlul site-ul de indexare, un robots.txt este acum mai rezolvă adiacente informându sarcina cu ajutorul a două directive:
Cum de a proteja informațiile de la prying? Cele mai evidente - nu-l loc pe o resursă partajată. În cazul în care acest lucru este foarte important de informații, de ce sa răspândit în rețeaua globală? Dacă informațiile încă mai trebuie să se stabilească, folosiți „roboți“ meta tag-ul în antetul documentului. Și pentru a stabili un sistem de autentificare adecvat.
O interdicție asupra anumitor pagini de indexare roboți utile atunci când aveți nevoie pentru a scăpa de motor de căutare diferite informații nesolicitate - duplicat conținut de pe site-ul, paginile tehnice și lipsite de sens și alte lucruri care nu reprezintă o valoare pentru motoarele de căutare. Deci ai reduce numărul lucrărilor sale pe site-ul și de a îmbunătăți posposobstvuete indexicality informații utile (care apoi duce la vizitatorii site-ului de la motoarele de căutare).
Cred că acest articol descrie tot ce trebuie să știți despre modul de a gestiona acțiunile crawlerele pe site. Dacă cineva vrea să se îngropa mai adânc în această problemă, am recomandăm să vizitați următoarele resurse on-line: