Câteva cuvinte despre modul în care roboții motoarelor de căutare.
Primul motiv pentru care am decis să scriu acest articol a fost cazul atunci când am fost cercetarea de acces la fișiere jurnal la serverul meu și a găsit acolo următoarele două linii:
adică Lycos a apelat la serverul meu, prima cerere a fost că dosarul nu este /robots.txt, adulmecă prima pagină, și laminate. Bineînțeles, nu am place, și am început să dau seama ce e ceea ce.
Se pare că toate motoarele de căutare „inteligente“, prima adresă la dosar, care trebuie să fie prezente pe fiecare server. Acest fișier descrie drepturile de acces pentru motoarele de căutare, și este posibil să se specifice diferitelor drepturi ale diferitelor roboți. Pentru el, există un standard numit Standart pentru excludere robot.
Potrivit lui Luisa Mone (Louis Monier, Altavista), doar 5% din totalul site-urilor are în prezent nici un fișier /robots.txt goale în cazul în care, la toate, ei (fișierele) există acolo. Acest lucru este confirmat de informațiile colectate în timpul unui recent jurnalele de lucru robot de studiu Lycos. Sharl Kollar (Charles P.Kollar, Lycos), spune că doar 6% din toate cererile de /robots.txt au un cod de rezultat 200. Iată câteva motive pentru care se întâmplă acest lucru:
oamenii care au stabilit serverul web, pur și simplu nu știu nici de acest standard, și nici necesitatea /robots.txt există fișier
nu neapărat oameni, instalați un server web, acesta a fost umplut, iar cel care este webmaster nu are contact corespunzător cu administratorii „bucată de fier“
Acest număr reflectă numărul de site-uri care într-adevăr nevoie pentru a elimina roboți redundante solicitări deoarece nu toate serverele au un trafic semnificativ, la care Active Server pe șenile, devine vizibil pentru utilizatorii obișnuiți
fișier /robots.txt pentru instrucțiuni pentru toți roboții motoarelor de căutare (păianjeni) la serverul de informații de index așa cum este definit în acest fișier, și anume numai acele directoare și fișiere la server, care nu este descris în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe înregistrări, care sunt asociate cu un anumit robot de (definit valoarea agent_id a câmpului) și indică pentru fiecare robot sau pentru toate dintr-o dată exact ce nu ar trebui să fie indexat. Oricine scrie /robots.txt fișier trebuie să specifice subșir Domeniu de utilizare Token-agent, care dă fiecare robot HTTP-server de cerere indexate. De exemplu, robotul curent Lycos la astfel de probleme de solicitare ca domeniu User-Agent: Lycos_Spider_ (Rex) /1.0 libwww / 3.1.
Lycos În cazul în care robotul nu și-a găsit descrierea în /robots.txt - el face acest lucru, după cum consideră potrivit. Odată ce Lycos robotul „vezi“ în descrierea fișierului /robots.txt pentru sine - face ceea ce este prescris.
La crearea fișierului /robots.txt ar trebui să ia în considerare un alt factor - dimensiunea fișierului. După cum este descris, fiecare fișier care nu ar trebui să fie indexat, și chiar și pentru mai multe tipuri de roboți singur, cu un număr mare de neindexat /robots.txt dimensiunea fișierului devine prea mare. În acest caz, ar trebui să utilizați una sau mai multe dintre următoarele moduri de a reduce dimensiunea /robots.txt:
specificați directorul pe care nu ar trebui să fie indexate, și, în consecință, nu sunt supuse indexării fișierele pe care le plasate în ea
a crea structura de server, luând în considerare ușurința de descriere, excepții /robots.txt
indică o modalitate de indexare pentru toate agent_id
specificați măști pentru fișiere și directoare
Înregistrarea (înregistrări) fișier /robots.txt
Descrierea generală a formatului de înregistrare.
[# Comentariu șir de caractere NL] *
Descrierea parametrilor utilizați în înregistrările /robots.txt
[. ] + Parantezele din următorul ei + semn indică faptul că, în calitate parametri trebuie să fie specificate unul sau mai mulți termeni.
De exemplu, după „User-agent:“ prin spațiul liber poate fi specificată una sau mai multe agent_id.
[. ] * Parantezele pătrate cu următoarele ei cu un asterisc * înseamnă că, în calitate de parametri pot fi specificate zero sau mai mulți termeni.
[. ]? Între paranteze cu următorul semn pentru ei. înseamnă că ca parametri pot fi indicate prin termenul zero sau unu.
|. înseamnă sau ce trasaturi sau ce dupa.
WS unul dintre simbolurile - un spațiu (011) sau o filă (040)
NL este unul dintre simbolurile - la sfârșitul liniei (015). un retur de car (012), sau ambele aceste caractere (Enter)
User-Agent: cuvinte cheie (majuscule și minuscule nu sunt importante).
Parametrii sunt crawlerele agent_id.
Disallow: cuvântul cheie (majuscule și minuscule nu sunt importante).
Parametrii sunt calea completă la fișierul sau directorul neindexabil
agent_id orice număr de caractere, fără a include WS și NL, care determină crawler agent_id diferite. Simbolul * identifică toate roboți dintr-o dată.
path_root orice număr de caractere, fără a include WS și NL, care definesc fișierele și folderele care nu pot fi indexate.
Dacă nu iau în considerare specificul fiecărui crawler, puteți specifica excepții pentru toate roboți dintr-o dată. Acest lucru se realizează prin specificarea șirul User-agent: *
În cazul în care crawlerul găsește în /robots.txt fișier mai multe intrări pentru a satisface agent_id valoarea sa, robotul este liber să aleagă oricare dintre ele.
Fiecare crawler va determina URL-ul absolut pentru a citi de pe server folosind înregistrările /robots.txt. caractere mari și mici în materie path_root.