Cum roboți (păianjeni) motoarele de căutare

Primul motiv pentru care am decis să scriu acest articol a fost cazul atunci când am fost cercetarea de acces la fișiere jurnal la serverul meu și a găsit acolo următoarele două linii:

adică Lycos a apelat la serverul meu, prima cerere a fost că dosarul nu este /robots.txt, adulmecă prima pagină, și laminate. Bineînțeles, nu am place, și am început să dau seama ce e ceea ce.

Se pare că toate motoarele de căutare „inteligente“, prima adresă la dosar, care trebuie să fie prezente pe fiecare server. Acest fișier descrie drepturile de acces pentru motoarele de căutare, și este posibil să se specifice diferitelor drepturi ale diferitelor roboți. Pentru el, există un standard numit Standart pentru excludere robot.

Potrivit lui Luisa Mone (Louis Monier, Altavista), doar 5% din totalul site-urilor are în prezent nici un fișier /robots.txt goale în cazul în care, la toate, ei (fișierele) există acolo. Acest lucru este confirmat de informațiile colectate în timpul unui recent jurnalele de lucru robot de studiu Lycos. Sharl Kollar (Charles P.Kollar, Lycos), spune că doar 6% din toate cererile de /robots.txt au un cod de rezultat 200. Iată câteva motive pentru care se întâmplă acest lucru:

oamenii care au stabilit serverul web, pur și simplu nu știu nici de acest standard, și nici necesitatea /robots.txt există fișier.
nu neapărat oameni, instalați un server web, acesta a fost umplut, iar cel care este webmaster nu are contact corespunzător cu administratorii „bucata de fier“.
Acest număr reflectă numărul de site-uri care într-adevăr nevoie pentru a elimina roboți redundante solicitări deoarece nu toate serverele au un trafic semnificativ, la care vizitează serverul pe șenile devine vizibil pentru utilizatorii obișnuiți.

format de fișier /robots.txt.

fișier /robots.txt pentru instrucțiuni pentru toți roboții motoarelor de căutare (păianjeni) la serverul de informații de index așa cum este definit în acest fișier, și anume numai acele directoare și fișiere la server, care nu este descris în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe înregistrări, care sunt asociate cu un anumit robot de (definit valoarea agent_id a câmpului) și indică pentru fiecare robot sau pentru toate dintr-o dată exact ce nu ar trebui să fie indexat. Oricine scrie /robots.txt fișier trebuie să specifice subșir Domeniu de utilizare Token-agent, care dă fiecare robot HTTP-server de cerere indexate. De exemplu, robotul curent Lycos la astfel de probleme de solicitare ca domeniu User-Agent:

Lycos În cazul în care robotul nu și-a găsit descrierea în /robots.txt - el face acest lucru, după cum consideră potrivit. Odată ce Lycos robotul „vezi“ în descrierea fișierului /robots.txt pentru sine - face ceea ce este prescris.

La crearea fișierului /robots.txt ar trebui să ia în considerare un alt factor - dimensiunea fișierului. După cum este descris, fiecare fișier care nu ar trebui să fie indexat, și chiar și pentru mai multe tipuri de roboți singur, cu un număr mare de neindexat /robots.txt dimensiunea fișierului devine prea mare. În acest caz, ar trebui să utilizați una sau mai multe dintre următoarele moduri de a reduce dimensiunea /robots.txt:

specificați directorul pe care nu ar trebui să fie indexate, și, în consecință, nu sunt supuse indexării fișierele pe care le plasate în ea
a crea structura de server, luând în considerare ușurința de descriere, excepții /robots.txt
indică o modalitate de indexare pentru toate agent_id
specificați măști pentru fișiere și directoare

Înregistrarea (înregistrări) fișier /robots.txt

Descrierea generală a formatului de înregistrare.

Descrierea parametrilor utilizați în înregistrările /robots.txt

[. ] + Parantezele din următorul ei + semn indică faptul că, în calitate parametri trebuie să fie specificate unul sau mai mulți termeni.

De exemplu, după „User-agent:“ prin spațiul liber poate fi specificată una sau mai multe agent_id.

[. ] * Parantezele pătrate cu următoarele ei cu un asterisc * înseamnă că, în calitate de parametri pot fi specificate zero sau mai mulți termeni.

[. ]? Între paranteze cu următorul semn pentru ei. înseamnă că ca parametri pot fi indicate prin termenul zero sau unu.

|. înseamnă sau ce trasaturi sau ce dupa.

WS unul dintre simbolurile - un spațiu (011) sau o filă (040)

NL este unul dintre simbolurile - la sfârșitul liniei (015). un retur de car (012), sau ambele aceste caractere (Enter)

User-Agent: cuvinte cheie (majuscule și minuscule nu sunt importante).

Parametrii sunt crawlerele agent_id.

Disallow: cuvântul cheie (majuscule și minuscule nu sunt importante).

Parametrii sunt calea completă la fișierul sau directorul neindexabil

agent_id orice număr de caractere, fără a include WS și NL, care determină crawler agent_id diferite. Simbolul * identifică toate roboți dintr-o dată.

path_root orice număr de caractere, fără a include WS și NL, care definesc fișierele și folderele care nu pot fi indexate.

Dacă nu iau în considerare specificul fiecărui crawler, puteți specifica excepții pentru toate roboți dintr-o dată. Acest lucru se realizează prin specificarea șirul

În cazul în care crawlerul găsește în /robots.txt fișier mai multe intrări pentru a satisface agent_id valoarea sa, robotul este liber să aleagă oricare dintre ele.

Fiecare crawler va determina URL-ul absolut pentru a citi de pe server folosind înregistrările /robots.txt. caractere mari și mici în materie path_root.

In exemplul 1 fișier /robots.txt conține două intrări. Prima se aplică tuturor crawlerele și interzice indexarea tuturor fișierelor. A doua se referă la căutare robotului și indexare serverul Lycos interzice directorul / cgi-bin / și / tmp /, iar restul - o rezolvă. Prin urmare, serverul va fi indexat numai de sistem Lycos.

În exemplul 2 fișier /robots.txt conține două intrări. Primul permite antenele motorului de căutare să indexeze Copernic și Fred server întreg. Al doilea - și interzice toate osebenno robotul Rex directoare de index și fișiere, cum ar fi / tmp /, / ceai-time /, /top-cat.txt, /traverse.this etc. Este doar un caz de stabilire a unei măști pentru fișiere și directoare.

Exemplul 3 - o singură înregistrare. Nu se interzice toți roboții să indexeze directorul / paianjenii / nu / aici /, inclusiv calea și fișiere cum ar fi / păianjeni / nu / aici / într-adevăr /, /spiders/not/here/yes/even/me.html. Cu toate acestea, acest lucru nu include / paianjeni / nu / / păianjeni sau / nu / ei (un „/ păianjeni / nu /“ director).

Unele probleme legate de antenele motoarelor de căutare.

Incompletitudinea standardului (Standart pentru excludere Robot).

Din păcate, nu pentru că motoarele de căutare au apărut atât de mult timp în urmă, standardul pentru roboți în curs de elaborare, finalizare, bine, etc. Acest lucru înseamnă că nu neapărat motoarele de căutare le vor urma în viitor.

Această problemă nu este foarte relevant pentru Internet a sectorului românesc, din moment ce nu prea multe servere din România, cu un astfel de trafic serios care vizitează crawler-ul lor web va împiedica utilizatorii obișnuiți. De fapt, fișierul /robots.txt în ordine și este proiectat pentru a restricționa acțiunile roboți.

Nu toate antenele motoarelor de căutare folosesc /robots.txt.

Până în prezent, acest fișier este solicitat în mod necesar de către motorul de căutare păianjeni numai sisteme, cum ar fi Altavista, Excite, Infoseek, Lycos, OpenText și WebCrawler.

Folosind HTML meta tag-uri.

Proiectul inițial, care a fost creat ca urmare a unor acorduri între programatori unui număr de organizații comerciale de indexare (Excite, Infoseek, Lycos, Opentext și WebCrawler), la o recenta reuniune Workshop Indexing distribuie (W3C). de mai jos.

La această întâlnire, am discutat utilizarea HTML meta tag-uri pentru a controla comportamentul de roboți de căutare, dar nu sa ajuns la un acord final. au fost identificate următoarele aspecte pentru discuții în viitor:

Incertitudinea /robots.txt caietul de sarcini fișier
Definiția exactă a utilizării HTML meta tag-uri, sau câmpuri suplimentare în /robots.txt fișier
Informații „Vă rugăm să vizitați“
Informații de monitorizare: conexiuni deschise interval maxim sau la serverul în care puteți începe să indexeze server.

Această etichetă este conceput pentru utilizatorii care nu pot controla /robots.txt fișier de pe site-urile lor. Eticheta vă permite să specificați un comportament de căutare de robot pentru fiecare HTML-pagini, dar nu se poate evita complet de manipulare robot pentru a-l (așa cum s-ar putea indica în fișierul /robots.txt).

robot_terms - o listă separată prin virgulă dintre aceste cuvinte cheie (caractere majuscule sau minuscule nu contează): toate, niciuna, INDEX, NOINDEX, URMA, nofollow.

NONE - spune toți roboții ignora această pagină atunci când indexarea (echivalentă cu utilizarea simultană a cuvintelor cheie NOINDEX, nofollow).

ALL - permite să indexeze această pagină și toate link-urile din ea (echivalent cu utilizarea simultană a cuvintelor cheie, INDEX URMA).

INDEX - permite indexarea paginii

NOINDEX - indicele nesoluționată această pagină

ULTERIOARE - permite indexarea tuturor link-urile din această pagină

Nofollow - link-uri de indexare nerezolvate din această pagină

Dacă această meta tag-ul lipsește sau nu este specificat robot_terms, căutarea robotul implicit vine ca în cazul în care robot_terms = INDEX, FOLLOW (adică toate) au fost specificate. În cazul în care conținutul găsit cuvânt cheie de toate, robotul acționează în consecință, ignorând capacitatea de a specifica cuvinte cheie diferite. Dacă un conținut sunt opuse în cuvinte cheie însemnând, de exemplu, URMA, nofollow, robotul ajunge la discreția sa (în acest caz, urmați).

Dacă robot_terms conține doar NOINDEX, link-urile de pe această pagină nu va fi indexat. Dacă robot_terms conține doar nofollow, atunci pagina este indexat, dar link-uri, respectiv, sunt ignorate.

Textul - textul care va fi afișat într-un răspuns total la interogarea utilizatorului la motorul de căutare. Acest text nu trebuie să conțină tag-uri de marcare și cel mai logic pentru a încorpora în ea sensul acestui document pentru câteva linii.

Excluderea prevăzută a vizitelor repetate folosind HTML meta tag-uri

Unii păianjeni comerciale de motoare de căutare au fost folosind meta tag-uri pentru a permite „legătura“ între robot și webmaster. Altavista utilizează cuvinte cheie meta tag-ul, și InfoSeek utiliza cuvinte cheie si tag-uri DESCRIERE meta.

Indicele documentului o dată sau de a face acest lucru în mod regulat?

Webmasterul poate „spune“ căutare robot sau fișier semn de carte utilizatorul că conținutul unui fișier se va schimba. În acest caz, robotul nu va salva o adresă URL, iar browserul utilizatorului va fi sau nu va face un fișier într-un semn de carte. În timp ce această informație este descrisă numai în fișierul /robots.txt, utilizatorul nu va ști că această pagină se poate modifica.

Meta tag-DOCUMENT DE STAT poate fi utilă în acest scop. În mod implicit, această meta tag-ul este primit de la content = STATIC.

Cum se exclud paginile generate de indexare sau documente duplicate în cazul în care există un server oglindă?

pagini generate - pagini generate de acțiunea CGI-script-uri. Ei cu siguranță nu ar trebui să fie indexat, pentru că dacă încercați să se scufunde în ele de la motorul de căutare, o eroare va fi emis. În ceea ce privește oglinzile, cu atât mai mult inutil atunci când a emis două link-uri diferite pentru diferite servere, dar cu același conținut. Pentru a evita acest lucru, utilizați o adresă URL metaetichetă indicând URL-ul absolut al documentului (în cazul oglinzilor - pagina corespunzătoare serverului principal).

surse

Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot de excludere standard Revisited, www.kollar.com/robots.html

Știri
Cavalerii Teoria eter

Acest Kornilov a scris pe pagina sa de pe rețeaua socială.

Potrivit lui Kornilov, atunci mesajul său a fost întâmpinată cu neîncredere.

Acum, Vladimir Kornilov a decis să se întoarcă la acest subiect, în legătură cu care se publică în fotografiile mele de pe Facebook misterioase israelienilor care au luat parte la masacrul de la Odessa.

Printre multele întrebări pe care Kornilov, a spus el, ar dori să obțină un răspuns, de exemplu, sunt după cum urmează:

„De ce au intrat accidental în Odesa cu echipament medical, mănuși de cauciuc, în cazul în care au știut dinainte că va fi rănit și ucis? Sau de ce acest luptător uitat brusc limba engleză, atunci când a dat seama că dosarul său?“.

apa lacurilor, mărilor și oceanelor prin lushariya --------- nordice roti spre m Lc - p-in-k-i, iar apa din polushariya sudic - ra - conductive dizolvată -sya- po- h asul săgeată - Obra-zuya- firma -Oral-furnica-ski-e-ovo-apă.

Principalul motiv pentru vârtejuri de rotație sunt vânt locale.
Cu cât viteza vântului este mai mare viteza de rotație a vîrtejuri și ca o consecință, mai mari vârtejuri forței centrifugale, contribuind astfel la creșterea nivelului apei mărilor și oceanelor.
Și cea mai mică forța centrifugă a vârtejuri, este mai scăzut nivelul apei mărilor și oceanelor.

O viteză de curgere pe perimetrul mărilor și oceanelor nu este același lucru peste tot și depinde de adâncimea coastei. În partea superficială a vitezei curenților de mare este crescut, iar în partea adâncă a mării este redusă.
fluctuațiile sezoniere ale nivelului apei ceas-tsya nu în jurul valorii de coasta mărilor și oceanelor-s, dar numai în acele coaste unde -mare viteza unghiulară a fluxurilor și a forței centrifuge, prin urmare, de mare a apei. (Centrifug forța F = v / r).
În zonele de coastă drepte, în cazul în care curenții nu au nici un nivel de apă cu viteză unghiulară nu crește.

Pagina anterioară

Pagina următoare