De aceea, și cum să-l folosească

Aspecte tehnice ale site-ului creat joacă un rol la fel de important pentru a promova site-ul dvs. pentru motoarele de căutare decât conținutul său. Unul dintre cele mai importante aspecte tehnice ale site-ului este indexat, adică. E. Definiția zonele site-ului (fișiere și directoare), care poate sau nu poate fi indexat de roboți de motoare de căutare. În acest scop, un fișier robots.txt specială.
2. Conceptul unui fișier robots.txt, precum și cerințele pentru ea

fișier /robots.txt pentru instrucțiuni pentru toți roboții motoarelor de căutare (păianjeni) la serverul de informații de index așa cum este definit în acest fișier, și anume numai acele directoare și fișiere pe server, care nu sunt descrise în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe înregistrări, care sunt asociate cu un anumit robot de (definit valoarea agent_id a câmpului) și indică pentru fiecare robot sau pentru toate dintr-o dată, adică acestea nu ar trebui să fie indexat.

Sintaxa vă permite să setați indexarea zonă interzisă, pentru toți, și pentru anumite, roboți.
Prin fișierul robots.txt cerințe speciale, nu a căror îndeplinire poate conduce la o citire incorectă a robotului motorului de căutare, sau chiar la incapacitatea fișierului.


 toate scrisorile din numele fișierului trebuie să fie litere mari, adică ar trebui să aibă o literă mică ..:
robots.txt - corect,
Robots.txt sau Robots.txt - nu este corect;

 fișier robots.txt trebuie creat într-un format de text Unix. Când copiați fișierul pe site, ftp-client ar trebui să fie setat la un mod de partajare de fișiere text;

 fișier robots.txt trebuie să fie localizat în directorul rădăcină al site-ului.
3. Conținutul fișierului robots.txt
fișier robots.txt include două intrări: «User-agent» și «Interdicție». Numele acestor înregistrări nu sunt sensibile la litere.
Unele motoare de căutare sprijini, de asemenea intrări suplimentare. De exemplu, motor de căutare «Yandex» utilizează «gazdă» de intrare pentru a determina locul oglinzii principale (site-ul oglindă principal - un site care este de motoarele de căutare să indexeze).
Fiecare intrare are propriul scop și poate avea loc de mai multe ori, în funcție de numărul de închis din paginile de indexare și directoare (sau) și numărul de roboți la care se aplica.

Se presupune următoarele fișier robots.txt siruri de caractere format:

record_name [opțional
Spațiu]: [opțional
lacune] la [lacune opțional]

Pentru a fișier robots.txt a fost considerat valid, este necesar ca cel puțin o directivă «Interdicție» au participat după fiecare intrare «User-agent».
Complet fișier robots.txt gol este echivalent cu lipsa acesteia, ceea ce sugerează permis de indexare a intregului site.

Înregistrare «User-agent» trebuie să conțină numele robotului motorului de căutare. În această intrare, puteți specifica fiecare robot de individ, ce pagini de index și care nu.

Exemplu intrările «User-agent», în cazul în care are loc tratamentul pentru toate motoarele de căutare, fără excepție, și simbolul „*“ este folosit:
User-agent: *

Exemplu intrările «User-agent», în cazul în care are loc tratamentul numai la Motorul de căutare Rambler robotului:
User-agent: StackRambler

Robot fiecare motor de căutare are numele său propriu. Există două modalități principale de a ajunge la el (nume) știu:


 pe site-urile de mai multe motoare de căutare cadou special secțiunea „ajutor pentru webmasteri“, care indică de multe ori numele crawler;

Înregistrarea «Disallow» ar trebui să conțină prevederi care indică un păianjen de la un record de «User-agent», ce fișiere și directoare (sau) indexate interzise.
Luați în considerare diferitele exemple de înregistrare «Interdicție».

Exemplu (site-ul este complet deschis pentru indexare):
Disallow:

Exemplu (site-ul este complet interzisă de indexare este utilizată pentru acest caracter «/».): Disallow: /

Exemplu (pentru fișierele de indexare este dezactivat «page.htm», localizat în directorul rădăcină și fișierul «page2.htm», sunt în directorul «dir»):
Disallow: /page.htm
Disallow: /dir/page2.htm

Exemplu (director pentru indexare interzise «cgi-bin» și «Forum» și, prin urmare, întregul conținut al directorului):
Disallow: / cgi-bin /
Disallow: / forum /

Poate că închiderea unui număr de documente indexate, și directoare (sau), care începe cu aceleași personaje, folosind doar o singură intrare «Interdicție». Pentru a face acest lucru, trebuie să vă înregistrați simboluri identice inițiale fara slash de închidere.

Exemplu (pentru indexare a interzis directorul «dir», precum și toate fișierele și directoarele care încep cu litera «dir», adică fișiere: .. «Dir.htm», «direct.htm», directoare: «dir», «directory1 »,«directory2»etc) ...:
Disallow: / dir

Unele motoare de căutare permit folosirea expresiilor regulate în «Interdicție» de înregistrare. De exemplu, motorul de căutare «Google» în înregistrarea acceptă caractere „Disallow“ ( „*“ înseamnă orice secvență de caractere) și „$“ (sfârșitul liniei). Acest lucru vă permite să dezactivați indexarea anumitor tipuri de fișiere.

Exemplu (fișiere de indexare cu extensia ban «htm»):
Disallow: * .htm $

Înregistrarea «gazdă» utilizat «Yandex» motor de căutare. Este necesar să se definească locul oglinzii principale, și anume, în cazul în care site-ul are o oglindă .. (Oglinda -. E copie completă sau parțială a disponibilității site-ului resurselor, duplicarea este necesară pentru site-urile proprietarilor vysokoposeschaemyh pentru a îmbunătăți fiabilitatea și disponibilitatea serviciului lor), Apoi, cu ajutorul directivei «gazdă» aveți posibilitatea să selectați numele pe care doriți să fie indexate. În caz contrar, «Yandex» va selecta oglinda principală a lor proprii, iar restul numelor vor fi interzise pentru indexare.

Pentru compatibilitate cu motoarele de căutare, care, în fișierul robots.txt de manipulare nu percepe Directiva gazdă, trebuie să adăugați o intrare «gazdă», imediat după înregistrările Disallow.

Exemplu: www.site.ru - oglindă primară:
Realizator: www.site.ru

4. Exemple de fișierul robots.txt

Un exemplu de fișier robots.txt, permițând tuturor roboților să indexeze tot site-ul:

User-agent: *
Disallow:
Realizator: www.site.ru

Un exemplu al unui fișier robots.txt, care interzice toți roboții să indexeze un site:

User-agent: *
Disallow: /
Realizator: www.site.ru

Un exemplu al unui fișier robots.txt, care interzice toți roboții să indexeze directorul «ABC», precum și toate directoarele și fișierele care încep cu «abc» de caractere.

User-agent: *
Disallow: / abc
Realizator: www.site.ru

Un exemplu de fișier robots.txt, care interzice paginile de indexare «page.htm», localizat în directorul rădăcină al site-ului, «Googlebot» pe șenile:

User-agent: Googlebot
Disallow: /page.htm
Realizator: www.site.ru

Un exemplu de fișier robots.txt, care interzice indexarea:

- robot de «Googlebot» - «page1.htm» pagina, situată în «director» directorul;
- robot de «Yandex» - toate directoarele și paginile de pornire simboluri «dir» (/ dir /, / direct /, dir.htm, direction.htm, etc ...) și situat în directorul rădăcină al site-ului.

User-agent: Googlebot
Disallow: /directory/page1.htm

User-agent: Yandex
Disallow: / dir
Realizator: www.site.ru

5. Erori în fișierul robots.txt

Una dintre cele mai frecvente greșeli - sintaxa inversată.

greșit:
User-agent: *
Disallow: Yandex

corecta:
User-agent: Yandex
Disallow: *

Înregistrarea «Disallow» conține mai multe directive.

greșit:
User-agent: *
Disallow: / dir / / cgi-bin / / forum /

corecta:
User-agent: *
Disallow: / dir /
Disallow: / cgi-bin /
Disallow: / forum /

A apărut o eroare în timpul copierii fișierului. robots.txt nu de multe ori copiate în format Unix și Dos. În ciuda faptului că, din cauza prevalenței acestei erori, mulți roboți de căutare pot înțelege deja în mod corect datele unui robots.txt, este considerat o eroare.

În cazul în care prelucrarea 404 (Document Not Found), un server de web oferă o pagină specială, și în același fișier robots.txt lipsește, este posibil ca un robot de căutare cu o cerere de fișier robots.txt este emisă acea pagină foarte specială în nici un fel nu este un fișier controlul de indexare.

Eroare asociată cu fișierul registru de abuz robots.txt. De exemplu, în cazul în care un «cgi-bin» director trebuie să fie închise, înregistrând «Disallow» nu poate scrie numele directorului în litere mari «cgi-bin».

greșit:
User-agent: *
Disallow: / CGI-BIN /

corecta:
User-agent: *
Disallow: / cgi-bin /

Eroarea asociată cu lipsa unei slash deschidere la închiderea directorului index.

greșit:
User-agent: *
Disallow: dir

User-agent: *
Disallow: pagină.html

corecta:
User-agent: *
Disallow: / dir

User-agent: *
Disallow: /page.html

Astfel, existența unui fișier robots.txt, precum și punerea împreună, poate afecta promovarea site-ului în motoarele de căutare. Nestiind sintaxa fișierului robots.txt, puteți preveni indexarea la posibilitatea de a muta pagina, precum și întregul site. Pe de altă parte, bine scris acest fișier poate fi foarte util în promovarea unei resurse, de exemplu, pot fi închise prin documente de indexare care împiedică progresul în paginile dorite.

articole similare