1. Introducere
Aspecte tehnice ale site-ului creat joacă un rol la fel de important pentru a promova site-ul dvs. pentru motoarele de căutare decât conținutul său. Unul dintre cele mai importante aspecte tehnice ale site-ului este indexat, adică. E. Definiția zonele site-ului (fișiere și directoare), care poate sau nu poate fi indexat de roboți de motoare de căutare. Pentru aceste scopuri, utilizați robots.txt - este un fișier special, care conține comenzi pentru roboți motor de căutare. fișier robots.txt corect pentru Yandex și Google va ajuta la evitarea multe dintre efectele neplăcute asociate cu indexarea site-ului.
2. Conceptul unui fișier robots.txt, precum și cerințele pentru ea
fișier /robots.txt pentru instrucțiuni pentru toți roboții motoarelor de căutare (păianjeni) la serverul de informații de index așa cum este definit în acest fișier, și anume numai acele directoare și fișiere pe server, care nu sunt descrise în /robots.txt. Acest fișier trebuie să conțină 0 sau mai multe înregistrări, care sunt asociate cu un anumit robot de (definit valoarea agent_id a câmpului) și indică pentru fiecare robot sau pentru toate dintr-o dată, adică acestea nu ar trebui să fie indexat.
Sintaxa vă permite să setați indexarea zonă interzisă, pentru toate, si pentru unii, roboți.
Prin fișierul robots.txt cerințe speciale, nu a căror îndeplinire poate conduce la o citire incorectă a robotului motorului de căutare, sau chiar la incapacitatea fișierului.
- toate literele din numele fișierului trebuie să fie litere mari, adică ar trebui să aibă o literă mică ..:
- robots.txt - corect,
- Robots.txt sau robots.txt - incorect;
- Fișierul robots.txt trebuie să fie creat într-un format de text Unix. Când copiați fișierul pe site-ul ftp-client ar trebui să fie setat la un mod de partajare de fișiere text;
- fișierul robots.txt trebuie să fie localizat în directorul rădăcină al site-ului.
3. Conținutul fișierului robots.txt
fișier robots.txt include două intrări: «User-agent» și «Interdicție». Numele acestor înregistrări nu sunt sensibile la litere.
Unele motoare de căutare sprijini, de asemenea intrări suplimentare. De exemplu, motor de căutare «Yandex» utilizează «gazdă» de intrare pentru a determina locul oglinzii principale (site-ul oglindă principal - un site care este de motoarele de căutare să indexeze).
Fiecare intrare are propriul scop și poate avea loc de mai multe ori, în funcție de numărul de închis din paginile de indexare și directoare (sau) și numărul de roboți la care se aplica.
Se presupune următoarele fișier robots.txt siruri de caractere format:
lacune] la [lacune opțional]
Pentru a fișier robots.txt a fost considerat valid, este necesar ca cel puțin o directivă «Interdicție» au participat după fiecare intrare «User-agent».
Complet fișier robots.txt gol este echivalent cu lipsa acesteia, ceea ce sugerează permis de indexare a intregului site.
Înregistrare «User-agent»
Înregistrare «User-agent» trebuie să conțină numele robotului motorului de căutare. În această intrare, puteți specifica fiecare robot de individ, ce pagini de index și care nu.
Exemplu intrările «User-agent», în cazul în care are loc tratamentul pentru toate motoarele de căutare, fără excepție, și simbolul „*“ este folosit:
Exemplu intrările «User-agent», în cazul în care are loc tratamentul numai la Motorul de căutare Rambler robotului:
Robot fiecare motor de căutare are numele său propriu. Există două modalități principale de a ajunge la el (nume) știu:
pe site-urile de mai multe motoare de căutare prezenta secțiune spetsializirovannyy§ „ajutor pentru webmasteri“, care indică de multe ori numele crawler;
Înregistrare «Disallow»
Înregistrarea «Disallow» ar trebui să conțină prevederi care indică un păianjen de la un record de «User-agent», ce fișiere și directoare (sau) indexate interzise.
Luați în considerare diferitele exemple de înregistrare «Interdicție».
Exemplu de intrări în robots.txt (toate permit indexare):
Exemplu (site-ul este complet interzisă de indexare este utilizată pentru acest caracter «/».): Disallow: /
Exemplu (pentru fișierele de indexare este dezactivat «page.htm», localizat în directorul rădăcină și fișierul «page2.htm», sunt în directorul «dir»):
Exemplu (director pentru indexare interzise «cgi-bin» și «Forum» și, prin urmare, întregul conținut al directorului):
Poate că închiderea unui număr de documente indexate, și directoare (sau), care începe cu aceleași personaje, folosind doar o singură intrare «Interdicție». Pentru a face acest lucru, trebuie să vă înregistrați simboluri identice inițiale fara slash de închidere.
Exemplu (pentru indexare a interzis directorul «dir», precum și toate fișierele și directoarele care încep cu litera «dir», adică fișiere: .. «Dir.htm», «direct.htm», directoare: «dir», «directory1 »,«directory2»etc) ...:
Înregistrare «Permiteți»
Opțiunea «Permiteți» este utilizat pentru a indica excepții de la foldere și pagini neindexabile care stabilesc modul de înregistrare a «Disallow».
De exemplu, există o înregistrare a formei:
Dar trebuie să fie că, în pagina de director / forum / page1 indexate. Apoi, în fișierul robots.txt va avea nevoie de următoarele linii:
Înregistrarea «Harta site-ului»
Această intrare indică locația sitemap-ului în format XML, care este utilizat de către motoarele de căutare. Această intrare specifică calea către fișierul.
Înregistrare «gazdă»
Înregistrarea «gazdă» utilizat «Yandex» motor de căutare. Este necesar să se definească locul oglinzii principale, și anume, în cazul în care site-ul are o oglindă .. (Oglinda -. E copie completă sau parțială a disponibilității site-ului resurselor, duplicarea este necesară pentru site-urile proprietarilor vysokoposeschaemyh pentru a îmbunătăți fiabilitatea și disponibilitatea serviciului lor), Apoi, cu ajutorul directivei «gazdă» aveți posibilitatea să selectați numele pe care doriți să fie indexate. În caz contrar, «Yandex» va selecta oglinda principală a lor proprii, iar restul numelor vor fi interzise pentru indexare.
Pentru compatibilitate cu motoarele de căutare, care, în fișierul robots.txt de manipulare nu percepe Directiva gazdă, trebuie să adăugați o intrare «gazdă», imediat după înregistrările Disallow.
Exemplu: www.site.ru - oglindă primară:
Înregistrare «crawl de întârziere»
Această intrare ia Yandex. Este o comandă pentru robotul de a face intervale de timp specificate (în secunde) între paginile index. Uneori este necesar pentru a proteja site-ul de suprasarcină.
De exemplu, următoarele tipuri de înregistrare înseamnă că robotul Yandex este necesar pentru a trece de la o pagină la alta este nu mai devreme de 3 secunde:
4. Exemple de fișierul robots.txt
Un exemplu de fișier robots.txt, permițând tuturor roboților să indexeze tot site-ul:
Un exemplu al unui fișier robots.txt, care interzice toți roboții să indexeze un site:
Un exemplu al unui fișier robots.txt, care interzice toți roboții să indexeze directorul «ABC», precum și toate directoarele și fișierele care încep cu «abc» de caractere.
Un exemplu de fișier robots.txt, care interzice paginile de indexare «page.htm», localizat în directorul rădăcină al site-ului, «Googlebot» pe șenile:
Un exemplu de fișier robots.txt, care interzice indexarea:
- robot de «Googlebot» - «page1.htm» pagina, situată în «director» directorul;
- robot de «Yandex» - toate directoarele și paginile de pornire simboluri «dir» (/ dir /, / direct /, dir.htm, direction.htm, etc ...) și situat în directorul rădăcină al site-ului.
5. Erori în fișierul robots.txt
Una dintre cele mai frecvente greșeli - sintaxa inversată.
Disallow: / dir / / cgi-bin / / forum /
În cazul în care prelucrarea 404 (Document Not Found), un server de web oferă o pagină specială, și în același fișier robots.txt lipsește, este posibil ca un robot de căutare cu o cerere de fișier robots.txt este emisă acea pagină foarte specială în nici un fel nu este un fișier controlul de indexare.
Eroare asociată cu fișierul registru de abuz robots.txt. De exemplu, în cazul în care un «cgi-bin» director trebuie să fie închise, înregistrând «Disallow» nu poate scrie numele directorului în litere mari «cgi-bin».
Eroarea asociată cu lipsa unei slash deschidere la închiderea directorului index.
Pentru a evita cele mai frecvente greseli, un fișier robots.txt, puteți verifica Yandex.Webmaster mijloace sau instrumente pentru webmasteri Google. Verificarea se face o dată descărcarea de fișiere.
6. Concluzie
Astfel, existența unui fișier robots.txt, precum și punerea împreună, poate afecta promovarea site-ului în motoarele de căutare. Nestiind sintaxa fișierului robots.txt, puteți preveni indexarea la posibilitatea de a muta pagina, precum și întregul site. Pe de altă parte, bine scris acest fișier poate fi foarte util în promovarea unei resurse, de exemplu, pot fi închise prin documente de indexare care împiedică progresul în paginile dorite.