Faqed cum să creeze propriile mâini

Configurarea rădăcină fișier corect, competent robots.txt, una dintre cele mai importante sarcini ale WEB-maestri. În cazul unor greșeli de neiertat în rezultatele de căutare, este posibil să primiți mai multe pagini care nu sunt necesare. Sau, dimpotrivă, va fi închisă pentru indexarea documentelor importante pentru site-ul dvs., în cel mai rău caz, puteți închide pentru motoarele de căutare toate directorul de domeniu rădăcină.

robots.txt propriu de configurare fișier propriile lor mâini, de fapt, problema nu este foarte dificil. După ce am citit acest articol, veți învăța trucuri ale directivelor și să scrie propriile reguli pentru fișierul robots.txt pe site.

Pentru a crea un fișier robots.txt utilizând o sintaxă complexă specifică, dar nu. Directivele pe care le utilizați nu este mult. Luați în considerare normele, structura și sintaxa unui fișier robots.txt, și pas cu pas detaliu.

Reguli generale de robots.txt

În primul rând, un fișier robots.txt în sine trebuie să aibă codare ANSI.

În al doilea rând, nu poate fi folosit pentru a scrie regulile oricăror alfabete naționale este posibilă doar latină.

Structural, fișierul robots.txt poate consta dintr-unul sau mai multe blocuri de instrucțiuni, separat pentru diferite motoare de căutare roboți. Fiecare unitate sau secțiune are un set de reguli (directive) pentru indexarea site-ului dvs. într-un fel sau un alt motor de căutare.

ele însele Directivele, regula blocuri și între ele nu sunt permise nici un antete și simboluri suplimentare.

Secțiunea în fișierul robots.txt

Fiecare secțiune este independentă. Secțiunile pot fi mai multe pentru fiecare robot sau unele motoare de căutare, și unul universal, toți roboți sau roboți unul din sistemele lor. În cazul în care o secțiune, apoi începe cu prima linie a fișierului și deține toate sforile. Dacă mai multe secțiuni, acestea trebuie să fie separate printr-o linie goală, cel puțin unul.

Secțiunea începe întotdeauna cu Directiva User-agent și conține numele motorului de căutare, care este proiectat pentru robot, în cazul în care nu este o secțiune universală pentru toate roboți. În practică, se pare ca acest lucru:

User-agent: YandexBot
# sistem User-agent Yandex roboți
User-agent: *
# User-agent pentru toți roboții

Pentru a lista câteva nume de boti este interzisă. Pentru fiecare căutare roboții motoarelor creat propria secțiune, o unitate separată a normelor. În cazul în care, în cazul dumneavoastră, regulile pentru toți roboții sunt identice, utilizați o secțiune universală, generală.

Directiva, ce este?

Directiva - o echipă, sau dreptul de a raporta anumite informații crawler. Directiva spune bot de căutare cum să indexeze site-ul dvs., ceea ce nu se uita directoare în care harta site-ul în format XML, care nume de domeniu este oglinda principală și alte detalii tehnice.

secțiunea fișier robots.txt este format din echipe individuale,
directive. Sintaxa generală orientări este:

[Imya_direktivy]: [spațiu opțional] [valoare] [spațiu opțional]

Directiva este scrisă într-o singură linie, fără despărțirea în silabe. În conformitate cu standardele acceptate, între directivele în aceeași secțiune a trece linia nu este permisă, și anume, toate directivele sunt scrise o secțiune pe linie, fără a trece suplimentare siruri de caractere.

Să descrie valorile de bază ale directivelor pe care le utilizați.

Disallow directivă

Cele mai utilizate directivele din fișierul robots.txt, acesta «Disallow» - este interzisă. Directiva «Disallow» interzice indexare a spus în calea ei. Acesta poate fi o singură pagină, paginile care conțin specificat „Mask“, în URL`e lui (cale), parte a site-ului, un director separat (director) sau întregul site.

User-agent: Yandex
Disallow: /

caractere speciale

Exemplul de mai sus ar nega indexarea intregului site pentru roboți motor de căutare Yandex.

Acum, pentru o mai bună înțelegere a celorlalte exemple, ia în considerare și să explice ce caracterele speciale în fișierul robots.txt. Caractere speciale sunt caractere (*) - un asterisc ($) - dolar și (#) - grila.

„*“ - asteriscul înseamnă - „orice număr de caractere.“ Aceasta este, calea / faltuire este identic în sensul la «/ foldere», «/ dosar1», «/ folder111», «/ foldersssss» sau «/ dosar». Roboți, în citirea regulilor, în mod automat o atașează „*“. In exemplul de mai jos, cele două directive sunt absolut egale:

Disallow: / stiri
Disallow: / știri *

„$“ - semnul dolar interzice roboți de lectură directivele adăuga automat simbolul „*“ (asterisc) la sfârșitul directivei. Cu alte cuvinte, simbolul „$“ înseamnă sfârșitul unei comparații șir. Aceasta este, în exemplul nostru, vom interzice indexare dosare «/ dosar», dar nu și interzis în «/ FOLDER1» dosare, «/ folder111» sau «/ foldersssss»:

User-agent: *
Disallow: / folder $

Se lasă directivă

Directiva PERMITE opus fișier robots.txt în sensul Directivei DISSALOW, PERMIT directivă permite. Următorul exemplu arată că nu permitem să indexeze tot site-ul, cu excepția directorului / dosar:

User-agent: *
Permite: / folder
Disallow: /

EXEMPLU «Permite» utilizarea simultană, «Disallow» și prioritate

User-agent: *
Permite: / foldere
Disallow: / folder

In exemplul de mai sus a permis indexare URL`ov începe cu «/ foldere», dar interzis în moduri care sunt in start lor URL`ah «/ dosar», «/ folderssss» sau «/ folder2». În cazul contactului cu același mod în conformitate cu cele două directive «Permite» și «Interdicție», se acordă prioritate «Allow» directivă.

Valoarea necompletată în directivele «Permite» și «Interdicție»

Există erori WEB-masterat, atunci când fișierul robots.txt în «Disallow» Directiva
Amintiți-vă pentru a indica simbolul „/“. Acest lucru este greșit, valori greșite de interpretare a directivelor și sintaxa lor. Ca urmare, rezoluția interzice directiva devine: «Disallow:» absolut identice «Allow: /». interdicție corectă privind indexarea site-ul întreg arată astfel:

Același lucru se poate spune despre «Allow:». Directiva «Allow:» fără simbolul „/“ împiedică indexarea întregului site, precum și «Disallow: /».

Directiva Harta site-ului

Prin toate canoanele de SEO-optimizare, trebuie să utilizați harta site-ului (sitemap) în format XML și furnizează motoarele de căutare ale acestuia.

Deși funcționalitatea „dulapurilor pentru WEB-masterat“ în motoarele de căutare, trebuie să declare prezența sitemap.xml și robots.txt folosind „SITEMAP“ directivă. Căutare roboții când site-ul dvs. va crawling vedea indicația fișierului sitemap.xml și să fie sigur să-l folosească în următoarele runde. Exemplu de utilizare directivelor sitemap în fișierul robots.txt:

Directiva gazdă

O altă orientare importantă este directiva HOST robots.txt.

Se crede că nu toate sistemele de căutare îl recunosc. Dar „Yandex“, indică faptul că citește această directivă și Yandex în România este principalul „căutare susținător de familie“, deci nu vom ignora „gazdă“ directivă.

User-agent: *
Realizator: www.domen.ru

Dacă doriți ca oglinda principală a fost fără un prefix (WWW), apoi, respectiv, ar trebui să fie specificate în numele site-ului directivă, fără un prefix.

Directiva HOST rezolvă problema duplicat pagini care se confruntă adesea cu WEB-maestri si SEO-experți. Prin urmare, trebuie să utilizați directiva gazdă este obligatorie dacă vizați segmentul vorbitor de limbă rusă și vă este important să clasarea site-ului în motorul de căutare „Yandex“. Din nou, astăzi despre modul de citire al directivei prevede doar „Yandex“. Pentru a specifica oglinda primară în alte motoare de căutare au nevoie pentru a utiliza setările în birourile WEB-maestri. Nu uita că numele oglinzii primare trebuie să fie specificate corect (corect scris, de codificare și respectarea sintaxa fișierului robots.txt). Fișierul este permisă numai o singură dată această directivă. Dacă specificați din greseala de mai multe ori, roboții vor lua în considerare numai prima apariție.

Directiva crawl de întârziere

User-agent: Yandex
De crawl-întârziere: 5.5

Directiva Clean-param

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folderpage=page1/
www.domain.zone/ index.php? dosar = 1page = 1

roboții motoarelor de căutare vor târî toate aceste pagini și am observat că paginile sunt aceleași, conțin același conținut. În primul rând, ar crea confuzie în structura site-ului pentru indexare. În al doilea rând, sarcina suplimentară pe server va crește. În al treilea rând, viteza de scanare va scădea în mod semnificativ. Directiva «Clean-param» Pentru a evita aceste probleme, și utilizate. Sintaxa este:

Clean-param: param1 [param2param3param4. param * N] [cale]

Directiva «Clean-param», ca «gazdă» citit nu toate motoarele de căutare. Dar Yandex înțelege.

Erori care apar frecvent în robots.txt

Fișierul robots.txt nu este în rădăcina site-ului

fișier roboți. txt trebuie să fie plasate în site-ul rădăcină. numai în directorul rădăcină. Toate celelalte fișiere cu același nume, dar sunt în alte foldere (directoare) sunt ignorate de motoarele de căutare.

Eroare în numele fișierului robots.txt

Numele fișierului este scris cu litere mici (mici), și trebuie să fie numit robots.txt. Toate celelalte opțiuni sunt considerate a fi greșit și va căuta fișierul raport stsemy lipsește. Greseli frecvente sunt după cum urmează:

robots.txt
robots.txt
robot.txt

Utilizarea caracterelor nevalide în robot.txt

Eroare de sintaxă robots.txt

Încercați să respecte cu strictețe regulile de sintaxă în robots.txt. erori de sintaxă poate duce la neglijarea conținutului motoarelor de căutare de fișiere întregi.

Transferul a mai multor roboți într-o singură linie din directiva User-agent

incepatori greseala de multe ori un web-masterat, mai degrabă din cauza lene, nu se rupe fișierul robots.txt în secțiuni, și să îmbinați comenzi la motoarele de căutare mai multe într-o singură secțiune, de exemplu:

User-agent: Yandex, Googlebot, Bing

Pentru fiecare motor de căutare, trebuie să creați o secțiune separată, având în vedere directivele, care sunt citite de acest motor de căutare. Cu excepția, în acest caz, o singură secțiune pentru toate motoarele de căutare:

User-agent cu o valoare goală

User-agent de directivă nu poate fi nul. Gol poate fi doar «Permite» și «Interdicție» și apoi, având în vedere faptul că schimbă sensul lor. Notă User-agent de directivă la valoarea gol este o greșeală gravă.

Mai multe valori în directiva Disallow

Mai puțin greșeală comună, dar, cu toate acestea, se poate vedea din timp în timp pe site-uri, este o indicație a unui număr de valori în directivele Permiterea și Disallow, de exemplu:

Disallow: / dosar1 / folder2 / folder3

Disallow: / dosar1
Disallow: / folder2
Disallow: / folder3

Nerespectarea directivelor în prioritățile robots.txt

Această eroare a fost deja descrisă mai sus, dar, din nou, pentru a consolida materialul. Anterior, prioritatea a fost determinată de directivele specificând ordinea. Începând de astăzi, regulile s-au schimbat, prioritatea specificată de lungimea șir. În cazul în care două directive contradictorii vor prezenta un dosar, Allow și Disallow același conținut, prioritatea va fi Allow.

Motoarele de căutare și robots.txt

Directivele într-un fișier robots.txt sunt de consultanță în natură pentru motoarele de căutare. Acest lucru înseamnă că regulile de citire pot fi modificate sau completate din când în când. Doar ține cont de faptul că fiecare motor de căutare în propriile sale procese de directiva fișier. Și nu toate directivele, fiecare dintre motoarele de căutare citite. De exemplu, directiva «gazdă» Yandex astăzi citește numai. În acest caz, Yandex nu garantează că numele de domeniu este specificat ca oglinda principală în directiva gazdă va fi obligatoriu de a numi un șef, dar susține că prioritatea numele specificat în directivă va fi dat.

Dacă aveți un mic set de reguli, puteți crea o singură secțiune pentru toate roboți. În caz contrar, nu fi leneș, creați o secțiune separată pentru fiecare dintre voi sunteți interesat de motorul de căutare. Acest lucru se aplică în special interdicțiilor, dacă nu doriți nici o anumită pagină a lovit în căutare.

Practic, toate greșelile din fișierul robots.txt apar din cauza neatenției, directivelor o anumită superficialitate scris. Pentru a evita erorile de bază, urmați „regulile de etichetă“. Erorile datorate neglijenței sunt următoarele erori:

Alternanța de litere mari și mici, în numele directivelor

În acest tutorial pentru a crea fișierul robots.txt este trecut cu succes. Acum, că știți toate cunoștințele necesare pentru a umple acest fișier important.

Mult noroc promovarea site-uri web!

Sign (#) - oktotorp grila (de la octothorpe Latină - opt capete), hash, semn număr, ascuțit (sau Sharp (în engleză Sharp), din cauza asemănării aproape de aceste două caractere), semn de lire (# semn este adesea folosit atunci când nu există posibilitatea tehnică de a introduce simbolul lira).

Pagina generata in 0,0337 s

Ce pagină de destinație (pagina de destinație)

Ce pagină de destinație (pagina de destinație). Ce este pagina de destinație (pagina de destinație). Cum sa faci pagina de destinație. Care este structura paginii de destinație. Ghid pentru crearea unei pagini de destinație.

Ce este Google PageRank?

PageRank ce este? Cum să măsoare site-ul de PR.

Citation Index. Ce este - TCI.

Citation Index. Ce este - TCI.

nucleu semantic

nucleu semantic. Ce este? Cum de a crea un nucleu semantic.

articole similare