Toți roboții de căutare, atunci când accesează site-ul, caută mai întâi un fișier robots.txt. Dacă sunteți Webmaster, trebuie să cunoașteți scopul și sintaxa robots.txt.
Fișierul robots.txt este un fișier text localizat în directorul rădăcină al site-ului, în care sunt scrise instrucțiuni speciale pentru roboți de căutare.
Când este interpretat de către robot, va fi utilizată secțiunea care se potrivește cel mai bine cu agentul său utilizator. Dacă robots.txt are un bloc cu numele robotului, atunci acesta va fi folosit, și nu secțiunea cu User-agent: *.
Orice secțiune continuă fie la începutul secțiunii următoare, fie la sfârșitul fișierului robots.txt. În conformitate cu standardul, cel puțin o linie goală trebuie introdusă între secțiunile adiacente. Fiecare secțiune trebuie să înceapă cu directiva User-agent și să conțină valoarea User-agent a robotului din care face parte această secțiune. De exemplu, directiva User-agent pentru robotul principal de căutare Yandex arată astfel:
Pentru a specifica o secțiune (bloc) care se referă la toate roboții, puteți utiliza valoarea "*" în directiva User-agent.
Dacă există o secțiune în fișierul robots.txt cu numele unui bot specific, atunci acesta va fi folosit pentru acest robot, altfel blocul care începe cu
Directiva privind restricțiile
Directiva de interzicere și, în același timp, cele mai des utilizate în fișierul robots.txt. Împiedică interzicerea indexării unui sit sau a unei părți a acestuia, în conformitate cu calea prescrisă în sensul prezentei directive. Aceasta interzice întregului site să fie indexat pentru botul de căutare Yandex.
Directiva Permite
Această directivă are o sintaxă similară cu cea a Disallow, însă, spre deosebire de directiva Disallow, este permisivă. De exemplu, în exemplul următor, tuturor robotilor le este interzis să indexeze întregul site, cu excepția căilor care încep cu / master.
Este important să înțelegeți că există linii directoare, pe care nu toate roboții sunt capabili să le înțeleagă. Acest tip de directivă este gazda, care dintre toate roboții populare este recunoscută numai de Yandex. Gazdă servește pentru a indica robotului Yandex oglinda principală a site-ului dvs. Faptul este că același site poate fi accesat de mai multe domenii, de exemplu, master-tenge.kz. robot.txt
Agent-utilizator: Yandex Host: master-tenge.kz