Utilizând fișierele robots.txt
Roboții și fișierul robots.txt
Rambler, precum și alte motoare de căutare pentru a găsi și indicele de resurse pe Internet programul utilizează un robot. Robot descărcare documente de pe Internet, găsind în ele o trimitere la alte documente, descarcă documentele găsite recent și pentru a găsi în ele referințe, și așa mai departe, până când tot interesul acesta va trece site-ul Web. Robotul nostru "nume" StackRambler.
Dacă robotul detectează acest document, toate acțiunile ulterioare pentru indexarea site-ului se efectuează în conformitate cu instrucțiunile robots.txt. Puteți refuza accesul la anumite directoare și / sau fișiere ale site-ului dvs. la orice robot-indexatoare sau roboți ai unui motor de căutare specific.
Cu toate acestea, instrucțiunile fișierului robots.txt (cum ar fi roboți meta-tag-uri. Cm. [Viseditor.php? Ie_ver_ms = 6sid = root_biblioteka-optimizatora_rambler_rambler-indexfld = textclrqstart = 1138739826000deslocal = 1049 # 1 de mai jos]), urmat de numai așa-numitele roboți "politicos" - la care se referă, bineînțeles, robot-indexatorul Rambler.
Plasarea unui fișier robots.txt
Robotul caută robots.txt numai în directorul rădăcină al serverului tău. Numele serverului aici este numele de domeniu și, dacă este, portul.
Plasați mai multe fișiere robots.txt pe site. plasați robots.txt în subdirectoare (inclusiv subdirectoarele utilizatorilor, cum ar fi www.hostsite.ru/
user1 /) este inutil: fișierele "extra" nu vor fi luate în considerare de robot. Astfel, toate informațiile despre interdicțiile privind indexarea subdirectoarelor site-ului ar trebui colectate într-un singur fișier robots.txt din "rădăcina" site-ului.
Numele robots.txt trebuie să fie tipărit în litere mici (mici), deoarece numele resurselor de Internet (URI) sunt sensibile la minuscule.
Mai jos sunt exemple de locații corecte și incorecte ale robots.txt.
Formatul de fișier Robots.txt
Următorul fișier robots.txt simplu interzice indexarea tuturor paginilor site-ului tuturor robotilor, cu excepția robotului Rambler, care, dimpotrivă, are dreptul de a indexa toate paginile site-ului.
# Instrucțiuni pentru toți roboții
User-agent: *
Nu permiteți: /
# Instrucțiuni pentru robot Rambler
Agent-utilizator: StackRambler
Disallow:
Grupuri de instrucțiuni pentru roboți individuali: agent-utilizator
Orice fișier robots.txt este format din grupuri de instrucțiuni. Fiecare dintre acestea începe cu linia User-agent, indicând ce roboți urmează instrucțiunile Disallow.
Pentru fiecare robot, este scris propriul său grup de instrucțiuni. Aceasta înseamnă că robotul poate fi menționat numai într-o singură linie de utilizator-agent. iar în fiecare linie utilizator-agent se poate menționa doar un robot.
Excepția este șirul User-agent: *. Aceasta înseamnă că următorul Disallow se referă la toți roboții, cu excepția celor pentru care există propriile linii User-agent.
În fiecare grup introdus de șirul User-agent. trebuie să existe cel puțin o instrucțiune Disallow. Numărul instrucțiunilor Disallow este nelimitat.
Linia "Disallow: / dir" interzice vizitarea tuturor paginilor serverului al căror nume complet (din rădăcina serverului) începe cu "/ dir". De exemplu: "/dir.html", "/dir/index.html", "/directory.html".
Pentru a interzice o vizită în directorul "/ dir", instrucțiunea ar trebui să arate astfel: "Disallow: / dir /".
Pentru ca instrucțiunea să interzică orice, calea specificată în ea trebuie să înceapă cu "/". În consecință, instrucțiunea "Disallow:" nu interzice nimic, adică, totul permite.
Notă: în același mod și instrucțiuni „Disallow: *“, „Disallow: * .doc“, „Disallow: /dir/*.doc“ nu interzice nimic, deoarece fișierele care încep cu un asterisc sau conține nu există! Folosirea expresiilor regulate în șirul de restricții. precum și în fișierul robots.txt în general, nu este furnizat.
Sunt permise linii goale între grupurile de instrucțiuni introduse de agentul utilizator.
Instrucțiunea Disallow este considerată numai dacă este subordonată oricărei linii User-agent - adică dacă există o linie User-agent deasupra ei.
Utilizarea etichetelor META "Roboți"
Instrucțiunile de indexare sunt înregistrate în câmpul de conținut. Următoarele instrucțiuni sunt posibile:
Valoare implicită: .
În exemplul următor, robotul poate indexa documentul, dar nu ar trebui să selecteze link-uri de la acesta pentru a căuta alte documente:
Numele etichetei, numele și valorile câmpului sunt insuficiente pentru litere mici.
În duplicarea conținutului câmpului de instrucțiuni, prezența instrucțiunilor conflictuale etc. nu este permis; în special, valoarea câmpului de conținut nu poate fi "nici una, nici următoarea".
Ați știut că: