pe scurt


fișier robots.txt localizat în directorul rădăcină al unui site și conține instrucțiuni speciale pentru roboți motor de căutare.

Aceste instrucțiuni nu pot permite pentru indexarea de anumite secțiuni sau pagini de pe site-ul, specificați domeniul oglindă corectă, pentru a recomanda robot de căutare pentru a observa un anumit interval de timp între descărcarea de documente de pe server.

Pentru a crea un fișier robots.txt, aveți nevoie de un fișier text simplu. Dacă nu creați restricții pentru indexare, puteți face un fișier robots.txt gol.

Fișierul robots.txt este de obicei scris ceva de genul:


În acest exemplu, a interzis indexarea a trei directori.

Rețineți că fiecare director este listat pe o linie separată - nu se poate scrie «Disallow: / cgi-bin / / tmp /». De asemenea, nu se poate împărți o singură instrucțiune Interdicție User-agent sau în mai multe rânduri, după cum newline este utilizat pentru separarea documentelor unul față de celălalt.

expresii regulate și metacaractere nu pot fi folosite la fel de bine. "Asterisk" (*) în instrucțiunile de utilizare-agent înseamnă "nici un robot". Tipul de instrucțiuni «Disallow: * .gif» sau «User-agent: Ya *» nu este acceptat.

Instrucțiuni specifice în robots.txt depind de site-ul dvs. și ceea ce doriți să închideți prin indexare. Iată câteva exemple:

Interziceți tot site-ul care urmează să fie indexat de către toți roboții:


Permiteți tuturor roboților să indexeze tot site-ul:

Sau puteți crea pur și simplu un fișier gol «/robots.txt».

Aproape de indexare numai câteva directoare:


Deny indexarea site-ului dvs. pentru un singur robot:


Permite site-ul de indexare la un robot de și neagă orice altceva:


Interziceți pentru indexare toate fișierele cu excepția uneia:
Este destul de dificil, deoarece Nu există instrucțiuni „Permiteți“. În schimb, puteți muta toate fișierele cu excepția celui pe care doriți pentru a permite indexarea într-un subdirector și să-l interzică fie indexate:


Alternativ, puteți dezactiva toate interzise pentru fișierele de indexare:


Vom înțelege sensul câmpurilor (directiva) și valoarea acestora în fișierul robots.txt:
User-Agent
- Acest câmp trebuie să fie numele unui robot de căutare, care, în această înregistrare set de drepturi de acces.
- în cazul în care înregistrarea conține mai mult de un nume al unui robot, drepturile de acces se aplică tuturor acestor nume.
- caractere majuscule sau minuscule nu sunt importante
- În cazul în care valoarea acestui câmp indică simbolul „*“ este specificat în această înregistrare a drepturilor de acces se aplică tuturor crawler web care solicită fișier /robots.txt

dezaproba
- valoarea acestui câmp trebuie să fie o adresă URL parțială, care nu ar trebui să fie indexat. Acest lucru poate fi o cale completă sau parțială; orice URL-ul, nici început cu această cale nu ar trebui să fie indexat.
De exemplu, Disallow: / ajutor și închide /help.html, și /help/index.html, în timp ce Disallow: / help / - Numai /help/index.html.

- Disallow dacă valoarea nu este specificată, aceasta înseamnă că toate indexurile copac director de server

Utilizarea caracterelor speciale „*“ și „$“
Atunci când căi care specifică allow-Disallow directive, puteți utiliza caractere speciale * și $. solicitând, astfel încât anumite expresii regulate. Caracter special * denotă orice (inclusiv unul gol) secvența de caractere. exemple:

interzice /cgi-bin/example.aspx și /cgi-bin/private/test.aspx

Acesta interzice nu numai / privat. dar / cgi-bin / privat

În mod implicit, la sfârșitul fiecărei reguli descrise în robots.txt, atribuită *. de exemplu:

blochează accesul la pagini care începe cu / cgi-bin

caracter special $
Pentru a anula \ „* \“ „la sfârșitul regulilor, puteți utiliza caracterul special $. de exemplu:


interzice / exemplu.
dar nu interzice /example.html


Interzice și / exemplu. și /example.html


Se interzice numai / exemplu

interzice /example.html și / exemplul

Harta site-ului
Dacă utilizați o descriere a structurii site-ului dvs. în format sitemaps.xml, si doriti robotul aflat despre el, navigați la sitemaps.xml ca «Harta site-ului» Setare directivă (dacă mai multe fișiere, selectați toate). exemplu:

Robotul va aminti drumul spre sitemaps.xml, va procesa fișierele și va utiliza rezultatele formării ulterioare a sesiunilor de injectare.


În plus față de fișierul robots.txt pentru a controla motoarele de căutare, există, de asemenea, o meta roboți.

articole similare