De ce ai nevoie de un robots.txt, și unde să plasați fișierul - aceleași întrebări importante, cum ar fi ortografia. Pentru a începe cu, ceea ce este.
Fișierul robots.txt conține o listă de instrucțiuni pentru roboții motoarelor de căutare care permit, dar cel mai adesea - să interzică vedere spidering documente individuale pe site-ul sau secțiuni întregi. De exemplu, nu vedea pagini din arhiva sau imprimați versiunea documentelor.
tinctură robots.txt corectă permite:
- Aproape de indexare a documentelor confidențiale pe site-ul;
- Rezolva problema duplicatelor, acoperindu-le de la spidering motoarele de căutare.
În cazul în care robots.txt lipsește, motorul de căutare păianjeni va vizualiza orice document site-ului.
Cum robots.txt fișier poate fi pe site-ul?
Numele fișierului trebuie să fie în litere mici (robots.txt, robots.txt sau robots.txt)
Reguli setările fișierului robots.txt
Fișierul este format din echipe speciale pentru motoarele de cautare - directive le ia în considerare mai detaliat:
User-agent: Yandex (robotul principal Yandex)
User-agent: Googlebot (robotul principal Google)
User-agent: (numele oricărui alt robot de PS)
User-agent: * (adică: pentru toate celelalte roboți)
Este necesar să se respecte cu strictețe regulile directivelor de scriere. Și anume, înainte de fiecare directivă User-agent ar trebui să fie un șir gol, și toate celelalte directive referitoare la această unitate - du-te după ea (fiecare directivă trebuie să fie prevăzută cu o literă de capital într-o nouă linie, cu cel mult o singură regulă). Regulile referitoare la conținut (ce trece printr-un spațiu după „:“ este prescris în litere mici, cu excepția numelor roboți).
Directiva Disallow este utilizat pentru a preveni roboți din fișiere de indexare.
Disallow: / cgi-bin / (nu permit să indexeze tot ce se află în folderul cgi-bin)
Disallow: * .php (interzice index care conține toate fișierele .php)
Disallow: / (interzice indicele toate fișierele)
Permite directiva permite să fișiere index. Acesta trebuie să fie pus înainte ca directiva Disallow.
Directiva gazdă este utilizat pentru Yandex robot pentru a indica site-ul oglinzii principale. Este foarte important să se știe că, în directiva gazdă prevede adresa URL Nu, aveți de gând să promoveze. Adică, dacă promovează site-ul dvs., fără www, atunci este necesară în directiva gazdă să-l prescrie fără www.
User-agent: Yandex
Realizator: adblogger.ru
Directiva-crawl de întârziere este necesară pentru a seta robotul la pauză minimă dintre injectarea cu cele două documente de pe site. Acest lucru este necesar în cazul în care site-ul este pe un server lent, care poate „cădea“ din cauza de manipulare frecvente robot motor de căutare. Timpul este indicat în secunde.
Robotul va face o pauză de 2 secunde între încărcarea a două documente. Yandex robotul suportă valoarea fracționată a parametrului (0,5 2,5, etc.) Cu toate acestea, nu toate motoarele de căutare urmați aceste instrucțiuni. Directiva crawl de întârziere trebuie să fie plasate după directivele Permiterea și Disallow
Utilizarea caracterelor speciale * și $ în fișierele robots.txt
La specificarea conținutului directivelor Permiterea și Disallow puteți utiliza caractere speciale * și $. Caracter special * înlocuiește orice secvență de caractere, și speciale simbol $ indică sfârșitul adresei URL (de exemplu, după ce este nimic de înțeles).
Cu toate acestea, observăm că site-urile pot fi scrise într-o varietate de motoare (CMS). Prin urmare, atunci când scrieți robots.txt ar trebui să se acorde mai multă atenție, și am citit despre caracteristicile CMS este dvs., pentru a închide în mod corespunzător site-ul de a fi documente indexate.
Închiderea și ia „gunoi“ de către fișierul robots.txt
Pentru cele mai multe site-uri, este logic să se închidă: