Mulți webmasteri novice se confruntă mai devreme sau mai târziu, cu conceptul de roboți. În acest post, învățăm ce înseamnă să robots.txt, și ceea ce este pentru.
Robots.txt - Acest fișier este în directorul rădăcină al unui site, care limitează crawlere de date pe server.
În termeni mai simpli, roboți interzice motoarele de căutare pentru a merge la anumite pagini sau secțiuni ale site-ului, cum ar fi accesul la zona de administrare a site-ului sau a contului personal. În mod normal închis dosare de birou sau fișiere, pagini tehnice, duplicat sau pagini unice.
Cum roboți txt
Aici este un exemplu de cum ar trebui să arate pentru fișierul CMS WordPress
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / cazuri
Disallow: / wp-include /
Disallow: / trackback
Disallow: * / trackback
Disallow: * / * / trackback
Disallow: * / * / hrana pentru animale
Disallow: * / hrana pentru animale
Permite: / wp-content / teme / mytheme / *
Permite: / wp-include / js / jquery / *
Permite: / wp-content / plugins / *
Permite: / wp-content / uploads / *
Clean-Param: utm_sourceutm_mediumutm_campaign
După cum puteți vedea, conținutul robots.txt destul de extinse. Dar nu vă fie frică, totul este explicabil și ușor de înțeles. Să ne uităm împreună.
directivele robots.txt
User-agent
Aceasta este Directiva principală, determină ce roboți normele prescrise.
De exemplu, pentru toți roboții
Permiterea și Disallow
Dacă traducem aceste cuvinte, este ușor de ajuns pentru a înțelege sensul directivei permit și voie în robots.txt. Se lasă permise de robot pentru a scana paginile, sau secțiuni, și interziceți nu permite.
De exemplu, această comandă interzice tot site-ul pentru indexare.
User-agent: *
Disallow: / articole / Kak-prodvinut-Sait /
User-agent: *
Disallow: / articole *
Permite: / articole / Kak-prodvinut-Sait /
În plus, ar trebui spus mai multe despre caractere speciale:
* - înseamnă că regula se aplică tuturor secțiunilor documentului. Am prescris mai sus în raport Disallow calea: / * Articole - ceea ce înseamnă indicele a închis toate articolele. Dacă aș fi comandat calea absolută Disallow: / articole /, apoi închis ar fi doar secțiunea de articole, dar articolele s-ar continua să fie indexate.
User-agent: *
Disallow: / articole *
# Închide indicele toate paginile unei secțiuni de articole
$ - anulează metacaracterul * (se referă numai ceea ce este scris la $ wildcard de robot). De exemplu:
User-agent: *
Disallow: / articole $
# Indicele închis doar secțiunea de articole, dar articolele ei înșiși continuă să fie indexate.
Crawl de întârziere
Directiva-crawl de întârziere în robots.txt nu este la fel de comună. În cazul în care serverul este supraîncărcat și nu are capacitatea de a îndeplini cererile, de exemplu, un magazin mare on-line, cu o mare cantitate de bunuri, este recomandat să utilizați această comandă.
Directiva stabilește robotul la perioada de timp dintre sfârșitul descărcării o pagină și începutul alteia de sarcină. De exemplu:
User-agent: *
Disallow: / catalog $
De crawl-întârziere: 6
# Robot va încărca pagina cu un timp de expirare de 6 secunde
Clean-param
În acest caz, Directiva curat-param va fi scris astfel:
User-agent: *
Disallow:
Clean-param: site-ul /articles/kak-prodvinut-sait.php
Ca rezultat al acestei comenzi, robotul va aduce toate paginile într-un singur
Directiva gazdă este utilizat numai PS și Yandex Mail. El avea nevoie pentru a arăta robotului principal site-ul oglindă (cu www sau fără www), care va participa la căutare. De exemplu:
În acest caz, site-ul principal oglinda fara www. De asemenea, trebuie să spun că nu este nevoie de protocolul HTTP către gazdă, cu toate acestea, asigurați-vă că https. De exemplu,
A se vedea, de asemenea, modul de a face site-ul muta dreapta de la adresa http la https. Gazda trebuie prescris Roboți o singură dată locația specială sale nu contează, ci de regulile cel mai bine este să-l loc la sfârșitul anului.
Directiva pot fi atribuite mai multe ori, acest lucru este valabil mai ales pentru magazine online mari, în cazul în care un număr foarte mare de pagini într-un singur fișier XML toate paginile nu se va potrivi. Locație sitemap.xml de asemenea, are o semnificație specială, dar în conformitate cu regulile de etichetă ar trebui să fie plasate în partea de jos a roboților.
Comenzi Acest robots.txt de bază. Sunt altele, dar acestea nu sunt susținute de cele mai multe motoare de căutare.
Cu aproape de roboți txt
Roboți vor fi diferite pentru diferite site-uri, în funcție de faptul dacă este dezvoltat pe o platformă. Site-ul poate fi samopisnaya, pe un motor de plătit sau gratuit (CMS), sau făcut cu ajutorul constructorului. În orice caz, nu există nici o versiune generic, aveți nevoie pentru a face un început de situație specifică.
Am un post, ceea ce ar trebui să fie principalele tipuri de roboți pentru CMS, puteți citi mai mult, dacă doriți să-l compilați-te doar pentru site-ul tau.
Există de altfel, este un alt mod de a face cele mai multe roboți. Trebuie să găsim mai multe site-uri cu același CMS, ca tine, și de a face Roboți dvs. exemplul lor. Pentru a găsi și a vizualiza site-ul fișierul robots.txt altcuiva, trebuie să vă înregistrați un /robots.txt domeniu. De exemplu:
În acest fel puteți spiona, analiza și compune propriul fișier roboți.
Vă veți bucura, de asemenea:
- Atribut canonic rel - ca ...
- Cum de a scrie ...
- Cum de a crea un sitemap.xml harta site-ului
- Cum să elaboreze termeni de referință pentru ...