Pentru a pus-poetic, pilotajului robots.txt această hartă în mare a site-ului, care indică în cazul în care este necesar să se urmeze crawler navei. Vorbind în mod oficial, acest fișier are un set de instrucțiuni pentru motoarele de căutare permit excluderea indexeze anumite pagini ale site-ului. Site-uri odnostranichniki de mare și nu au nevoie de acest fișier, dar dacă aveți un site mare sau mediu, fără un anumit set de comenzi pe care le pur și simplu nu se poate face.
Fiecare vânător vrea să știe
Inițial, fișierul în sine este de la site-ul rădăcină de pe server, dar cele mai multe CMS (sisteme de management al conținutului) moderne permit de a crea un robots.txt în panoul de control al site-ului.
Cum de a crea un fișier robots.txt
Pune pur și simplu, robots.txt fișier: recomandat pentru a vizita sau nu pentru a vizita anumite pagini ale site-ului. Aceste instrucțiuni sunt numite directive, și implicit sunt recunoscute de majoritatea motoarelor de căutare.
Directiva User-agent de robots.txt:
Noi putem „ascuti“ robots.txt atât sub un singur motor de căutare, și sub motor cu două sau trei de căutare sau un bot specific.
- indică liniile directoare pentru toți roboții de căutare Yandex
- numai pentru robotul principal Yandex
- Directiva toți roboții Google
- toate directivele pentru toți roboții în același timp
Dacă doriți să restricționeze accesul la anumite pagini de pe site-ul dvs., acesta va arăta astfel:
Această comandă va bloca accesul la întregul site
A doua comandă va bloca accesul la toate paginile care încep cu «/ imagine».
Directiva «Permiteți»
Această directivă rezoluție de contrast «Interdicție». Acestea pot fi utilizate împreună, se pare ca acest lucru:
User-agent: * - considerăm toate antenele motorului de căutare
Un alt exemplu:
User-agent: * - considerăm toate antenele motorului de căutare
Allow: / permite să indexeze tot site-ul
Permite: / blog / pagina - permit pagini index
Caractere speciale * și $
Caracter special „*“ înseamnă orice (inclusiv unul gol) secvență de caractere
- înseamnă că / pagină, / Page3, / pagina-PF va fi închis de robot motor de căutare
La rândul său, $ înseamnă potrivirea exactă
- Directiva «/ pagina *» va fi închisă de la motorul de căutare, dar / Page3, / pagina-PF și alte pagini similare care să fie indexate fără probleme.
Este important să ne amintim câteva reguli care trebuie să fie ghidat pentru a crea un robots.txt:
- Se specifică fiecare nouă directivă cu o nouă linie.
- Lacunele la începutul liniei nu poate fi plasat.
- Directivele parametru ar trebui să fie plasate într-o singură linie.
- Un gol de directivă «Disallow:» echivalente «Allow: /» - pentru a permite tuturor.
- O directivă - o opțiune.
- O comune incepatori greșeală să nu creează un fișier cu numele corect - ar putea fi robots.txt sau robots.txt, și poate fi așa - Robot.txt. Corect ortografia - robots.txt și nimic altceva.
- Dacă robots.txt este în termeni de mai mult de 32 KB, care motoarele de căutare vor considera că aveți doar un singur director - «Disallow:» ca permisele „uite“ la toate fișierele site-ului.
- Dacă robots.txt este gol, atunci motoarele de căutare vor lua în considerare prea permisivă.
- În dosar, este de dorit să se prescrie numai regulile și excepțiile - nimic mai mult, încercați pentru a se potrivi numărul maxim de rânduri de sens.
Dacă nu sunteți încrezător în creația ta, îl puteți verifica pe servicii speciale de inspecție:
Adevărul este că trebuie să descărcați în continuare fișierul generat la site-ul, în caz contrar serviciile nu vor vedea nimic.
Harta site-ului
Astfel, vom arăta crawler cel mai scurt drum spre paginile noastre.
Directiva Clean-param
Directiva crawl de întârziere
Dacă serverul este prea adesea motorul de căutare păianjeni merge, atunci puteți reduce sarcina din cauza echipei.
În general, un fișier robots.txt este vitală pentru majoritatea site-urilor - el direcționează atenția motoarelor de căutare în direcția cea bună.