Robots.txt - Acest fișier de serviciu, instrucțiuni pentru motoarele de căutare să indexeze site-ului. Fișierul conține directoarele care nu doriți indexată. De obicei, este fișierele de pe panoul de administrator, cache, service. Situat în directorul rădăcină al resursei web. Utilizarea sa este necesară pentru o mai bună indexare a paginilor, pentru a proteja informațiile private, și de a îmbunătăți securitatea site-ului.
webmasterii folosit de multe ori în combinație cu alte fișiere de servicii furnizate de protocol sitemap (scris în XML), care acționează dimpotrivă, prin furnizarea unei hărți site cu permisiunea de a citi paginile de roboți.
Robots.txt și impactul acesteia asupra indexarea site-ului.
site-ul Indexarea este, de asemenea, influențată de viteza și fiabilitatea hosting. Rapid și de încredere de găzduire, cu reduceri de până la 30%!
După crearea site-ului de dosarul său rădăcină pe gazdă devine disponibil pentru motoarele de căutare. Roboți citeste tot găsi fără discriminare.
Shared populare site-uri pentru CMS hosting:
WordPress hosting
Gazduire Joomla
IPB hosting
Ce pagini ar trebui să dezactivați și blocați în robots.txt?
În cazul în care gazda care găzduiește site-ul, există un panou de control, fișierul poate fi creat prin deschiderea folderul rădăcină și făcând clic pe „fișierul nou“ (există variații în numele). Dar este mai bine pentru a crea un fișier de pe computerul de acasă, și de a folosi FTP pentru a descărca canalul.
Chiar dacă este scris corect, aceasta nu va duce la o pierdere de site-ul de performanță, așa cum este cazul cu .htaccess greșit.
Directivele File - agent utilizator, gazdă, etc.
fișier Directiva (comandă) este scrisă în alfabetul latin, atunci fiecare dintre ele precedat de două puncte și să specifice obiectul controlului.
Directiva sunt standard:
Directivele avansate reduce sarcina pe server și de a proteja site-ul de a fi Derivatoare prea deranjante.
Google, Yandex și roboți de setare.
Căutați sistemul Google și Yandex la fel de bine pentru a citi acest fișier, dar se așteaptă că va stabili existența unei relații speciale cu site-ul motorului de căutare - este Romantism inutil, lipsit de rațiune. Există unele diferențe în modul în care se poate transforma într-un păianjen, deoarece fiecare dintre ele un set de sistem:
- YandexBot și Googlebot - acesta este un apel major pentru crawler;
- YandexNews și Googlebot-News - roboți, specializat în conținut de știri;
- YandexImages și Googlebot-imagine - imagini indexatorii.
Yandex motor de căutare roboți nouă, și opt de la Google. Dacă aveți nevoie de indexare generală, după directiva User-agent de a scrie sau Yandex Googlebot.
Yandex are o altă caracteristică: roboți sale citiți directiva gazdă, arătând spre un site de „oglindă“. Google nu-l înțelege.
Crearea robots.txt pentru Joomla.
Iată ce trebuie să caute fișierul pentru site-ul de știri de pe CMS Joomla.
User-agent: YandexNews
Disallow: / administrator
Disallow: / Componente
Disallow: / biblioteci
Permite: /index1.php
Permite: /index2.php
Cerere-rate: 1/20
Vizitați-time: 0200-0600
Verificați corectitudinea scrierii fișierului robots.txt poate fi transformat la serviciul Yandex „Webmaster“. La fel pentru webmasteri acolo de Google.
Nu trebuie să utilizați acest fișier ca bază - doar arată folosirea directivelor.
Exemplu de fișier robots.txt adecvat pentru WordPress - cum să eliminați toate inutile.
Și este - un fișier robots.txt de lucru pentru CMS WordPress.
În primul bloc sunt linii directoare pentru toate crawlerele scrise, ele sunt, de asemenea duplicate pentru Yandex, doar clarificarea versiunea de bază a site-ului. După cum se poate observa din index excluse paginare, fișiere de birou și directoare.