roboți txt fișier pentru site-ul - un exemplu, crearea de modul de a scrie

Robots.txt - Acest fișier de serviciu, instrucțiuni pentru motoarele de căutare să indexeze site-ului. Fișierul conține directoarele care nu doriți indexată. De obicei, este fișierele de pe panoul de administrator, cache, service. Situat în directorul rădăcină al resursei web. Utilizarea sa este necesară pentru o mai bună indexare a paginilor, pentru a proteja informațiile private, și de a îmbunătăți securitatea site-ului.

webmasterii folosit de multe ori în combinație cu alte fișiere de servicii furnizate de protocol sitemap (scris în XML), care acționează dimpotrivă, prin furnizarea unei hărți site cu permisiunea de a citi paginile de roboți.

roboți txt fișier pentru site-ul - un exemplu, crearea de modul de a scrie

Robots.txt și impactul acesteia asupra indexarea site-ului.

site-ul Indexarea este, de asemenea, influențată de viteza și fiabilitatea hosting. Rapid și de încredere de găzduire, cu reduceri de până la 30%!

După crearea site-ului de dosarul său rădăcină pe gazdă devine disponibil pentru motoarele de căutare. Roboți citeste tot găsi fără discriminare.

Shared populare site-uri pentru CMS hosting:

WordPress hosting

Gazduire Joomla

IPB hosting

Ce pagini ar trebui să dezactivați și blocați în robots.txt?

În cazul în care gazda care găzduiește site-ul, există un panou de control, fișierul poate fi creat prin deschiderea folderul rădăcină și făcând clic pe „fișierul nou“ (există variații în numele). Dar este mai bine pentru a crea un fișier de pe computerul de acasă, și de a folosi FTP pentru a descărca canalul.

Chiar dacă este scris corect, aceasta nu va duce la o pierdere de site-ul de performanță, așa cum este cazul cu .htaccess greșit.

Directivele File - agent utilizator, gazdă, etc.

fișier Directiva (comandă) este scrisă în alfabetul latin, atunci fiecare dintre ele precedat de două puncte și să specifice obiectul controlului.

Directiva sunt standard:

Directivele avansate reduce sarcina pe server și de a proteja site-ul de a fi Derivatoare prea deranjante.

Google, Yandex și roboți de setare.

Căutați sistemul Google și Yandex la fel de bine pentru a citi acest fișier, dar se așteaptă că va stabili existența unei relații speciale cu site-ul motorului de căutare - este Romantism inutil, lipsit de rațiune. Există unele diferențe în modul în care se poate transforma într-un păianjen, deoarece fiecare dintre ele un set de sistem:

  • YandexBot și Googlebot - acesta este un apel major pentru crawler;
  • YandexNews și Googlebot-News - roboți, specializat în conținut de știri;
  • YandexImages și Googlebot-imagine - imagini indexatorii.

Yandex motor de căutare roboți nouă, și opt de la Google. Dacă aveți nevoie de indexare generală, după directiva User-agent de a scrie sau Yandex Googlebot.

Yandex are o altă caracteristică: roboți sale citiți directiva gazdă, arătând spre un site de „oglindă“. Google nu-l înțelege.

Crearea robots.txt pentru Joomla.

Iată ce trebuie să caute fișierul pentru site-ul de știri de pe CMS Joomla.

User-agent: YandexNews
Disallow: / administrator
Disallow: / Componente
Disallow: / biblioteci
Permite: /index1.php
Permite: /index2.php
Cerere-rate: 1/20
Vizitați-time: 0200-0600

Verificați corectitudinea scrierii fișierului robots.txt poate fi transformat la serviciul Yandex „Webmaster“. La fel pentru webmasteri acolo de Google.

Nu trebuie să utilizați acest fișier ca bază - doar arată folosirea directivelor.

Exemplu de fișier robots.txt adecvat pentru WordPress - cum să eliminați toate inutile.

Și este - un fișier robots.txt de lucru pentru CMS WordPress.

În primul bloc sunt linii directoare pentru toate crawlerele scrise, ele sunt, de asemenea duplicate pentru Yandex, doar clarificarea versiunea de bază a site-ului. După cum se poate observa din index excluse paginare, fișiere de birou și directoare.

A se vedea, de asemenea:

articole similare