Fișierul robots.txt este necesar numai dacă site-ul dvs. conține conținut pe care motoarele de căutare nu ar trebui să îl indexeze. Dacă motoarele de căutare trebuie să indexeze întregul site, fișierul robots.txt este redundant (chiar gol).
Pentru a utiliza fișierul robots.txt, trebuie să aveți acces la dosarul rădăcină al domeniului dvs. Dacă nu aveți acces la directorul rădăcină al domeniului, puteți restricționa accesul utilizând meta tag-ul roboților.
Pentru a împiedica complet adăugarea conținutului paginii la indexul Google Internet, chiar dacă se face referire de la alte site-uri, utilizați metaeticheta noindex sau antetul etichetei x-robots. Când încărcați o astfel de pagină, metaeticheta noindex va împiedica adăugarea acesteia în indexul Google. Antetul HTTP pentru tag-uri x-robots este util în special pentru controlul indexării fișierelor într-un format diferit de HTML, cum ar fi grafica sau alte documente.
Crearea unui fișier robots.txt
Cel mai simplu fișier robots.txt utilizează două reguli:
- User-agent. robot la care se aplică această regulă
- Disallow. Adresa URL pentru a fi blocată
Aceste două linii reprezintă o înregistrare a fișierului. Un fișier poate conține orice număr de înregistrări. Într-un singur mesaj, puteți specifica mai multe linii de dezactivare și mai multe linii de utilizator-agent.
Fiecare secțiune din fișierul robots.txt este independentă și nu este o continuare a secțiunilor anterioare. De exemplu:
În acest exemplu, Googlebot blochează numai adresele URL în funcție de criterii / folder2 /.
Aplicații utilizator-agent și robot
Aplicația utilizator-agent este un termen care denotă un robot de căutare. Baza de date a scanerului conține numele multor roboți populari. Pentru a aplica o intrare pentru un anumit robot, specificați numele acestuia. Pentru a le folosi pentru toate roboții, introduceți un asterisc în loc de un nume. Intrarea pentru toate roboții este după cum urmează:
Google utilizează mai mulți roboți diferiți (aplicații de utilizator-agenți).
Blocarea aplicațiilor utilizator-agent
Linia Disallow conține o listă de pagini care trebuie blocate. Puteți specifica o anumită adresă URL sau un șablon. Înscrierea trebuie să înceapă cu o tăietură (/).
Testarea unui fișier robots.txt
Modificările aduse acestui instrument nu sunt salvate. Pentru a salva modificările posibile, trebuie să copiați textul și să îl inserați în fișierul robots.txt.