Un pic de teorie
Probabil nu este un secret pentru nimeni că motoarele de căutare nu funcționează în timp real. Robotul de căutare în mod constant ocolește site-urile noi, intră în textele lor în baza de date a motorului de căutare și actualizează și resursele deja incluse în baza de date. Acesta este motivul pentru site-urile noi nu sunt disponibile imediat pentru motoarele de căutare.
De obicei, crawler-ul descoperă un nou site de către link-ul unei persoane sau ca rezultat al adăugării acestuia prin intermediul unor forme speciale de motoare de căutare (așa-numitele "addurilki", din expresia "add url" - add url).
Odată ce crawler-ul accesează site-ul, acesta solicită imediat un fișier robots.txt. Dacă nu o găsește, acționează în mod implicit. Prin urmare, un fișier robots.txt este denumit uneori un fișier de excludere pentru roboții de căutare.
Fișierul robots.txt este folosit pentru a interzice indexarea anumitor pagini și secțiuni întregi ale site-ului, precum și pentru a transfera robotului de căutare fișierul sitemap.xml (fișier harta site-ului).
Utilizând fișierul robots.txt
Vom examina fișierul robots.txt pentru exemple.
Interzicerea indexării întregului site
Pentru a interzice indexarea întregului site, este necesar să se facă următoarele rânduri în robots.txt:
Interzicerea indexării unui singur director
Înregistrarea utilizator-agent specifică ce indexare este interzisă (în loc de asterisc *, "yandex" sau "googlebot" poate fi scris aici), iar intrarea "Disallow" descrie interzicerea indexării.
User-agent: *
Dezactivați: / private /
Împiedicați indexarea tipurilor de fișiere individuale
Va fi foarte util să interziceți indexarea paginilor ca "index.php". În principiu.
Puteți face acest lucru după cum urmează:
User-agent: *
Permiteți: / $
Permiteți: /*.php$
Permiteți: /*.jpg$
Permiteți: /*.gif$
Permiteți: /*.xml$
Împiedicați: /index.php?*
Transmiterea fișierului sitemap.xml către robotul de căutare
Nu vom elabora acest dosar. Să presupunem că ați sortat acest fișier. Să arătăm una dintre modalitățile de a transfera acest fișier în motorul de căutare, și anume transferul fișierului prin robots.txt. Pentru aceasta, adăugați următoarea linie la robots.txt:
Se presupune că fișierul sitemap.xml există și este scris corect.