Cum de a calma botul Yandex, ceea ce creează o sarcină pentru găzduire

Răspunsul la întrebarea elementară:

În robots.txt scriem ceva de genul:

Agent-utilizator: Yandex
Crawl-întârziere: 10

Dacă serverul este încărcat puternic și nu are timp suficient pentru a îndeplini cererile de încărcare, utilizați directiva privind întârzierea accesării cu crawlere. Vă permite să setați robotul de căutare perioada minimă de timp (în secunde) între sfârșitul încărcării unei pagini și începutul următoarei descărcări.

Pentru compatibilitate cu roboți care nu sunt pe deplin urmează standardul la procesarea robots.txt, Directiva crawl de întârziere pentru a adăuga la grupul care începe de la o înregistrare User-Agent, urmând imediat după directivele și Disallow Allow).

Robotul de căutare Yandex suportă valori fractionale de întârziere a accesării cu crawlere, de exemplu, 0,5. Acest lucru nu garantează faptul că crawlerul va vizita site-ul dvs. la fiecare jumătate de secundă, dar va grăbi accesarea cu crawlere a site-ului.

Agent-utilizator: Yandex
Crawl-întârziere: 2 # stabilește timeout-ul în 2 secunde

User-agent: *
Nu permiteți: / căutare
Crawl-întârziere: 4.5 # stabilește timeout-ul în 4.5 secunde

Directiva este făcută pentru a elimina povara rabiei Yandex, care, aparent, nu are limite.

Știu că unii oameni așteaptă barca lui Yandex ca o mană a cerului, dar scriu cum să o opresc, să o țin. Da, există astfel de probleme. Milionarii sunt, de asemenea, chinuit și nu știu unde să pună bani =).

Link-uri utile:

Pagina anterioară

Pagina următoare