Roboți și cum să lupte împotriva lor

Un subiect foarte important - relația cu căutare și alți roboți. Este bine cunoscut faptul că suntem bucuroși nu toți roboții. Nu cu mult timp în urmă ðóíåò febră de la atacuri spulberând Webalta de căutare indexor motor (dormi bine, dragă tovarășe, a fost de scurtă durată cunoștință noastră). Pe conștiința robotului site-uri blocate din cauza cererilor prea frecvente și numeroase, fără pauză. De multe ori se plâng de robot Yahoo - indexate de multe ori și în cantități mari, generează trafic considerabil de ieșire, iar proprietarul site-ului este absolut neinteresant, există cu el vizitatori țintă, și nu este de așteptat.

Pentru a valorifica puternic mod_rewrite modul:

Aici este o „vraja“ te descuraja de la roboții motoarelor de căutare care vor lăsa în mediul de server HTTP_USER_AGENT variabila un șir ce conține „Yahoo“ sau „Igde“. reguli de conversie sunt foarte simple - (. *) înseamnă „0 sau mai multe caractere“ în URL-ul, minus ca wildcard - „nu convertiți“, și steaguri [F, L] - pentru a da statutul de „403 pentru Forbidden“ și această prelucrare finisaj. În loc de pagina solicitată robotul enervant va primi cateva sute de bytes HTTP-titlu, care îl declară refuza accesul. excesul de trafic minim și script-uri nu au nevoie pentru a genera o pagină, ca dând interdicție de acces, serverul nu va porni adresa URL solicitată pentru procesare.

În astfel de circumstanțe, bot citind ore lungi și de multe ori a crea o sarcină suplimentară semnificativă pe server, uneori până la off-site furnizor pentru limite de resurse suplimentare de găzduire. Astfel de cazuri au fost atunci când Webalta agresiv indexeze site-ul veți avea nevoie vreodată, fără griji cu privire la orice normalizare de trafic. Proiectele care sunt deja lucrează cu o sarcină mare, pur și simplu „pune în jos oasele“ sub presiunea indexor selectează o pagină în mai multe fluxuri paralele, fără pauze.

articole similare

Pagina anterioară

Pagina următoare