Hrefer - forumuri de adunare în cadrul sistemului anti-spam - promovarea SMM, promovarea formării în rețelele sociale

Articolul este scris în cadrul celui de-al 5-lea concurs de articole
HRefer este un parser puternic într-un set de utilitare XRumer. Acest program este capabil de a căuta cu ușurință cele mai populare motoare de căutare complet automat. Are setări flexibile și o interfață prietenoasă.

În căutarea unor informații despre HRefer puțin, am ajuns la concluzia că nu este suficient (mai ales articole din competiția de 3 articole, dar sunt destul de vechi și nu dezvăluie unele probleme curente). Nu am putut găsi un ghid normal despre cum să construiesc baza și am decis să scriu propria mea.

Plus toate aceste baze sunt orientative. Pentru o muncă de succes trebuie să aveți propria dvs. bază. Mai ales dacă resursele din această bază de date nu au fost anterior spamate și nu sunt incluse în listele publice pentru XRumer.
Scopul nostru este de a colecta baza de forumuri pentru postarea prin intermediul unui sistem anti-spam.

Pregătirea proxy

Pentru parsarea reușită, avem nevoie de un proxy. Vom analiza foarte mult, deci avem nevoie de o multime de proxy. Cu toate acestea, aceste proxy-uri nu ar trebui să fie interzise de motoarele de căutare. Cu un proxy public, acest lucru este aproape imposibil.

Există doar 2 opțiuni - pachete plătite cu proxy sau proxy privat. Cea mai bună opțiune este proxy-urile private, dar acestea sunt extrem de costisitoare. Dacă aveți 100-1000 proxy-uri private suplimentare, atunci le puteți conecta în siguranță. Închiriați-le în mod special pentru parsare este extrem de neprofitabilă. Fiecare astfel de proxy poate costa mai mulți dolari pe lună.

Ultima opțiune rămâne - pachete plătite de proxy-uri anonime înalte. Deși proxy-urile de la astfel de pachete sunt bune, ele nu sunt întotdeauna potrivite pentru parsarea motoarelor de căutare. În plus față de noi, aceste proxy-uri pot fi folosite de mulți oameni care ar putea aduce proxy-ul la interdicție. Încercarea de a închiria astfel de pachete, este necesar să contactați asistența tehnică cu întrebarea privind adecvarea acestor proxy-uri pentru analiza motoarelor de căutare.

Dar pentru Yandex

Importem lista de proxy în Hreferer și puteți trece la pasul următor. De asemenea, nu uitați faptul că aceste proxy-uri sunt folosite de toți clienții serviciului, iar proxy-urile intră repede în interdicție. Pentru a menține numărul necesar de proxy-uri, trebuie să ne actualizăm lista la fiecare câteva ore. Serviciul monitorizează în mod constant adecvarea proxy-ului și nu trebuie să ne ocupăm de el.

Bază cu cereri către sistemul de căutare

Avem de asemenea nevoie de o bază de date cu chei pentru analiză. Un box hrefer conține baze cu litere și numere. Nu ne vor potrivi. Cred că este mai bine să folosiți dicționarul în limba rusă în acest scop. Așadar, putem acoperi un număr foarte mare de subiecte. Deci, va fi posibilă colectarea mai multor forumuri.
Am folosit acest dicționar:

Hrefer - forumuri de adunare în cadrul sistemului anti-spam - promovarea SMM, promovarea formării în rețelele sociale

Conține peste 125 000 de cuvinte, pentru care va avea loc parsarea. Puteți descărca acest dicționar.

Voi atrage atenția asupra bazei de date cu chei "suplimentare". Pentru fiecare din cuvintele noastre din dicționar, fiecare cheie din baza de date adițională este înlocuită la rândul său. Acest lucru vă permite să identificați și să găsiți semne ale unor forumuri. De asemenea, în această listă puteți adăuga în siguranță cuvântul forum. Aproape fiecare forum are în titlu acest cuvânt și ne va ajuta să găsim și mai multe forumuri.

Să începem parsarea

Efectuarea parsării este mai bine efectuată pe cele două motoare de căutare cele mai populare (în esență, acest lucru se datorează faptului că știm exact cum proiectele noastre funcționează cu aceste motoare de căutare) de către Yandex și Google. Poate fi dificil să parsezi simultan. Acest lucru se datorează faptului că proxy-ul nu este ciocanit în ambele motoare de căutare mult mai puțin decât nu este interzis în unul dintre ele.
Ca o opțiune, puteți să parsezi mai întâi una și apoi un alt motor de căutare.

În setările de multithreading, specificăm un număr mare de fire cu așteptarea că avem o întârziere mare între apelurile fiecărui fir. Acest lucru este necesar pentru a păstra proxy-ul de lucru și pentru a evita interdicția. Dacă trimitem prea multe cereri, vom fi imediat interzise. Numărul de fluxuri compensează timpul petrecut pentru perioadele de nefuncționare.

Întârzierea dintre solicitările proxy-ului la motorul de căutare trebuie să fie de cel puțin 3 secunde. Acest lucru sporește foarte mult supraviețuirea proxy-ului. Am stabilit o perioadă de timp și mai mare, reducând astfel numărul de lovituri și posibilitatea unei interdicții.

Unele sfaturi utile

Secretele bazelor de adunare?

Dacă avem nevoie de o bază de date tematică, atunci ar trebui să folosim o bază de date cu cuvinte cu fraze sau cuvinte relevante pentru subiectul nostru. O listă a unor astfel de cuvinte poate fi obținută cu ajutorul lui Yandex, de exemplu.

Pentru a selecta anumite tipuri de forumuri, este mai bine să utilizați filtre cutie. Din filtrul "toate forumurile" puteți izola caracteristica necesară.