Investigarea webcast Yandex dacă are sens pentru a analiza și că aceasta include o

Investigarea webcast Yandex dacă are sens pentru a analiza și că aceasta include o

În scopul experimentului a fost scris multi-threaded parser și lăsate timp de o săptămână pentru a lucra singur. O săptămână mai târziu, 414 GB de informații au fost găsite și 4460619547 pe server. frecarea gleefully stilouri, experții au început să elimine duplicate dintr-o serie de fraze. Și ce surpriza lor, atunci când, după îndepărtarea duplicate din matrice este lasat doar 15068199 fraze unice - sumă cu adevărat nesemnificativă în comparație cu volumul inițial.

Astfel, putem concluziona că, în practică, parsarea webcast-ul nu oferă rezultate semnificative statistic - în această săptămână a fost primit 8 milioane de fraze, pentru anul se va transforma în cel mai bun 300-350 milioane de euro, ceea ce nu este o sumă semnificativă în ceea ce privește contemporane cereri cheie de baze de date ale pieței.

Să aruncăm o privire mai atentă la ceea ce a fost obținut ca rezultat al parsare săptămâni.

  • parsarea numărul de fluxuri - 10
  • rata de primire a cuvintelor cheie - circa 10 de mii pe secundă
  • Înregistrarea a fost realizată în 70 de dosare, fișiere text (7 zile la 10 fluxuri):

Investigarea webcast Yandex dacă are sens pentru a analiza și că aceasta include o

  • dimensiunea fișierului de 1,6 GB la 8,8 GB
  • numărul de fraze cheie, obținute în timpul parsării - 4460619547
  • numărul de fraze-cheie după eliminarea duplicatelor - 15068199

Cele mai multe cuvinte de frecvență de prelevare a probelor, cu excepția sindicatelor și prepoziții de oțel (conține frecvența de utilizare, timp):

Prin ea însăși, transmisiunea în direct este, de asemenea, a constatat probleme figura - aparent, este numărul de rezultate găsite în rezultatele căutării pentru respectiva interogare. Optimizatori interesate în obținerea acestui parametru poate lua un eter directe - în contrast cu problema de obicei, nu există nici captcha și parsarea se transformă practic liber.