Parsingul datelor

Există o mulțime de sarcini, în care trebuie să colectați toate legăturile interne, de exemplu, din pagină sau deloc. Deci, în acest articol am discutat despre acest lucru și să vorbească, multe articole anterioare referitoare la parsarea și semnificația nu este schimbat, toate acoperă aceste componente, toate exact aceeași funcție noastră de parsare pagini, aici avem nevoie doar pentru a adăuga faptul că vom merge la toate link-urile și nu primul prins. Pentru a face acest lucru, am decis să folosesc etichetele, chiar și cele mai ridicole, etichete;))). Ei bine, această afacere este fixabilă, putem folosi ciclul, deoarece nu există tovarăși în sensul gustului și culorii. Desigur, cu expresii regulate, totul este simplu, dar nu am ajuns încă la ele. Așa că încercăm să o facem pentru moment, după cum putem.

Voi repeta despre componentele de care avem nevoie

Se pare că toate componentele sunt listate. Deci, să începem munca noastră.

Ca întotdeauna obțineți textul html-paginii noastre, pentru parsarea ulterioară

Am terminat bine, acum vreau să spun că, din punctul de vedere al validatorului, eticheta se referă sunt cuprinse în "ghilimele duble", dar există și site-uri care sunt de asemenea închise în cele unice, deci aici nu veți ghici și vom afișa link-uri care figurează în ghilimele. Apoi, această afacere poate fi îmbunătățită și poate deveni superfluă. În final, asta am primit

După cum puteți vedea, există o bucla suplimentară care curăță eticheta noastră, de la parametrii inutili. În general, puteți scrie în siguranță un program de colectare a legăturilor și de îmbunătățire treptată a acestora. Sursele pot fi descărcate aici

Articole similare

Articole similare