Paginile site-ului elemntare (html-content) în PHP

Parsarea paginile site-ului (HTML-conținut) pe PHP.

Notă dedicată parsare, în special site-uri parsing, parsare pagini, parsing într-un mediu de web, site-ul de conținut analizarii-html.

Pe parcursul dezvoltării diferitelor servicii web este necesar de foarte multe ori se confruntă cu sarcina în care aveți nevoie pentru a obține rapid diferite tipuri de informații în volume mari. Acest lucru se datorează în principal hapsân, furtul de informații, după cum doriți apelați-l. Faptul că informațiile sunt accesibile și deschis. Parsarea caracteristică - o colecție de date rapid și automat, conținutul de pe site.

Acum este foarte popular pentru a analiza într-un mediu de web, și anume analiza site-ul care conțin cel puțin o anumită valoare și relevanța pentru om. Valoarea specială este catalog, inclusiv imagini, baze de date de referință, și multe altele, care pot fi utile concurenților.

Să încercăm Spars informațiile necesare în html, încercați să obțineți toate link-urile către mai multe pagini ale site-ului nostru.

Vreau să arăt două moduri de bază pentru a obține conținut de pe site-ul:

Opțiunea 1 - PHP file_get_contents funcția. Funcția returnează un cod HTML-line, vom analiza link-uri:

Opțiunea 2 - FLEXIE. Biblioteca care acceptă PHP și are o gamă largă de setări, de la POST-cererea de a lucra cu FTP. Luați în considerare un apel standard de bibliotecă curbeze, ceea ce ne va da continutul site-ului:

Acum, în linia noastră de $ out este conținutul tuturor trei pagini. Deci, vom merge direct la parsarea nostru șir de caractere.

Din nou, vreau să arăt 3 opțiuni pentru a rezolva problema noastră, mod „nativ“ php, folosind biblioteca built-in și biblioteca DOMDocument SimpleHTMLDOM.

1. funcția PHP exploda. Funcția găsește caracterul dorit sau o parte dintr-un șir și împarte șir întreg în elemente de matrice.

Din nou, avem nevoie pentru a obține valoarea atributului href în tag-o, pentru că va împărtăși o linie comună pe unele părți \ segmente:

În cazul în care oferta noastră de imprimare este similar cu următorul:

2. încorporat DOMDocument bibliotecă. Lucrul cu clasa aproximativ, după cum urmează:

Rezultatul unei astfel de cod este exact la fel ca și cu ajutorul funcției exploda.

3. Biblioteca SimpleHTMLDOM. Acesta trebuie să fie conectat din dosar. Munca în jur este similar cu DOMDocument. Noi lucrăm cu clasa:

Din nou, rezultatul este o matrice exact la fel ca mai sus, în două de mai sus.