PHP analiză html, folosind simplu dom html

Doar urmați toți pașii din articol, și să învețe multe lucruri noi și utile!

Etapa 1 - Prepararea

Pentru a începe, aveți nevoie pentru a descărca o copie a bibliotecii simplu HTML dom. Descărcați gratuit.

In arhiva veti gasi mai mult de un fișier, dar avem nevoie de un singur - simple_html_dom.php. Toate celelalte, exemple și documentare.

Pasul 2 - Bazele parsarea HTML

Această bibliotecă este foarte ușor de utilizat, dar încă, trebuie să demontați unele dintre elementele de bază înainte de a utiliza.

Descărcați HTML

Obținerea accesului la obiectele HTML DOM


Să presupunem că avem deja un obiect DOM, structura, la fel ca în imaginea de mai sus. Puteți începe să lucreze cu el, folosind metoda find (), precum și crearea unei colecții. Colectia - o colecție de obiecte găsite de selectorii - sintaxa este oarecum similar cu jQuery.

Folosind acest exemplu de cod HTML, vom învăța cum să acceseze informațiile conținute în al doilea paragraf (p). De asemenea, vom schimba informațiile și a afișa rezultatele pe ecran.

După cum puteți vedea pentru a pune în aplicare PHP parsarea documentului HTML, un foarte simplu, folosind simplu HTML DOM bibliotecă. Practic, această bucată de cod PHP, totul poate fi înțeles intuitiv, dar dacă sunteți în unele îndoieli, ne uităm la codul.

Linia 2-4. link-ul de bibliotecă, creați un obiect de clasă și codul de încărcare HTML dintr-un șir de caractere.

Linia 7: Folosind această linie, descoperim că toți

tag-uri în codul HTML, și este stocat într-o matrice. Primul paragraf va avea indicele 0, secțiunile rămase vor fi indexate, respectiv, 1,2,3 ...

Linia 10: Ia conținutul celui de al doilea paragraf din colecția noastră. Indexul va fi 1. De asemenea, vom face modificări în text folosind atributul innerText. Caracteristica innerText, înlocuind tot conținutul în interiorul tag-ul. De asemenea, vom putea schimba tag-ul în sine, folosind atributul outertext.

Să adăugăm încă o linie de cod PHP prin care vom atribui un stil de clasă la punctul nostru.

Rezultatul codului nostru ar fi următorul document HTML:

alte selectoare

Următoarele sunt alte exemple de selectori. Dacă utilizați jQuery, simplu sintaxa HTML dom bibliotecă este un pic similară.

bibliotecă simplă documentație HTML DOM

Doar vă dau o ilustrație care arată posibile proprietăți ale elementului HTML DOM selectat.

PHP analiză html, folosind simplu dom html

Etapa 3 - Un real exemplu de PHP parsarea unui document HTML

PHP analiză html, folosind simplu dom html

Pasul 4 - Scrierea funcția de bază a PHP HTML parser

La prima funcție, noi numim oferta noastră la nivel mondial, pe care am subliniat mai devreme. Crearea unui nou simple_html_dom obiect. În continuare, vom încărca pagina care se va analiza.

Pasul 5 - Găsiți informațiile corecte

În această bucată de cod, totul este ușor, suntem găsirea unui div class = name_material. În continuare, citiți colecția de articole și selectați numele materialului. Toate materialele vor fi stocate într-o matrice sub formă de:

Pasul 6 - Concluzii Rezultatele parsing

Pentru început, vom stabili unele stiluri pentru frumusețea de informații de ieșire, care au primit în timp ce parsarea.

Apoi, cu doar câteva linii de cod PHP, vom obține informațiile.

Rezultatul acestui script va lista numele de articole pe site-ul sitear.ru.

concluzie

Așa că am învățat php documente html parsing. Amintiți-vă că parsarea unui proces lung. O pagină poate fi analizat, timp de aproximativ o secundă. Dacă faci un număr mare de documente HTML parsarea, serverul poate rupe munca script-ul în legătură cu expirarea timpului alocat pentru execuție. Acest lucru poate fi corectat prin funcția set_time_limit (240); 240 - acesta este timpul în secunde alocate pentru executarea script-ul.

articole similare