Configurarea plug-in-ului WPGrabber, un exemplu de captare a conținutului html
Pentru a evita erorile în lucrul cu WPgrabber, să luăm în considerare configurarea hărților de import de html de pe site.
De exemplu, luați în considerare secțiunea de articole dintr-un site comercial.
Avem această adresă URL: www.trajectus.ru/stati/
4) Asigurați-vă că setați opțiunea Encoding pentru pagina HTML.
Apăsăm butonul "căutare" și căutați linia:
Pentru a evita căutarea browserului pentru o perioadă lungă de timp (Ctrl + F) și pentru a introduce cuvântul charset. Uneori codificarea este specificată în scripturi, nu ar trebui să fie observată.
Căutați o linie similară în html-codul sursă al paginii:
Pentru a umple corect parametrul "Link Template", în WPGrabber este necesar să determinați tipul de link-uri din codul paginii.
Copiem o parte din textul oricărei rubrici a articolului. Avem primul titlu al conținutului numit "Seturi de oferte"
Mergem la codul sursă, apăsați Ctrl + F și în câmpul de căutare copiați textul: "Calcule de licitație".
Căutăm acea parte în care există o html-cheie deschisă a link-ului chiar înainte de textul pe care îl căutăm.
Important este că această parte a adresei URL este fixată:
pentru că Această parte a adresei URL rămâne constantă pentru toate celelalte linkuri care merg către pagină.
Luați în considerare link-urile rămase:
Toate aceste linkuri sunt potrivite pentru descrierea noastră a șablonului. Pentru a umple corect câmpul "șablon de referință" în WPGrabber, trebuie să studiați formatul descrierii expresiei PCRE regulat.
Să înțelegem logica descrierii șablonului de referință:
- Noi schimba valoarea acestui: dostavka_v_krym /, erevalka_gruzov_v_g_ust_kut_s_zhd_st_lena_na_port_osetrovo / și preimuschestva-aviatsionnogo transport
- Aceste valori au un număr diferit de caractere în lungime
- Acestea pot include numere
- Nu poate exista doar un caracter spațial, pentru că acestea nu sunt permise în URL-ul
În formatul PCRE, orice caracter non-spațiu este marcat cu \ S
URL-ul nostru: dostavka_v_krym, preimuschestva-aviatsionnogo și celălalt format din mai multe caractere (litere si caractere de subliniere), asa ca am scrie în termenii noștri, numărul de caractere. În acest scop, în WPGrabber se utilizează bretele curbate.
De exemplu, codul \ S înseamnă 8 caractere consecutive.
Cuvântul "plugin" este descris de expresia regulată \ S, dar nu intră sub expresia \ S, deoarece în cuvântul "plugin" este de 6 litere, nu 2.
De asemenea, expresiile regulate vă permit să specificați o serie de caractere. De exemplu: \ S înseamnă toate cuvintele cu o lungime între 3 și 6 caractere inclusiv.
Pentru a specifica numărul minim de caractere dintr-o linie fără a specifica valoarea maximă după virgulă, nu se scrie nimic. De exemplu, \ S înseamnă că trebuie utilizate toate cuvintele de 4 caractere sau mai multe.
Considerăm acum opțiunile: dostavka_v_krym / sau perevalka_gruzov_v_g_ust_kut_s_zhd_st_lena_na_port_osetrovo /. Lungimea cuvintelor și simbolurilor variază foarte mult. Prin urmare, rescriem șirul de șabloane astfel:
Faceți clic pe "Importați test". Pluginul WPgrabber a găsit mai multe linkuri decât este necesar. În lista de link-uri am primit texte de legături inutile.
Prin urmare, folosim acest cod:
Aceasta înseamnă că o singură literă sau un număr sau mai multe caractere similare.
De exemplu, pentru o expresie ca:
dar, nu cad, linii ca:
În consecință, rescriem expresia noastră la această formă:
Astfel, atunci când importați conținut, legături inutile și incorecte nu vor fi prinse!
Inserați acest cod în Link Template, faceți clic pe "Aplicați" și pe "Import Test", iar plug-in-ul va emite 14 linkuri în acest moment!
Când rezultatul importării unei înregistrări în Joomla sau WordPress are ca rezultat mesajul "S-au găsit link-uri: 0". atunci acest lucru ne spune că a apărut o greșeală în scrierea șablonului de legătură WPGrabber. Verificați din nou toate setările.
Lungimea informațiilor de mai jos indică caracterele de control ale expresiilor PCRE.
Când ar trebui un punct într-o sintaxă expresie regulată a noastră (.) Aceasta înseamnă că un caracter special, ceea ce înseamnă apariția oricărui caracter posibil.
De exemplu, expresia:
înseamnă nu numai: