Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Datacol este o soluție universală pentru obținerea datelor disponibile pe Internet. Setarea tăierii datelor din orice pagină se face cu câteva clicuri ale mouse-ului. Trebuie doar să selectați zona de date pe care doriți să o salvați și Datacol va alege formula pentru tăierea acestui bloc.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Pentru funcționarea normală a programului, sistemul trebuie să aibă:

Microsoft .NET Framework 4
Microsoft Internet Explorer 7 (sau mai mare)

Când porniți campania de analiză, Queue-ul este populate în funcție de setările specificate în fila URL-uri de pornire. Coada de așteptare poate fi, de asemenea, umplută cu o adresă URL din memoria de așteptare stocată în parsarea anterioară. În ceea ce privește Istoricul, poate fi umplut și cu adresa URL din istoricul de salvare salvat în parsarea anterioară. Mai mult, firele parser pornesc în modul paralel pentru a extrage adresa URL din coadă. Când adresa URL este eliminată din coadă (și, în consecință, chitanța pentru procesare), această adresă URL este adăugată istoricului celor procesate. Fiecare adresă URL este procesată în conformitate cu planul de mai jos.

1. Verificați dacă adresa URL este potrivită pentru colectarea datelor sau pentru colectarea de referințe. Verificarea se efectuează în conformitate cu setările specificate în secțiunea Data Achiziție și Navigare.
2. Descărcați pagina URL. ca rezultat, obținem codul sursă al paginii.
3. Verificați dacă codul paginii încărcate este potrivit pentru colectarea de date sau pentru colectarea de referințe. Verificarea se efectuează în conformitate cu setările specificate în secțiunea Data Achiziție și Navigare.
4. Dacă pagina este potrivită pentru colectarea de date (aceasta a fost verificată mai devreme prin adresa URL și codul paginii), atunci se colectează datele în conformitate cu setările specificate în blocul de colectare a datelor.
5. Dacă pagina este potrivită pentru colectarea de linkuri (aceasta a fost verificată mai devreme prin URL-ul și codul paginii), atunci se colectează legăturile în funcție de setările specificate în fila Navigare -> Colecție de linkuri. Legăturile colectate sunt adăugate în coadă. Acest lucru ignoră:
- Adrese URL care nu se potrivesc setărilor NRI pentru adresa URL pentru colecția de date și nici setările de potrivire a adreselor URL pentru colecția de linkuri.
- Legături care sunt deja prezente în Istoricul parserului.
6. Exportul rezultatelor colectării datelor. În funcție de setările de export, rezultatele pot fi salvate într-un format arbitrar (de obicei un fișier CSV sau TXT), Excel, Mysql, Wordpress sau folosind plug-in-ul de export.

O coadă este o listă de linkuri către pagini de procesare (care include încărcarea paginilor, colectarea de date, colectarea de linkuri și exportul). În funcție de setările campaniei, după terminarea procesului de analiză, se poate salva o coadă de așteptare. La următoarea derulare, coada poate fi încărcată din aceeași depozit.
Istoricul este o listă a legăturilor către paginile site-ului analizate anterior de parser. În funcție de setările campaniei, după parsarea completă, poate fi salvată o memorie istoric. La următoarea pornire, istoricul poate fi încărcat din același depozit.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Dacă pe pagină există mai multe intervale, în fiecare dintre acestea se va căuta un grup de date.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Rețineți că toate câmpurile de date prezente într-un singur grup trebuie să se afle pe aceeași pagină a site-ului (sau pe pagina care se referă la acesta, adică la Referer).

Fereastra principală a programului conține: Meniul, Arborele campaniei, Tabela de campanii care rulează, Zona știrilor și afișarea rezultatelor.
De asemenea, în partea de jos este bara de stare.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Meniul conține următoarele file: Acasă, Avansat.


Butoanele pentru filele suplimentare sunt enumerate mai jos.
Dosarul programului este dosarul de servicii al programului, care conține datele de serviciu necesare pentru ca programul să funcționeze corect.
Scheduler - Task Scheduler Datacol.
Minimizați la tavă - steagul de minimizare din tavă în loc de bara de activități.

Pentru a importa și a exporta fișiere cu setările campaniilor de parser (cu extensia .par) sau cu campaniile proxy (cu extensia .prch), se utilizează butoanele corespunzătoare din meniu.
Pentru a importa o campanie, trebuie să selectați folderul în care doriți să importați campania în arborele campaniei (în exemplul de mai jos este selectat directorul parser). Apoi faceți clic pe butonul Importați campania.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Acum rămâne să selectați fișierul de campanie pe care îl veți importa.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


După ce faceți clic pe butonul Deschidere, noua campanie importată va apărea în arborele campaniei.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Pentru a exporta o campanie, trebuie să selectați campania pe care o exportați în arborele campaniei (campania kolchaka-cat.par este selectată în exemplul de mai jos). Apoi faceți clic pe butonul Exportă campanie.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Acum rămâne să selectați directorul în care va fi exportată campania.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


După exportarea setărilor campaniei, fișierul corespunzător apare în folderul selectat.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Pentru a importa pluginurile Datacol, utilizați elementul de meniu Import plug-in.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


În fereastra deschisă, trebuie să selectați folderul care conține pluginul Datacol și fișierele asociate. Rețineți că trebuie să selectați folderul care conține dll-ul principal al pluginului (și nu dosarele părinte, așa cum se întâmplă adesea la dezarhivare).

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


În plus, pentru exportul corect în folderul cu pluginul trebuie să existe un fișier plugin_convention.txt. Acest fișier trebuie să conțină numele fișierului plugin. Dacă cumpărați sau comandați un plug-in de la noi, acest fișier este prezent întotdeauna în dosarul cu plug-in-ul trimis.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


După importul pluginului, acesta devine disponibil pentru selectare în lista plug-in a ferestrei de setări a campaniei.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Arborele campaniei afișează conținutul folderului de servicii Campanii (magazinul de campanii configurate). Arborele afișează subfolderele Campanii, fișierele parser (.par) și fișierele de campanie proxy-checker (.prch). Campaniile și dosarele pot fi controlate utilizând meniul contextual. Se numește făcând clic pe butonul din dreapta al mouse-ului din campanie sau din folder.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Meniul contextual al campaniei este alcătuit din următoarele elemente:

Start-Rulați campania selectată în arborele campaniei.
Stop - opriți campania selectată în arborele campaniei.
Pauză - întrerupeți campania selectată în arborele campaniei.
Eliminarea pauzelor - întrerupe campania selectată în arborele campaniei.
Campanie de export - Exportați setările campaniei selectate în arborele campaniei într-un fișier.
Ștergeți - ștergeți campania selectată în arborele Campaniei.
Setări - deschideți fereastra de setări a campaniei selectate în arborele campaniei.
Copiați campania - creați o copie a campaniei selectate în arborele Campaniei.
Statistici privind campaniile - arată statisticile ultimei runde a campaniei selectate în arborele Campaniei. Statisticile conțin numărul de pagini din istoricul, numărul de pagini din coada de așteptare și numărul de spărturi pentru ultima rulare a rezultatelor.


Meniul context al dosarului este alcătuit din următoarele elemente:

Adăugați un dosar - adăugați un subfolder în dosarul selectat în arborele Campaniei.
Adăugați campania - creați o nouă campanie în dosarul selectat în arborele Campaniei.
Ștergere dosar - ștergeți folderul selectat în arborele campaniei.
Rulați toate campaniile - executați toate campaniile din dosarul selectat în arborele Campaniei.
Opriți toate campaniile - opriți toate campaniile din folderul selectat în arborele Campaniei.
Întrerupeți toate campaniile - întrerupeți toate campaniile din folderul selectat în arborele Campaniei.
Eliminați din întreruperea tuturor campaniilor - întrerupeți toate campaniile din dosarul selectat în Arborele campaniei.
Campanie de import - importați o campanie salvată pe computerul local în dosarul selectat în arborele campaniei.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Tabelul campaniilor în desfășurare afișează date despre campaniile în desfășurare:
Numele este numele campaniei.
Stare - starea actuală a campaniei.
Istoric - numărul de pagini din istoricul campaniei.
Cache - numărul de pagini din coada campaniei.
Rezultate - numărul de grupuri de date găsite de campanie.
Fire - numărul de fire de campanie.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Când faceți clic dreapta pe oricare dintre campaniile de tabelă, apare un meniu contextual. Acesta conține următoarele elemente:

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

În domeniul știrilor și rezultatelor, puteți găsi legături către ultimele știri despre programul Datacol, precum și despre grupurile de date colectate prin difuzarea campaniilor în acest proces. Numărul maxim de rezultate care pot fi afișate pentru o anumită campanie este setat în setările campaniei. Nu faceți acest număr prea mare, deoarece aceasta va crea o sarcină inutilă în memoria RAM.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Bara de stare afișează cantitatea de memorie consumată de program în acest moment.

Ctrl + L - Actualizați conținutul arborelui campaniei.
Ctrl + E - Deschideți dosarul programului.
Ctrl + D - Deschideți setările campaniei selectate.
Ctrl + Q - Reduceți arborele campaniei

Ctrl + Shift + D - Adăugați un nou câmp de date.
Ctrl + S - Salvați toate setările (similar cu butonul Aplicați).
Ctrl + X - Salvați toate setările și închideți fereastra de setări (similară cu butonul Salvare și Ieșire).
Ctrl + T - Testați setările filei selectate (una din filele principale: General, Descărcare, Navigare, Colectare date, Export).
Escape - Închideți fereastra de setări fără salvare.

Deseori, clienții noștri nu au funcționalitatea de bază a programului Datacol. În astfel de cazuri, puteți recurge la utilizarea pluginurilor pentru a extinde capacitățile programului în diferite etape ale lucrării. Un plugin este un fișier DLL care suprascrie (sau suplimentează) una sau altă funcție a programului. În plus față de fișierul DLL principal, pluginul include, de obicei, DLL-uri suplimentare, foldere cu fișiere suplimentare și fișiere de configurare (de obicei în format TXT). Importarea plug-in-urilor în program este descrisă aici.

Datacol5 acceptă următoarele tipuri de pluginuri de parsare:

- pluginul de procesare a adresei URL inițiale;
- pagina de descărcări pentru plug-in;
- un plug-in pentru colectarea intervalelor de date;
- plug-in de date de colectare (sau de prelucrare plug-in de date colectate);
- fișiere de descărcare plug-in;
- plug-in colecția de link-uri;
- prelucrarea datelor plug-in înainte de export;
- pluginul de export.
- plugin-ul sfârșitul procesului.

Datacol5 acceptă următoarele tipuri de pluginuri server proxy:

- sursă de descărcare plugin;
- plugin parsing proxy;
- plugin verificați proxy;
- plugin-ul sfârșitul procesului.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms


Funcția plugin handler (pluginHandler) este utilizată pentru a gestiona orice tip de plug-in-uri. Ca argumente, dicționarul parametru și variabila de eroare de șir sunt transmise acestuia. Setul de chei și valori (și, de asemenea, tipurile de valori) ale dicționarului de parametri depinde de tipul de plugin. O variabilă de eroare șir returnează o eroare de plugin, dacă există. Dacă eroarea nu se produce, această variabilă trebuie să rămână un șir gol.
Funcția manipulatorului plug-in returnează un obiect care poate fi de un tip sau altul, în funcție de tipul de plug-in. Pentru unele tipuri de pluginuri, valoarea returnată nu este relevantă.
O listă completă de parametri pentru diferite tipuri de plug-in-uri poate fi găsită în codul sursă al piesei de prelucrat. Există, de asemenea, exemple simple de utilizare a acestora. Rețineți că atunci când descrieți funcția de manipulare, nu este necesar să utilizați toți parametrii disponibili.

Fereastra de setări a campaniei de parsing este împărțită în 5 blocuri principale: Generale, Descărcare, Navigare, Colectare date și Export.

Fereastra conține, de asemenea, următoarele butoane:
Asistent - deschide programul Selector, care este utilizat pentru selectarea rapidă a expresiilor Xpath și regulilor.
Aplicați - salvează toate setările campaniei.
Salvați și ieșiți - salvează toate setările campaniei și închide fereastra de setări.
Anulare - închide fereastra de setări fără salvare.
Înapoi (săgeată stânga) - mergeți la fila de setare anterioară.
Înainte (săgeată spre dreapta) - se trece la următoarea filă a setărilor.

Faq pe parserul de informații datacol - toate pentru diferite motoare și cms

Trust "style =" text-shadow: 0px 0px 1px # 000000; servomecanisme "href =" / 1650-vip-premium-Dostup-k-servisu-freeproxyru.html „> [Vip] Acces Premium.

Trust "style =" text-shadow: 0px 0px 1px # 000000; "href =" / 1122-vip11-Intellekt-kart-administrator-VKontakte-50-shablonov-dlya-oformleniya-postov-vkontakte.html „> [Vip] 11 minte maps Admin.

Trust "style =" text-shadow: 0px 0px 1px # 000000; "href =" / 336-Invision-power-board-331-rus-nulled.html „> AstroDestin 3.3.1 [.