Noi scriem și compilam un browser console htmlunit pentru a ajuta Google în indexarea conținutului javascript

Cu dezvoltarea Java pe Ubuntu lucrurile nu sunt rele. Este suficient să instalați un pachet cu Eclipse din depozit pentru a obține un mediu complet de dezvoltare. Toate pachetele Java necesare sunt descărcate și instalate automat.

În Ubuntu 11.10, Eclipse 3.7 va fi instalat. Când porniți pentru prima oară Eclipse, vi se va solicita să specificați un director unde proiectele vor fi stocate în mod implicit (de exemplu, / home / user / workspace). După ce executați Eclipse, selectați Fișier -> Nou -> Proiect Java în meniul de sus. Proiectul de a crea caseta de dialog, specificați numele (de exemplu, htmlunit), vom vedea că mediul ales JRE JavaSE-1.6 și faceți clic pe «Finish» buton. Acum, în directorul / home / user / workspace / htmlunit, avem un nou proiect pentru viitorul browser fără cap.

Apoi, mergeți la site-ul oficial al HtmlUnit și descărcați cea mai recentă versiune a bibliotecii. La momentul scrierii aceasta era versiunea 2.9. Despachetați arhiva cu HtmlUnit undeva, de exemplu, în catalogul proiectului nostru: / home / utilizator / spațiu de lucru / htmlunit / src / lib. Apoi trebuie să includeți bibliotecile HtmlUnit în proiectul nostru. Pentru aceasta, selectați Project -> Properties din meniul de sus al Eclipse. În fereastra de dialog Proprietăți proiect, selectați Build Path secțiunea Java, apoi faceți clic pe tab-ul Biblioteci și folosind «Adăugați JARs externe» buton se adaugă la biblioteca JRE Library System [java-6-openjdk] HtmlUnit bibliotecă.

Acum avem un mediu de dezvoltare complet personalizat pentru aplicațiile Java cu biblioteci HtmlUnit și putem trece direct la scrierea codului. Pentru a face acest lucru, creați fișierul de clasă principal și singur în proiectul nostru. Alegeți din meniul principal File -> New -> Class și specificați numele (Name) din caseta de dialog noastră nouă clasă (de exemplu, htmlunit), apoi Eclipse va crea un nou fișier /home/user/workspace/htmlunit/src/htmlunit.java.

După aceea, rămâne doar să se arunce în programele de probă pe site-ul oficial al HtmlUnit și să scrie o aplicație care să corespundă cerințelor noastre. Prin urmare, aplicația consola pentru generarea automată a paginilor html statice (snapshot-uri) trebuie să îndeplinească următoarele cerințe:

Ca urmare a îndeplinirii acestor cerințe, am obținut următorul cod pentru cel mai simplu browser fără fir pe HtmlUnit:

Așa că am ajuns aproape la obiectivul nostru - aplicația este scrisă, rămâne să o compilați și să obținem fișierul executabil JAR, care poate fi lansat în consola. Pentru a face acest lucru în meniul Eclipse de sus, selectați File -> Export, caseta de dialog întâi, selectați Java -> Dosar JAR Runnable, iar în al doilea - în linia de export de destinație specifică locul și numele JAR-dosar, și în bibliotecă de manipulare nota «Pachetul necesar bibliotecilor în generat JAR ».

Este destul de ușor să lansăm browserul fără cap din consola Linux:

Acordați o atenție deosebită liniei «putenv («lang = ru_RU.UTF-8»);“ - fără ea nu va funcționa corect în textul de afișare consola în codificarea UTF-8, care rezultă din aplicarea consola.

Acesta este doar cel mai simplu exemplu de utilizare a bibliotecii HtmlUnit. Are multe oportunități. Și codul pentru un browser fără cap poate fi îmbunătățit pentru scopurile proprii.

Codul sursă al proiectului și fișierul JAR compilat pot fi descărcate din depozitul de pe Github.