Cunoștințe, prelegere, sindicalizare și agregare a conținutului web

Rezumat: Scopul cursului este de a revizui specificațiile și tehnologiile care vizează creșterea disponibilității (vizibilității) informațiilor relevante și relevante pentru utilizatorii finali, precum și îmbunătățirea utilizabilității atunci când lucrați cu aceste informații.

Utilizatorul poate primi informații de pe site fără a fi nevoie să îl viziteze în mai multe moduri.

A doua modalitate este de a utiliza programe speciale care urmăresc modificările în codul site-ului (de exemplu, pentru citirea automată a forumurilor și a grupurilor de știri). Astfel de decizii sunt slab distribuite și nu destul de populare.

A treia opțiune implică trimiterea de corespondență în format HTML. Sunt populare pentru compilarea comunicatelor de presă și a diverselor materiale de marketing, cu toate acestea, este imposibil să primiți date în acest mod în timp util (aceasta creează o sarcină mare pe serverele de mail, întârzierile în transmiterea poștei sunt tipice). În plus, această opțiune este vulnerabilă la spam.

Deși RSS și Web Slices se bazează pe platforma RSS Windows. între ele există diferențe fundamentale:

Astfel, dacă utilizatorul este interesat de istoricul evenimentelor, atunci este mai bine să utilizați canalele RSS, dacă numai informațiile actuale sunt fragmente web.

RSS Web-based Syndication

Web Syndication - o formă de sindicalizare în care conținutul unui site web este furnizat altor numeroase site-uri web. Cu alte cuvinte, sindicalizarea web înseamnă crearea de feed-uri web accesibile de pe site, furnizând informații tuturor utilizatorilor sub forma unui scurt rezumat al noului conținut care apare pe site (știri, mesaje de pe forum etc.).

Pentru un site gazdă, sindicarea web este o modalitate eficientă de a afișa informații mai cuprinzătoare și mai timpurii pe paginile lor.

Interacțiunea fluxurilor web și a agregatorilor are loc în următoarea ordine:

  • Furnizorul de conținut publică pe site-ul său un link către flux.
  • Utilizatorul poate înregistra acest link utilizând programul de agregare de pe computerul său.
  • Programul de agregare analizează apoi toate serverele din lista de fire înregistrate pentru a obține conținut nou.
  • Dacă există un conținut nou, programul agregator informează utilizatorul despre prezența unui astfel de agent sau îl încarcă imediat.

Conținutul unui flux web este de obicei o pagină web. hyperlink-uri sau multimedia. Extracția conținutului dintr-un site sub forma unui flux web este realizată de obicei prin intermediul site-ului web. Cu toate acestea, nu toate site-urile web pot avea un flux web. În acest caz, pot fi utilizați agenți terți. Un flux web este un document web, de obicei în format XML, care conține elemente tematice care conțin legături către o versiune mai completă a materialului. Este un instrument convenabil pentru furnizarea de informații structurate. Utilizatorii se pot abona la fluxuri web folosind agregatori sau cititori de fire care combină conținutul mai multor fluxuri web pentru a fi afișate pe o singură pagină (sau mai multe pagini consecutive).

Unele dintre browserele web conțin capabilități integrate pentru agregarea fluxurilor. Acest lucru se face prin introducerea pur și simplu a URL-ului fluxului web sau prin clic pe hyperlink-ul din browser. Formatul fluxurilor web nu este destinat citirii directe de către utilizator, deoarece vă permite să transferați automat conținut de pe site către site. Pentru a reprezenta informațiile dintr-un flux web, se folosesc de obicei două formate: RSS și Atom.

Dacă comparăți fluxul web cu tehnologia tradițională de e-mail de livrare a informațiilor actualizate frecvent, atunci puteți evidenția următoarele avantaje ale primului:

Agregatorul vă permite să combinați informații din diferite fire într-o fereastră a unui browser web sau a unei aplicații web. Această aplicație este numită un feed RSS. știri feed. agregator sau un agregator de căutare. Agregatele de agitatori pot descărca automat fișiere media. Agregatorul agregat de conținut primește și interpretează, de obicei, în RSS sau în alte formate bazate pe XML. de exemplu RDF / XML sau Atom. Cele mai dezvoltate metode de agregare a fluxurilor web sunt implementate pe baza tehnologiilor AJAX și a componentelor XML - widgeturi web (webwidgets).

Multe limbi de programare au biblioteci de funcții care vă permit să încărcați, să procesați, să generați și să efectuați descărcări la distanță de canale. De exemplu, Perl acceptă mai multe biblioteci în spațiul de nume XML :: XML

RSS - o familie de formate XML concepute pentru a descrie fluxuri de știri, anunțuri de articole, schimbări în bloguri și așa mai departe.

În versiuni diferite, abrevierea RSS a avut diferite transcrieri:

  • Site-ul Rich Summary (RSS 0.9x);
  • Rezumatul site-ului RDF (RSS 0.9 și 1.0);
  • Really Simple Syndication (RSS 2.x).

Din istoria formatului.

Prima versiune oficială deschisă a RSS a fost versiunea 0.90. Formatul a fost bazat pe RDF (Resource Description Framework) și multe părea prea complexe, după care a apărut o versiune simplificată - 0.91.

Datorită existenței mai multor versiuni diferite ale formatelor de feed-uri RSS, programele agregatoare trebuie să poată lucra cu toate variantele, ceea ce creează anumite dificultăți pentru dezvoltatorii lor. De asemenea, problemele de compatibilitate apar atunci când inserați mici fragmente HTML în descrierea RSS. care în unele cazuri sunt proiectate ca noduri CDATA, iar în altele - ca noduri PCDATA codate HTML. Există probleme cu diferite formate pentru reprezentarea datelor și metadatelor.

Microformatele

Microformatele - un mod de marcare semantică a informațiilor despre diverse entități (evenimente, organizații, persoane, bunuri etc.) pe paginile web, utilizând elemente standard ale HTML (XHTML).

Utilizatorul uman poate percepe pagina cu microformatul marcat ca o pagină web obișnuită (prin intermediul unui browser web); În același timp, utilizatorii pot extrage informații structurate din această pagină, urmând anumite convenții.

Deoarece microformatele se bazează pe standardele existente (cum ar fi HTML și XHTML), ele sunt ușor de adăugat la paginile existente de pe WWW.

Atunci când se utilizează microformate, se adaugă noi componente la marcajul HTML existent, completat cu un înțeles special, pre-definit. De exemplu, utilizând atributul de clasă, puteți specifica semnificația unui element HTML pe pagină (acest atribut este definit pentru toate elementele). Astfel, dezvoltatorii ajung la un acord cu privire la utilizarea anumitor valori ale atributelor (inclusiv clasa) pentru marcarea anumitor informații. În viitor, o astfel de marcare poate fi prelucrată.

Pentru marcarea cu microformate, toate elementele HTML sunt potrivite. dar o importanță deosebită este atașată elementelor care nu au propriile lor semnificații semantice standard - div și span. Dintre atributele folosite în prezent sunt în general următoarele:

Fiecare microformat este conceput pentru a rezolva o problemă specifică. Următoarele microformate sunt cele mai utilizate pe scară largă:

Web Slices

Fragmentele web execută patru funcții principale:

Pentru a localiza Web Slice, utilizatorii plasează indicatorul mouse-ului peste el; funcția Web Slice Detection din document este apelată.

Rețea de rețele semantice

În rețeaua web semantică se presupune că utilizarea omniprezentă

  • Identificatori de resurse universale (URI),
  • ontologii și limbi de descriere a metadatelor.

Conceptul de Web semantic a fost adoptat și promovat de W3C. Pentru implementarea sa, se planifică crearea unei rețele de documente conținând metadate despre resursele WWW. și existente în paralel cu acestea. În timp ce resursele în sine sunt destinate percepției umane, metadatele sunt folosite de mașini (roboți de căutare și alți agenți inteligenți) pentru a obține informații clare despre proprietățile acestor resurse prin mecanismele inferenței logice.

Partea tehnică a webului semantic este familia de standarde pentru limbile de descriere, inclusiv XML. XMLSCHEMA. RDF. RDFSchema. OWL etc. Nevoia de a descrie metadatele într-un fel sau altul duce la dublarea informațiilor. Fiecare document trebuie să fie creat în două exemplare: marcat pentru citire de către oameni și, de asemenea, într-un format orientat spre mașină.

Ontologia este o încercare de formalizare completă și detaliată a unui anumit domeniu de cunoaștere cu ajutorul unei scheme conceptuale. De obicei, o astfel de schemă constă dintr-o structură de date ierarhică care conține toate clasele relevante de obiecte, conexiunile și regulile lor (teoreme, constrângeri) adoptate în acest domeniu.

Ontologiile moderne constau de obicei din specimene. concepte. atribute și relații.

Pentru a descrie ontologiile web, sa dezvoltat o limbă specială - OWL (Web Ontology Language), construită pe XML. Limbajul OWL poate fi folosit pentru a descrie clasele și relațiile dintre ele. În inima limbajului este reprezentarea realității în modelul de date obiect-proprietate. Limba este aplicabilă nu numai pentru descrierea paginilor web, ci și pentru orice obiecte din realitate și este considerată ca fiind una dintre tehnologiile fundamentale necesare pentru construirea unui Web Semantic.

Articole similare