- Factorii care afectează indexarea site-ului
- Gestionați indexarea site-ului
- constatări
În acest capitol veți învăța cum să realizeze site-ul corect indicele TION, trebuie să faceți pentru a căuta motor vklyuchilastranitsy site-ul dvs. în lista de căutare disponibile, precum și modul de a gestiona indexarea paginilor.
Factorii care afectează indexarea site-ului
Din capitolul 1, "Sugestie și căutarea de informații pe Internet", ați aflat de ce este important ca site-ul să apară în rezultatele căutării. Pentru a face acest lucru, motorul de căutare ar trebui să includă paginile site-ului în indexul său. Despre motorul de căutare pe care l-ați citit în capitolul precedent. Acum, hai sa vorbim despre modul de a face robot motor de căutare indexează site-ul dvs. liber, precum și modul în care puteți controla comportamentul robotului de căutare on-line.
Putem distinge mai mulți factori care au un efect semnificativ asupra indexării paginilor site-ului și a clasificării ulterioare a legăturilor la documente în rezultatele căutării în motoarele de căutare. Să le analizăm în detaliu.
Dacă doriți să utilizați mai multe cuvinte în numele unei pagini HTML, puteți să vă alăturați în trei moduri: scrieți împreună, separați cu o cratimă (-) sau cu o subliniere (_).
Server Script Work
În activitatea script-urilor de server și a setărilor serverului web, mulți factori care au un impact imens asupra indexării unui site de către roboți ai motoarelor de căutare sunt deseori ascunși.
Anteturi HTTP
Mai întâi, trebuie să configurați corect serverele server și server pentru a lucra cu anteturile HTTP.
Protocolul HTTP este limba în care clientul (de exemplu, browserul sau crawlerul) și serverul site-ului dvs. "vorbesc" prin solicitări și răspunsuri. Cu fiecare cerere către server, browserul sau robotul caută informații despre servicii în anteturile HTTP.
Data schimbării paginii
Cu cât informațiile despre site-ul dvs. se schimbă cel mai adesea și se adaugă pagini noi, cu atât mai des va veni robotul motorului de căutare pe site. Să presupunem că știm că site-ul are pagini care nu s-au schimbat (de exemplu, o arhivă de știri) și există pagini actualizate sau complet noi. Este important pentru noi ca motorul de căutare să indexeze pagini proaspete, dar cel vechi nu sa descărcat din nou. Dar motorul de căutare nu știe ce știm.
Pentru a înțelege dacă pagina sa modificat de la ultima vizită a robotului, motorul de căutare ar trebui să îl descarce din nou și să o compare cu versiunea anterioară. Dacă pagina conține modificări semnificative, atunci copia în index este înlocuită cu cea nouă, dacă nu, atunci versiunea stocată anterior rămâne în index. Se pare că robotul este ocupat să descarce pagini care nu s-au schimbat, iar cel nou nu are timp suficient. În plus față de faptul că noile pagini nu intră în index, site-urile mari se pot confrunta cu o altă problemă - o încărcare nejustificată pe server. Pentru a evita acest lucru, puteți configura serverul să se ocupe de crearea și modificarea paginilor. Dacă această setare este activată, atunci când robotul de căutare solicită o pagină, serverul va informa robotul ultimei modificări a acestei pagini. Apoi acele pagini care nu au fost modificate de la ultima sosire a robotului nu vor mai fi descărcate, iar robotul va acorda mai multă atenție paginilor noi sau modificate.
Vom explica cum să configurați prelucrarea datei modificării paginii.
Sesiuni și duplicate
Dacă site-ul oferă abilitatea de a înregistra un utilizator (de exemplu, un forum), este important să ne amintim într-un fel cum a fost ultima dată pe site, ce pagini a vizitat, ce setări a făcut, etc. Pentru aceasta, există un mecanism pentru sesiuni - identificatori unici pentru fiecare vizitator al site-ului.
Cookie - un șir de text special stocat pe computerul utilizatorului, prin care fiecare site poate "eticheta" browser-ul utilizatorului. Când re-accesați, site-ul citește valoarea cookie-ului și "recunoaște" utilizatorul.
- www.site.ru/script.php?page=servicemode=show
- www.site.ru/service/
- www.site.ru/service.html
- www.site.ru/service.htm
De notat special este mecanismul de eliminare a duplica Yandex, atunci când același număr de pagini ale unui site atinge un anumit prag, se execută un program special care elimină pagini suplimentare din indexul motorului de căutare. Uneori, după o astfel de procedură, indicele pur și simplu nu conține documente de pe site, iar procesul de indexare începe de la bun început.
Codul paginii
Majoritatea informațiilor de pe Internet sunt texte în format HTML. O pagină web este un text marcat cu cod HTML (procesul de marcare se numește aspect). Motorul de căutare, după pomparea paginii, începe să-l dezasambleze - pentru a separa textul de codul HTML (citiți despre el în capitolul precedent). Pe cât de bine este compilat codul HTML al paginii, depinde de modul în care robotul va indexa pagina.
În plus, paginile cu cod HTML reprezintă unul dintre principalii factori interni importanți pentru poziționarea cu succes a paginilor site-ului în rezultatele căutării. Motoarele de căutare încearcă să recunoască structura logică a textului - titluri, accente logice asupra celor mai importante cuvinte. Pentru a face acest lucru, în HTML există instrumente-etichete speciale ", de exemplu