Site-urile de indexare sunt importante. Deoarece în procesul de scanare a unui site de către roboți de căutare sunt actualizate informațiile despre un site din bazele de căutare. Pentru ca utilizatorii să găsească site-ul în căutare, resursa trebuie să meargă la indexul motorului de căutare.
Există două moduri:
Prima metodă este mai puțin eficientă și necesită mai mult timp, în timp ce înregistrarea directă va trimite rapid roboți de căutare către o nouă resursă. Data estimată a apariției resurselor în căutare este de 1-2 săptămâni după confirmarea drepturilor.
Scanarea site-urilor prin roboți se efectuează periodic. Dacă site-ul este completat cu pagini noi sau informațiile de pe paginile existente sunt actualizate, este posibil să "ajuți" roboții să detecteze actualizările și să accelereze apariția de noi pagini în căutare.
Pentru a face acest lucru, site-ul are nevoie de un Sitemap. indicând roboții pe pagini importante care au fost actualizate sau adăugate recent. Harta este importantă pentru ambele site-uri care sunt simple în structură și pentru resurse masive cu cuiburi pe mai multe niveluri. Pentru ca roboții să proceseze cardul, trebuie să îndeplinească anumite cerințe:
- dimensiuni de până la 10 mb în formă necomprimată
- nu mai mult de 50 000 de pagini
- fără erori
- Harta este în același domeniu cu pagina.
Principalele formate de carduri sunt text și XML. Formatul XML vă permite să specificați informațiile roboților despre pagini: semnificația, ora ultimei actualizări și frecvența actualizărilor.
Se verifică corectitudinea pregătirii Sitemap-ului prin instrumentele standard: validatorul Yandex și Google. Fișierul robots.txt trebuie să conțină un link către Sitemap.
Ce afectează indexarea site-ului
Serverul este responsabil pentru disponibilitatea resursei pentru indexare. Baza de date de căutare este actualizată în mod constant, site-urile care sunt indisponibile pentru o lungă perioadă de timp sunt șterse. Pentru a verifica răspunsul serverului, utilizați instrumentul.
Iată câteva lucruri care pot afecta indexarea:
- Cu cât este mai mare adresa URL și cu cât sunt mai multe niveluri de cuibărit, cu atât este mai dificil pentru robotul de căutare să găsească și să indexeze pagina
- Documentele de peste 10Mb nu sunt indexate
- Flash va fi indexat dacă fișierele sunt încorporate în codul html folosind etichete
- În documentele PDF, conținutul de text este supus indexării, conținutul grafic nu este indexat (text în imagini)
Cum să afecteze indexarea
Fiecare webmaster poate controla modul în care roboții de căutare scanează paginile site-ului, ce material le este disponibil și ce este ascuns de indexare.
Pentru a face acest lucru, există un fișier robots.txt în care dezvoltatorul poate închide anumite secțiuni ale resursei de la indexare. În mod prestabilit, toate informațiile despre resursă sunt disponibile pentru indexare, astfel că webmasterul trebuie să ia măsuri și să restricționeze accesul roboților la anumite conținuturi. De regulă, datele personale ale utilizatorilor site-ului, corespondența, informațiile financiare sunt închise pentru indexare. De asemenea, închidem paginile cu informații interne despre servicii.
Fișierul robots.txt este generat automat de către CMS cu toate comenzile necesare. Pentru a verifica fișierele, există instrumente standard Yandex și Google. Robots.txt închide conținutul întregii pagini din indexare, dacă trebuie să interziceți indexarea unei anumite părți a conținutului, atunci este mai bine să aplicați eticheta
Cum să ștergeți o pagină de resurse dintr-o căutare
Verificăm numărul de pagini din indexul Yandex și Google.
Ștergem paginile într-unul din următoarele moduri:
- ștergerea unei pagini de pe site
- Blocați accesul la roboți în fișierul robots.txt
- utilizarea etichetei de roboți în codul html în sine între -tag-uri
- închideți conținutul paginii șterse sau o parte din ea cu eticheta meta
- Utilizați serviciul "Eliminați URL-ul" în Yandex și Google (Google sugerează efectuarea anumitor acțiuni înainte de a șterge informațiile din căutare). Acesta este cel mai rapid mod de a șterge paginile din bazele de date de căutare.
Aceste metode nu se exclud reciproc. Asta înseamnă că puteți împiedica indexarea în fișierul robots.txt și puteți șterge pagina prin intermediul serviciului de căutare.
Trei comenzi importante din fișierul robots.txt
Robots.txt - instrumentul principal pentru gestionarea roboților de căutare pe site.
Respingerea interzice indexarea anumitor secțiuni ale resursei (date tehnice, informații inutile pentru statisticile vizitelor utilizatorilor, pagini duplicate și altele).
Extinderea cu crawlere indică robotului de căutare intervalul minim de acces la server pentru a reduce sarcina și a nu afecta viteza de afișare a paginilor de pe partea utilizatorului. Acest lucru este important pentru site-uri mari cu mii de pagini. De exemplu, Întârzierea accesării cu crawlere: 2 înseamnă că intervalul minim al accesului robotului la server este de 2 secunde.
Parametrul Clean Param indică ce parametri cgi sunt prezenți în URL-ul nu ar trebui luați în considerare. De exemplu, o adresă URL poate conține un identificator de sesiune. De fapt, diferite adrese URL vor duce la aceeași pagină. Roboții pot să se "blocheze" în indexarea lor, fără a ajunge niciodată la pagini importante și utile.
Motoarele de căutare fac cerințe simple pentru site-uri și indexare.
Harta site-ului și fișierul robots.txt sunt instrumentele de bază pentru controlul comportamentului roboților la fiecare vizită.
Aș adăuga că, dacă doriți să indice nu numai principal, dar restul paginii și cât mai curând posibil, „extras“ o referire la ele, și chiar mai ușor și mai rapid - context rula, important mai ales pentru Yandex.
Și în Google Webmaster, în secțiunea "arătați ca guglebot", puteți adăuga imediat 10 pagini în paginile despre care se referă sau așa
Paul, mulțumesc pentru adăugarea valoroasă! Este important să profitați de toate căile posibile pentru a accelera indexarea.