Cum de a găsi și a șterge duplicate de pagini de pe site-ul

Înainte de a începe să vorbești despre două exemplare, Alexander a dat definiția unei pagini duplicat a site-ului:

Doubles - două sau mai multe pagini ale aceluiași site. care conțin un conținut identic sau suficient de similare textual.

Cauzele duble de pe site-ul - și multe dintre ele sunt conectate cu diferite erori. De exemplu:

Erori de pagini de conținut:

• link-uri relative incorecte
• Nu există text

• HTTP-200 în loc de HTTP-404
• disponibilitatea de pagini speciale

Un mare număr de cauze posibile pentru dubluri, de obicei, foarte oprimat de webmasteri și pune căutarea lor pe termen nelimitat, care nu doresc să piardă timpul pe ea. Pentru a face acest lucru nu-l merită, deoarece prezența de pagini duplicat pe site-ul de multe ori duce la diverse probleme.

01 | Pericol ia on-line

Problemele care rezultă din camere duble:

• Schimbați paginile relevante din rezultatele căutării
• pagini de ocolire duplicat
• Dificultatea de colectare a statisticilor

Schimbarea paginii relevante

Robotul nu stochează în baza de date mai multe documente sale identice, astfel încât căutarea este doar unul dintre ele - la discreția robotului. Se pare că nu este nimic în neregulă cu asta, deoarece pagina identică. Cu toate acestea, webmasterii cu experiență știu că poziția unei anumite pagini pe nevoile sunt calculate pe baza mai multor sute de indicatori, astfel încât, dacă modificați pagina în rezultatele căutării, poziția se poate schimba.

După ceva timp, paginile relevante a revenit la problema, dar este evident că, chiar și o mică schimbare poate afecta volumul de trafic la resursa.

pagini de ocolire duplicat

În prezența unui număr mare de duplicate în resursa, robotul de căutare pentru a vizita în mod constant un număr mare de pagini. Deoarece numărul de cereri de la robotul de indexare este limitat (producător server sau CMS webmaster site-ul utilizând directiva crawl de întârziere), este, în prezența unui număr mare de pagini duplicat, începe să le descărcați, în locul paginii de index dorit. Ca urmare, rezultatele căutării pot fi afișate orice date irelevante, iar utilizatorii nu pot găsi informațiile de care au nevoie, deși este disponibil pe site-ul web.

Un exemplu practic de eludare a paginilor duplicat din care rezultă că la sfârșitul lunii mai descărcat robotului de zi cu zi un pic mai puțin de un milion de pagini de e-shop. După actualizarea resursei și de a face modificări la site-ul, robotul începe să crească dramatic sarcinii pe descărcarea de resurse de mai multe milioane de pagini pe zi:

Cele mai multe dintre aceste pagini - duble, cu incorecte GET-parametri, care a apărut din cauza funcționării incorecte a CMS folosit pe site.

Probleme cu colectarea de date statistice în Yandex.Webmaster și Yandeks.Metrike

Dacă vorbim despre webmasteri, secțiunea „Pagini pentru a găsi“ poate fi văzut aici este o imagine:

De fiecare dată când actualizați baza de date de căutare, numărul de pagini în căutarea rămâne practic neschimbat, dar este clar că robotul la fiecare actualizare adaugă și elimină aproximativ același număr de pagini. Asta este, un proces întâmplă, întotdeauna ceva care urmează să fie eliminate și se adaugă, cu numărul de pagini în căutarea rămâne neschimbat. Dacă vedeți crawling statistici, putem vedea că robotul este vizitat de mii de noi pagini de pe site, cu aceste noi pagini în rezultatele de căutare nu se încadrează. Acest lucru este exact la fel și este conectat cu pagini duplicat robot de crawl, care sunt apoi în rezultatele căutării nu sunt incluse.

Dacă vedeți statisticile de prezență a unei anumite pagini din Yandex. Metric, pot apărea următoarele situații: Această pagină prezintă anterior, la cerere specifică și pe ea au fost recomandări din rezultatele căutării, care pentru un motiv oarecare oprit la începutul lunii mai:

Și sa întâmplat următoarele - sa alăturat în rezultatele de căutare de pagini duplicat, iar utilizatorii cu o căutare a început să se miște pe ea, nu pe pagina bună.

S-ar părea că aceste trei probleme mari cauzate de prezența de pagini duplicat pe site-ul, trebuie să motiveze webmasteri pentru a le elimina. Și pentru a elimina duplicate de pe un site, trebuie mai întâi să le găsească.

02 | Căutați un duplicat

- vezi pagina duplicat?
- Nu.
- Și eu nu sunt. Și ei sunt.

Cel mai simplu mod de a căuta pagini duplicat - utilizează secțiunea „Pagini pentru a găsi“ în Yandex.Webmaster:

Pagini în căutare -> Pagina de Excludere -> Sort by: Rezerve -> Aplicare

Ca rezultat, puteți vedea toate paginile care exclud robotul, considerându-le duplicate.
Dacă există o mulțime de pagini, de exemplu, mai multe zeci de mii, pot fi obținute de încărcare webmasteri pagina continuă să-l folosească la discreția lor.

A doua metodă - folosind secțiunea „bypass“ Statistici:

Bypass Statistici -> Sortare după: 200 (OK)

În această secțiune, puteți vedea nu numai paginile care sunt vizitate de către robot, nu numai la dublu, dar, de asemenea, diverse pagini de servicii de pe site-ul dvs., care caută să vadă nu doresc să.

A treia cale - folosind fantezie.

Ia orice pagină a site-ului, și adăugați-l la un GET-parametru arbitrar (în acest caz / încercare = 123 Cu instrumentul „Verificarea răspunsului serverului“, verificați codul de răspuns pe această pagină?.:

Dacă pagina este disponibilă și răspunde, la fel ca în codul de captură de ecran, de răspuns 200, aceasta poate duce la apariția de pagini duplicat pe site-ul. De exemplu, în cazul în care un robot găsește pe undeva un link de pe Internet, acesta va indexa și potențial poate deveni redundant.

Al patrulea mod - este de a verifica starea URL.

Într-o situație în care pagina dorită a dispărut din rezultatele căutării, cu ajutorul acestui instrument, puteți verifica pe ce anume cauzeaza sa întâmplat:

În acest caz, este clar că pagina a fost eliminat din căutare, deoarece acesta este un dublu.

În plus față de aceste patru metode pot fi utilizate chiar și unele dintre căile sale, de exemplu: a se vedea jurnalele de server, statistici Yandeks.Metriki, în cele din urmă, pentru a vedea rezultatele căutării, este de asemenea posibil pentru a identifica paginile duplicat.

03 | deduplicare

• duplicate evidente (conținut complet identic)
• duble impliciți (pagini cu același conținut)

- HTTP-301 redirecționările de la o pagină la alta cu ajutorul .hitacces / CMS

Ce pagini de ar trebui să fie lăsate să decidă pentru el însuși robot de webmaster în fiecare caz. Poti sa te uiti la paginile site-ului dvs. pentru a afla care sunt cele prezente în ea în acest moment, și să ia o decizie pe baza acestor date.

- utilizați atributul rel = „canonic“ tag-ul

3. Versiune printabilă

4. Pagini cu parametri nesemnificative

site.ru/page
site.ru/page?utm_sourse=adv
site.ru/page?sid=e0t421e63

Înrolează ajutorul unei speciale directive Clean-param în robots.txt și specificați toți parametrii nesemnificative, care sunt utilizate pe site-ul -

5. Paginile de acțiune pe site-ul

site.ru/page?add_basket=yes
site.ru/page?add_compare=list
site.ru/page?comment_page_1

Interdicția în robots.txt -

site.ru/игрушки/мяч
site.ru/игрушки/ jucărie / jucării / jucărie / mingii

1. Cauti sursă de
2. HTTP-404 se adaptează la aceste solicitări

7. Articole similare

- Ne rezervam mărfurile pe o singură adresă URL și utilizați selectorul (abilitatea de a selecta culoarea și dimensiunea dorită)
- Adăugarea la paginile de descriere suplimentare, cum ar comentarii
- Închideți inutile pentru noindex

8 pagini cu imagini fără descriere

galerii Page foto, bănci foto

9. Filtru și sortare Pagini

- determină rezerva de relevanță și utilitate
- Pentru a pune această interdicție inutil într-un robots.txt -

10. Pagini paginare

site.ru/shop/catalog/podarki/
site.ru/shop/catalog/podarki/?page_1
site.ru/shop/catalog/podarki/?page_2

Noi folosim atributul rel = „canonic“ tag-ul

04 | concluzii:

Cauze și tipuri de duplicate diverse, atât de diferite, și ar trebui să fie să le abordeze din punct de vedere al optimizarea motorului de căutare. Ele nu ar trebui să fie subestimată. De multe ori trebuie să se uite la Webmaster și prompt face modificările corespunzătoare site-ului.

Crib pentru a lucra cu ia:

articole similare

Pagina anterioară

Pagina următoare