Controlarea conținutului duplicat în wordpress

Din fericire, există mai multe modalități și tehnologii pentru a depăși conținutul duplicat:

meta nofollow tag
meta noindex tag
nofollow atribut
directivele roboților
etichetă canonică
utilizarea citatelor

Ne vom ocupa fiecare separat.

Etichete meta noindex și nofollow

Aceste etichete aparțin secțiunii și sunt plasate corespunzător în header.php

Este clar că majoritatea bloggerilor doresc ca articolele lor să cadă în index, dar nu există duplicate, astfel încât pentru paginile de arhivă, această configurație va fi optimă

Având în vedere aceste etichete, putem personaliza în mod automat lupta împotriva conținutului duplicat în mod automat. Pentru a face acest lucru, includem condițiile în header.php. în conformitate cu care paginile vor fi permise sau interzise pentru indexare, iar aceste reguli se aplică tuturor roboților de căutare.

Și dacă vrem să interzicem indexarea unui singur post? Există o mulțime de plugin-uri pentru acest scop, dar totul este făcut de mâinile tale mult mai ușor. Adăugați la secțiune șablon șablon fișier header.php

Unde 77 este ID-ul intrării selectate.

Desigur, nu este nimic în neregulă cu indexarea paginilor adiționale ale site-ului, este rău - dacă conțin conținut complet non-unic (în ceea ce privește site-ul dvs.). Dar dacă aceste pagini își formează propriile fragmente de text din citările înregistrărilor, atunci ele pot fi indexate, pentru aceasta modificăm ușor condiția

La discreția sa și pe baza conceptului site-ului, puteți adăuga sau elimina din index următorii pagini

O listă completă și descrierea etichetelor pot fi găsite aici.

Acest cod generează și adaugă la secțiune link către pagina canonică. Motorul de căutare vede acest lucru și îl indexează numai și toate celelalte duplicate care se referă la acesta nu sunt.

Atributul Nofollow

O altă posibilitate de a interzice indexarea conținutului inutil este utilizarea atributului controversat al referințelor nofollow.

Dar, așa cum sa menționat mai sus, nu este metoda 100% din indexare interzice aceste pagini, astfel încât pentru un efect maxim, trebuie să combinați un număr de moduri - dezactivare indexare tag cap meta, pune jos tag-ul nofolou link-urile de pe această pagină, precum și directivele de indexare interzic roboți

Directivele Robots.txt

Esența ei este de a informa roboții de căutare ce pot și nu pot fi făcuți pe site. Majoritatea roboților albi, cum ar fi Google și yandex, le iau în considerare și diferiți roboți de spam și parser sunt ignorați.

Rețineți că paginile cărora le este interzisă vizitarea și indexarea în roboți, absorb încă greutatea de referință. Prin urmare, dacă organizați și relansați incorect site-ul, puteți pierde o mulțime de greutate de referință, care se pierde și nu se ia în considerare.

În plus, dacă o vizită la pagină este interzisă pentru un bot, aceasta nu înseamnă că botul de căutare nu o va vizita, probabil din curiozitate - ce îi este interzisă. Și uneori apare în index - este adevărat că este afișată o singură pagină, fără a afișa conținutul din fragment.

Să examinăm un exemplu de configurare optimă a directivelor robot pentru a împiedica indexarea paginilor inutile. Pentru aceasta, trebuie să actualizați structura fișierelor și folderelor WordPress.

Cu aceste două linii, interzicem indexarea oricărei adrese URL care începe cu wp - și orice URL care conține .php la sfârșit. Prin urmare, toate folderele și fișierele de sistem nu ar trebui indexate

Apoi, nu vrem ca motoarele de căutare să indexeze următoarele pagini:

Acest lucru putem exclude aici într-un mod atât de simplu

Dacă puneți totul împreună, veți obține conținutul robots.txt

După cum puteți vedea, utilizând directiva Disallow, puteți dezactiva indexarea prin specificarea întregii sau a unei părți a adresei URL, astfel încât în același mod puteți adăuga etichete sau titluri la interdicție. Dar, pe lângă interdicție, uneori trebuie să permiteți indexarea anumitor pagini, de exemplu, dacă interzicem indexarea întregului director, dar doriți să rezolvați unul dintre fișierele din el.

Astfel, crawlerul va arăta în mod constant regulile și va efectua ultima care corespunde condiției.

Un instrument puternic pentru crearea și verificarea regulilor roboților este în bara de instrumente Google Webmaster. precum și în panoul webmasterului Yandex.

Regulile create ar trebui să fie verificate pentru corectitudine, pentru a nu mizeria lucrurile și a nu interzice indexarea nimic necesar.

Atingerea finală este adăugarea unei directive care explică faptul că regulile ar trebui să fie aplicate de toate roboții de căutare

Dacă vrem să creăm un set specific pentru numai una dintre motoarele de căutare, atunci îl specificăm

Și atingerea finală va fi includerea în roboți a legăturilor către harta sitemap sitemap, care conține link-uri către toate paginile site-ului dvs. și vă ajută să-l indice corect

Pentru a genera automat acest fișier, puteți utiliza pluginul Google XML Sitemaps. Acest fișier este, de asemenea, perfect perceput de Yandex, deci ar trebui să îl creați întotdeauna pentru fiecare site.

În final, robots.txt-ul corect va arăta cam așa

Acesta este un cod complet de lucru, potrivit pentru majoritatea site-urilor. Dar rețineți că numai boturile de căutare principale o vor lua în considerare.

Dar merită să fiți atenți la aceasta - organizația competentă de legături permanente de înregistrări. Dacă citați wordpress wordpress, amintiți-vă.

Prin urmare, este mult mai bine să începeți înregistrările URL dintr-un câmp numeric, cum ar fi anul înregistrării sau codul său de identificare. Prin urmare, dacă nu puteți acorda atenție acestui lucru site-urilor mici și rareori vizitate, atunci atunci când planificați crearea unui site mare, trebuie să vă gândiți imediat la structura optimă a adresei URL.

Și în loc de opțiuni

opțiuni de utilizare mai bune

Dar, în acest caz, merită să fiți atenți la instalarea robotului, deoarece o directivă Disallow: / 20 * poate exclude din index toate înregistrările începând cu numărul anului.

Canonice Meta Tag-uri

Prin postarea pe fiecare dintre aceste pagini în secțiune meta tag

spunem explicit unde avem conținut dublu și unde este originalul.

În WordPress, eticheta canonică efectuează aceeași funcție, indicând ce pagină să fie indexată.

Cu toate acestea, merită înțeleasă faptul că pentru motoarele de căutare aceasta este mai mult o recomandare pe care ar trebui să o îndeplinească, dar poate exista un alt rezultat dacă algoritmii iau în considerare și alți factori.

Utilizarea ghilimelelor

O altă tehnică eficientă pentru a preveni conținutul duplicat este utilizarea de citate în locul conținutului complet al înregistrărilor pentru toate paginile de arhive, etichete etc. Astfel, nu vor fi copii identice ale unei singure înregistrări.

Pentru a înlocui rezultatul întregului conținut al înregistrării în șablon, trebuie să efectuați editarea următoare

Articole similare

Pagina anterioară

Pagina următoare