configurare corectă

Cu auto-promovare și promovarea unui site, este important nu numai pentru a crea conținut unic sau interogări de selecție în statisticile Yandex, dar, de asemenea, ar trebui să acorde o atenție din cauza unor astfel de indicatori ca motoarele de căutare să indexeze o resursă, din cauza aceasta depinde, de asemenea, succesul continuu al promoției.

Tu și eu sunt disponibile două instrumente de bază cu care putem gestiona acest proces. În primul rând, este, desigur, un fișier robots.txt, care ne va ajuta să interzică indicele care conține conținutul principal (fișiere de conținut ale motorului și duplicate), și este despre el și va fi discutat în acest articol, dar altele decât că, există un alt un instrument important - sitemap (XML Harta site-ului).

De ce este important de a gestiona indexarea site-ului dvs.

Instrumentele menționate mai sus sunt foarte importante pentru succesul proiectului, iar acest lucru nu este o afirmație. Articolul pe XML Harta site-ului (loc cit.) Am citat exemplul unui studiu foarte important al erorilor tehnice cele mai comune webmasteri novice acolo pe al doilea și al treilea rând (după conținut nu unic) sunt doar absența acestor fișiere roboți și saytmap sau prepararea lor necorespunzătoare și utilizare.

Trebuie înțeles foarte clar că nu toate conținutul proiectului de web (fișiere și directoare), create pe orice motor, ar trebui să fie disponibile pentru roboții motoarelor de căutare.

O soluție bună ar fi să interzică orice prisos în robots.txt (toate literele din numele trebuie să fie în litere mici - fără litere majuscule).

Apropo, dacă doriți să învățați cum să se uite la dosarul unui proiect în rețea, acesta va fi suficient pentru a adăuga la pagina sa de origine Urlu se încheie un fel /robots.txt. Acest lucru poate fi util pentru înțelegerea a ceea ce ar trebui să fie în ea.

Cu toate acestea, trebuie să se țină cont de faptul că pentru motoare diferite, acest fișier va arata diferite (foldere de motor pe care doriți să le interzică indicele va fi menționat în diferite moduri în diferite CMS). Prin urmare, dacă doriți să determine cel mai bun pentru roboți, de exemplu, pentru un forum privind SMF, precum și necesitatea de a studia numai pe forum construit pe acest motor.

Directivele și regulile de scriere fișier robots.txt (nu permite, user-agent, gazdă)

Roboții nu sintaxă complexă, care este descrisă în detaliu, de exemplu, într-un ajutor Yandex. De obicei, indică un bot motor de căutare sunt descrise mai jos directive: numele bot ( „User-agent“), de autorizare ( „Allow“) și interzicerea ( „nepermisă“), precum și utilizate pe scară mai largă „Harta site-ului“ pentru a indica pentru motoarele de căutare, exact în cazul în care fișierul hartă.

Un alt util pentru a indica acest fișier, unele dintre oglinzi vebproekta este în principal în directiva specială „gazdă“, care înțelege numai Yandex. Chiar dacă resursele nu sunt oglinzi, ar fi util să se indice care dintre grafiile este principala - cu sau fără www. pentru că este, de asemenea, un fel de oglindire. Asta e ceea ce am spus în detaliu în articolul despre 301 de redirecționare pentru domeniul cu WWW și fără ea.

Acum, hai sa vorbim un pic despre sintaxa acestui fișier. Directivele în robots.txt sunt după cum urmează:

<поле>:<пробел><значение><пробел>
Codul corect trebuie să conțină cel puțin o directivă «Interdicție» după fiecare intrare «User-agent». Fișier gol implică permisiunea de a indexa întregul site.

User-agent: *
Dacă doriți să «User-agent» pentru a stabili anumite condiții pentru doar o parte din bot, de exemplu, Yandex, ar trebui să scrie:

User-agent: Yandex
Barca fiecare motor de căutare are numele său propriu (de exemplu, Rambler este StackRambler). Aici voi da o listă cu cele mai renumite dintre ele:

În cele mai importante motoare de căutare, uneori, pe lângă bot principal, există, de asemenea, unele cazuri de blog-uri de indexare, știri, imagini, etc. O mulțime de informații cu privire la speciile de boti pot desena pe această resursă.

Iată câteva exemple simple de utilizare a directivelor cu o explicație a acțiunilor sale.

1. Codul de mai jos permite tuturor roboții să indexeze întregul conținut, fără nici o excepție. Este dat o directivă Interdicție martor.

2. Codul de mai jos, pe de altă parte, interzice complet toate motoarele de căutare pentru a adăuga la pagina de index a acestei resurse. Interziceți îl trece în „/“ în câmpul de valoare.

4. In directorul «imagine» va fi interzis exemplul de mai jos, precum și toate fișierele și directoarele care încep cu «imagine» de caractere, adică fișiere: .. «Image.htm», «images.htm», cataloage: «imagine »,«imagini 1»,«image34»etc) ...:

5. În descrierea moduri de a-Allow interziceți directive, puteți utiliza caracterele „*“ si „$“, solicitând, astfel încât anumite expresii logice. „*“ Simbolul reprezintă orice (inclusiv unul gol) secvență de caractere. Următorul exemplu dezactivează toate motoarele de căutare de indexare fișiere cu extensia «.aspx»:

Pentru a evita problemele neplăcute oglindește site-ul este recomandat pentru a adăuga Directiva gazdă în robots.txt, ceea ce indică Yandex bot pe oglinda principală. În conformitate cu regulile de scriere în rubricile pentru User-agent ar trebui să fie de cel puțin o directivă Interdicție (de obicei, a pus gol, nimic nu interzice)

în funcție de ceea ce este cel mai bine pentru tine.

Există un alt mod de a configura (activa sau dezactiva) indexarea pagini individuale ale unui site pentru Yandex, cât și pentru Google. Pentru a face acest lucru, în interiorul «HEAD» tag-ul atașat la pagina de web Roboți META tag-ul dorit cu parametrii corecți, și așa se repetă pentru toate documentele la care doriți să aplice o anumită regulă (interdicție sau permisiune). Se poate arăta în felul următor:

Există doar două perechi de parametri în această meta tag-ul: [nu] indexa și [nu] urmează:

Pentru un blog pe WordPress, puteți ajusta meta tag-ul Robots, cum ar fi utilizarea plug-in All One SEO Pack. Ei bine, tot ce a făcut cu teoria, și este timpul pentru a trece la practica, și anume elaborarea de robots.txt optime pentru Joomla, SMF și WordPress.

După cum știm, proiectele create pe baza unui motor (Joomla, WordPress, SMF, etc.), există mai multe facilități de sprijin nu poartă nici o sarcină informativ.

Dacă nu dezactivați indexarea tuturor acest gunoi, timpul alocat de motoarele de căutare să indexeze site-ul dvs., acesta va fi cheltuit pe fișierele brute ale motorului (căutare pentru ei o componentă de informații, și anume conținut).

Dar ideea este că, în majoritatea conținutului CMS nu este stocat într-un fișier, precum și baza de date la care roboții de căutare nu pot ajunge. Urca în gunoi obiecte bot motor epuizat timpul alocat și pleca cu mâinile goale.

Yandex și Google, pentru a indexa, găsiți duplicate și pot lua măsuri pentru unele pessimizatsii resursa la numărul lor mare (ei, de asemenea, nu vânează pentru a găsi cereale în grămada de gunoi de grajd).

Dacă proiectul se bazează pe oricare dintre motor, conținutul duplicat va avea loc cu o probabilitate ridicată, și, prin urmare, trebuie să-l lupta, inclusiv folosind o interdicție robots.txt. și mai ales în meta-tag-ul, pentru că, în primul caz, Google poate interzice și să ignore, dar în meta tag-ul nu-i pasa, el nu ar fi capabil (bine educat).

De exemplu, în WordPress pagini cu conținut foarte similar poate ajunge în căutarea de index, în cazul în care este permis de indexare și de conținut coloane, precum și conținutul arhivei tag-ul și conținutul fișierelor temporare.

Dar, dacă se utilizează meta-tag-ul așa cum este descris mai sus, pentru a crea o interdicție pentru etichetele de arhivă și fișierul temporar (puteți lăsa tag-uri, și să interzică pozițiile de indexare de conținut), duplicarea conținutului nu este acolo. În acest scop, WordPress este cel mai bun pentru a profita de plug-in All One SEO Pack, se referă la descrierea care arata exact deasupra textului.

Chiar mai greu de duplicat de conținut este cazul în SMF motorului forumnye. Dacă nu reglați fin (ban) de roboți, atunci de căutare va primi mai multe duplicate ale acelorași posturi. În Joomla, de asemenea, de modul în care, uneori, există o problemă cu dublarea documentelor comune și copiile acestora pentru a fi imprimate.

Rezumând spun că fișierul Roboți este utilizat pentru a stabili norme globale restricționează accesul la directorul întreg site-ul, sau fișiere și foldere ale căror nume sunt prezente anumite caractere (masca). Exemple de sarcini astfel de interdicții, puteți vedea chiar mai sus.

Pentru a dezactiva indexarea unei singure pagini este utilă este eponim meta-tag-ul, care este prescrisă în antetul (între etichetele HEAD) din documentul dorit. Detalii despre sintaxa tag-ul meta, a se vedea chiar deasupra textului.

robots.txt corectă pentru Joomla, WordPress și SMF

Acum, să ne uităm la roboți exemple specifice concepute pentru diferite motoare - Joomla, WordPress și SMF. Desigur, toate cele trei opțiuni de către CMS pentru diferite, va fi în mod substanțial (dacă nu este radical) diferite unele de altele. Cu toate acestea, toate acestea vor avea un singur lucru în comun, iar acest moment este legat de motor de căutare Yandex.

pentru că în RuNet Yandex are destul de o mulțime de greutate, trebuie să ia în considerare toate nuanțele muncii sale, iar apoi vom găzdui directivă. Aceasta indică în mod explicit faptul că motorul de căutare oglinda principală a site-ului.

Pentru aceasta se recomandă să utilizați un blog User-agent separat, este destinat numai pentru Yandex (User-agent: Yandex). Acest lucru se datorează faptului că alte motoare de căutare nu pot înțelege gazdă și, în consecință, includerea sa în dosarul User-agent, proiectat pentru toate motoarele de căutare (User-agent: *), poate duce la consecințe negative și indexare necorespunzătoare.

Așa cum este cazul în realitate - greu de spus, deoarece algoritmii de căutare de locuri de muncă - un lucru în sine, așa că cel mai bine este de a face ca sfătuiți. Dar, în acest caz, ar trebui să fie duplicat în direktiveUser-agent: Yandex toate regulile pe care le-am stabilit User-agent: *. Dacă lăsați User-agent: Yandex Disallow pentru a goli. modul în care vă permite Yandex merge oriunde și transporta totul la index.

Înainte de a porni la opțiunile specifice, îmi place să vă că verificați funcționarea robots.txt puteți Yandex și Google webmasteri pentru webmasteri amintesc. Acolo puteți specifica adresele URL konkrentnye vieții sale și a vedea (verifica) dacă motorul de căutare pentru a le adăuga la indexul sau această acțiune ați interzis cu succes în miracol-fișier.

Setarea corectă pentru robots.txt Forum SMF

Pentru un forum pe motor, SMF va fi corect pentru a citi fișierul (luat de la un forum de suport tehnic al acestui subiect):

Rețineți că această opțiune este dată pentru cazul când forumul SMF instalat într-un director de pe forum, site-ul principal. În cazul în care forumul nu este pe directorul, pur și simplu eliminați toate regulile / forum.

URL-ul prietenos în SMF poate fi activat sau dezactivat în forum admin făcând clic pe următoarea cale: indicați spre „Caracteristici și Settings“, găsiți elementul „Permiteți URL-ul prietenos“, în cazul în care vă puteți bifa sau debifa în partea de jos a meniului, în coloana din stânga a admin.

Există o altă opțiune pentru SMF robots.txt (dar, probabil, nu a fost încă pe deplin testate):

După cum puteți vedea în acest fișier, Directiva gazdă este destinat numai pentru Yandex, este inclus în User-agent pentru toate motoarele de căutare. Eu, probabil, ar fi adăugat încă o directivă User-agent separat numai Yandex, repetați toate regulile. Dar decide pentru tine.

datorită faptului că motorul de căutare Yahoo (Slurp - acesta este numele motorului bot de căutare) scanează serverul în mai multe fluxuri, ceea ce poate afecta negativ performanțele sale.

Această regulă directivă crawl de întârziere vă permite să specificați Yahoo bot perioadă minimă de timp (în secunde) între sfârșitul injectării unui document și începutul următoarea injecție. Acest lucru ar scuti sarcina pe server.

Pentru a dezactiva versiunea pentru imprimare recomandă să facă pașii de mai jos (pentru punerea sa în aplicare trebuie să deschidă unele fișiere SMF pentru editarea folosind programul FileZilla).

În Surse / Printpage.php găsi fișierul (de exemplu, printr-o căutare Notepad ++ built-in) linie:

fatal_lang_error (472, false);
Introducerea imediat sub ea:

$ Context [ 'robot_no_index'] = true;
În Teme fișier / nazvanie_vashey_temy_oformleniya / Printpage.template.php găsi linia:

“, $ context [ 'character_set]'
Introduceți următoarea linie de sub ea:

Și se introduce următoarea linie:

Obțineți mai multe informații despre această opțiune, puteți robots.txt fișier, după ce a citit acest thread vorbitor de limbă rusă forum de suport.

robots.txt corectă pentru Joomla

fișier Joomla Recomandat arata ca acest lucru:

În principiu, nu sunt, practic, toate luate în considerare și funcționează bine. Singurul lucru pe care este necesar să se adauge o regulă separat User-agent: Yandex directivă inserție gazdă, care definește oglinda principală pentru Yandex, precum și pentru a specifica calea către fișierul Sitemap.

Prin urmare, în forma sa finală roboți potriviți pentru Joomla, în opinia mea, ar trebui să arate astfel:

Oh, și rețineți că, în al doilea exemplu de realizare, nu există nici o directivă Disallow: / images /, dând interzicerea imaginilor de indexare pe site. Am uitat să se concentreze în primul rând atenția asupra acesteia, dar mi-a amintit de dragul meu Alex.

Complet Sunt de acord cu el că, dacă imaginile sunt unice și doriți ca vizitatorii să găsească site-ul dvs. chiar și cu căutarea de imagini de Yandex și Google, trebuie să eliminați această regulă din fișierul dvs., dar nu uitați să înregistreze toate imaginile atributelor Alt și titlul în tag-ul Img.

Când creați un magazin online pentru Joomla bazate pe componente VirtueMart am fost confruntat cu faptul că indicele de motoare de căutare a început pentru a obține o versiune pentru imprimare a paginilor din această revistă foarte. Buton care duce la o pagină imprimabilă, a fost necesară (deoarece clientul a dorit), deci nu a fost doar o opțiune cu interzicerea lor în robots.txt.

Dar nu a fost dificil. Faptul este că, pentru a crea o versiune de imprimare în Jumla folosi aceeași pagină web URL-ul, cu excepția uneia: referința nu este la index.php, și index2.php. Astfel, nu se realizează încărcarea șablon, adică afișează doar conținutul întregului ecran.

Prin urmare, pentru a interzice versiunea de imprimare VirtueMart am adăugat următoarea regulă:

Robots.txt pentru WordPress

Nu voi da un exemplu de fișier pe care dezvoltatorii recomanda. Tu le poți vedea. Mulți bloggeri nu restricționează roboții Yandex și Google în plimbările lor prin intermediul motorului WordPress conținut. Cel mai adesea puteți găsi în blog-uri Robotii sunt completate automat cu plugin-ul Google XML Sitemaps.

De aceea, aici voi da propria sa versiune, și va trebui să decidă să-l folosească în această formă, sau tweak pentru a se potrivi nevoilor dumneavoastră:

Până în prezent, indexarea blog cu această versiune de robots.txt am fost complet multumit. Eu folosesc același nume și meta tag-ul (l-am adăugat în antetul paginii cu timpul și tag arhive).

Pentru a înregistra roboți tag-ul, nu am recurge la editarea codului motorului WordPress. Acest lucru nu a fost necesar, deoarece Toate acestea se poate face pur și simplu, prin setarea sau eliminarea bife în paragrafele relevante ale plugin minunat - All in One SEO Pack.

Partajați acest articol cu ​​prietenii tăi

articole similare