Structura unui fisier Robots.txt

Conceptul si structura fisierului robots.txt au fost concepute acum mai bine de 10 ani, dar acesta este folosit de foarte multe website-uri si in ziua de astazi. Vrei sa faci cursuri optimizare seo, asistat de profesionisti in domeniu? Intra pe DanBradu.com!

Structura fisierului robots.txt.

Structura unui astfel de fisier este una foarte simpla – este practic o lista nesfarsita de agenti (crawler-ele motoarelor de cautare) si de fisiere pe care tu le setezi ca fiind inaccesibile pentru acestea. Sintaxa este dupa cum urmeaza:
– User-Agent:
– Disallow:

“User-agent” reprezinta sectiunea unde introduci crawler-ele si “disallow” este lista de fisiere si directoare la care aceste crawlere nu vor avea accesul pe care il au de obicei in modul default, adica in lipsa fisierului robots.txt.

Fisierele si directoarele setate in fisierul robots.txt vor fi excluse de la verifcarea crawler-elor si deci de la indexarea in motoarele de cautare. In plus fata de liniile “user-agent” si “disallow” poti introduce si anumite linii de comentariu (comment lines), pentru acest lucru trebuind sa introduci cate un semn “#” la inceputul fiecarei linii, ca in exemplul de mai jos:

# Toti agentii sunt restrictionati de la vizualizarea folderului /Imagini
User-Agent: *
Disallow: /Imagini/

Capcanele fisierului robots.txt.

In momentul in care incepi sa creezi fisiere complicate sau decizi sa permiti accesul catorva motoare de cautare dar altor motoare nu, incep sa apara unele probleme daca nu esti suficient de atent la configurarea fisierului robots.txt.

Greselile comune constau in directive (comenzi) care se contrazic unele pe celelalte sau pot fi greseli de introducere a agentilor (numele acestora), a directoarelor, etc. Problemele cele mai serioase insa, sunt in momentul in care apar erori logice, ca in exemplul de mai jos:
–    User-agent: *
–    Disallow: /Imagini/
–    User-agent: Googlebot
–    Disallow: /imagini/
–    Disallow: /temporare/
–    Disallow: /bin/
Exemplul de mai sus este dintr-un fisier de tip robots.txt ce permite tuturor agentilor sa acceseze orice fisier de pe website cu exceptia directorului “Imagini”.

Pana aici este totul bine, numai ca ceva mai departe in acelasi fisier, exista o alta inregistrare ce impune o masura si mai restrictiva, pentru GoogleBot. In momentul in care crawler-ul Google incepe sa citeasca fisierul robots.txt, acesta va vedea ca toti ceilalti agenti (inclusiv el insusi) au permisiunea de a accesa toate directoarele cu exceptia directorului “Imagini”.

In consecinta crawler-ul de la Google nu va mai citi pana la sfarsitul fisierului, va considera fisierul ca fiind citit pana la sfarsit si in consecinta va indexa tot, in afara de directorul Imagini, adica inclusiv directorul “temporare”, “Imagini” si “Bin”, pe care tu crezi ca le-ai setat sa nu se mai indexeze. In concluzie, structura fisierului robots.txt poate fi amagitoare in unele cazuri si de aceea se recomanda verificarea acestui fisier, inainte de a fi urcat pe site.

Astfel de erori, mici in aparenta, pot da peste cap complet seo-ul unui site si poate dura luni de zile sa recuperati indexarea, daca aceasta s-a facut deja pe unele pagini pe care nu ati fi dorit sa se faca.