Fișierul robots.txt: ce este și cum îl folosești

Cuprins

Fișierul robots.txt este un fișier text plasat în rădăcina domeniului tău care le spune crawlerelor ce zone din site pot sau nu pot fi accesate. Nu controlează indexarea în mod direct, ci accesul la crawl. Dacă îl folosești greșit, poți bloca pagini importante și poți pierde trafic organic fără să îți dai seama imediat.

Dacă vrei să optimizezi corect un site, trebuie să înțelegi diferența dintre crawl, indexare și afișare în rezultate. Robots.txt influențează în primul rând crawlul. Asta înseamnă că îi arăți motoarelor de căutare unde să nu consume resurse, ce secțiuni administrative să evite și cum să acceseze mai eficient conținutul util.

Ce este fișierul robots.txt

Robots.txt este un fișier public, accesibil de obicei la adresa

https://siteultău.ro/robots.txt

, care conține reguli pentru boți. Aceste reguli sunt citite înainte ca un crawler să acceseze anumite URL-uri de pe site-ul tău.

Fișierul folosește directive simple. Cele mai cunoscute sunt:

User-agent – specifică robotul pentru care se aplică regula
Disallow – blochează accesul la anumite căi
Allow – permite accesul la anumite URL-uri dintr-o zonă altfel blocată
Sitemap – indică locația sitemap-ului XML

Un exemplu simplu arată așa:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Sitemap: https://siteultău.ro/sitemap.xml

În acest exemplu, orice robot este rugat să nu acceseze zona de administrare și coșul de cumpărături, dar poate găsi sitemap-ul pentru restul paginilor importante.

De ce contează în SEO

Robots.txt te ajută să controlezi eficient bugetul de crawl, mai ales dacă ai un site mare, un magazin online sau multe URL-uri generate din filtre, parametri și paginare. Când lași crawlerul să intre în zone inutile, acesta poate consuma timp pe pagini fără valoare SEO și poate ajunge mai rar la paginile care chiar contează.

Pe un site real, problema apare des în zone precum:

pagini de căutare internă
filtre cu combinații foarte multe
coș, checkout, cont client
fișiere tehnice sau foldere administrative
URL-uri cu parametri care dublează conținutul

Dacă blochezi aceste zone, îi faci loc crawlerului să ajungă mai des la categorii, produse, articole și pagini comerciale importante.

Totuși, robots.txt nu este un instrument pentru a ascunde pagini sensibile și nici o metodă sigură pentru a scoate pagini din Google. Dacă o pagină este deja cunoscută din linkuri externe sau sitemap, ea poate apărea în rezultate chiar dacă este blocată la crawl. În astfel de cazuri ai nevoie de alte soluții, cum ar fi noindex sau protecție prin autentificare.

Cum funcționează robots.txt

Când un bot ajunge pe domeniul tău, verifică mai întâi fișierul robots.txt. Dacă găsește o regulă relevantă pentru user-agentul său, încearcă să o respecte. Motoarele de căutare majore, cum este Google, respectă aceste reguli în general. Boții malițioși nu sunt obligați să le respecte.

Care este diferența dintre crawl și indexare

Aici apar cele mai multe confuzii. Crawl înseamnă accesarea paginii de către robot. Indexare înseamnă stocarea și evaluarea ei pentru a putea apărea în rezultate.

Concept	Ce înseamnă	Ce controlezi
Crawl	Robotul accesează URL-ul	Prin robots.txt poți permite sau bloca accesul
Indexare	Pagina poate fi inclusă în index	Prin noindex, canonical, calitatea paginii și alte semnale
Ranking	Poziția în rezultate	Prin relevanță, calitate, linkuri, experiență și intenție de căutare

Dacă blochezi o pagină în robots.txt, robotul poate să nu mai poată vedea conținutul ei și nici eticheta noindex de pe acea pagină. Din acest motiv, nu bloca în robots.txt paginile pe care vrei să le scoți din index prin noindex.

Cum sunt interpretate regulile

Regulile se aplică pe baza căii URL-ului. De exemplu, dacă scrii:

User-agent: *
Disallow: /wp-admin/

blochezi accesul în acel folder. Dacă vrei să permiți un fișier dintr-o zonă blocată, poți folosi Allow:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Această situație apare frecvent în WordPress, unde anumite funcții au nevoie de acel fișier pentru a funcționa corect.

Când merită să folosești robots.txt

Folosește acest fișier atunci când vrei să limitezi accesul crawlerelor la zone care nu aduc valoare în căutarea organică. Nu îl trata ca pe un loc în care adaugi reguli după ureche. Fiecare blocare trebuie să aibă un motiv clar.

Exemple practice utile

Blochează paginile de administrare și autentificare
Blochează coșul și checkout-ul
Blochează rezultatele căutării interne
Blochează URL-urile tehnice sau folderele de sistem
Limitează crawlul pe filtre fără valoare SEO, dacă ai confirmat că produc foarte multe URL-uri inutile

Dacă ai un magazin online, analizează mai întâi logurile serverului, rapoartele din Google Search Console și structura URL-urilor. Așa vezi unde se irosește crawlul și unde merită să intervii.

Cum scrii corect un fișier robots.txt

Fișierul trebuie să fie simplu, lizibil și fără reguli contradictorii. O versiune bună este de obicei scurtă. Dacă ajungi la un fișier foarte lung, verifică dacă încerci să rezolvi din robots.txt probleme care țin de arhitectura site-ului, canonicalizare sau gestionarea parametrilor.

Structura de bază

Un exemplu general pentru multe site-uri arată așa:

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Sitemap: https://siteultău.ro/sitemap.xml

Dacă folosești WordPress, o variantă comună poate arăta astfel:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://siteultău.ro/sitemap_index.xml

Nu copia exemplele fără să verifici structura reală a site-ului tău. Ce este corect pentru un site poate fi greșit pentru altul.

Unde îl plasezi

Plasează fișierul în directorul principal al domeniului sau subdomeniului. Dacă ai mai multe subdomenii, fiecare are propriul robots.txt. De exemplu:

https://siteultău.ro/robots.txt
https://blog.siteultău.ro/robots.txt

Regulile de pe domeniul principal nu se aplică automat și pe subdomenii.

Cum implementezi corect pe un site real

În practică, cel mai sigur mod este să pornești de la nevoile site-ului, nu de la un model generic. Verifică mai întâi ce URL-uri generează platforma, ce pagini vrei să fie indexate și ce zone nu au niciun rol în SEO.

Pași de lucru recomandați

Analizează structura URL-urilor din site-ul tău
Identifică zonele care nu trebuie crawl-ate
Verifică dacă acele zone sunt deja în index sau doar crawl-ate
Scrie reguli clare, fără suprapuneri inutile
Testează fișierul înainte de publicare
Monitorizează după implementare în Search Console și în loguri

Ce verifici după publicare

dacă paginile importante mai pot fi accesate de Googlebot
dacă sitemap-ul este accesibil
dacă au apărut URL-uri blocate accidental
dacă raportul de crawl arată mai puține accesări inutile

După orice modificare, urmărește câteva săptămâni comportamentul crawlerelor. Uneori efectele nu apar imediat, mai ales pe site-uri mari.

Ce greșeli apar cel mai des

Majoritatea problemelor apar din confuzia dintre robots.txt și noindex sau din reguli copiate fără verificare.

Blocarea paginilor care trebuie să rankeze

Este una dintre cele mai costisitoare greșeli. Dacă blochezi categorii, produse sau articole importante, Google nu le mai poate accesa normal. Pagina poate pierde vizibilitate sau poate rămâne indexată incomplet, fără semnale actualizate.

Blocarea resurselor necesare randării

Dacă blochezi fișiere CSS, JavaScript sau alte resurse importante, motorul de căutare poate interpreta greșit pagina. În prezent, randarea contează mai mult decât în trecut. Dacă vrei ca pagina ta să fie evaluată corect, lasă accesibile resursele esențiale.

Folosirea robots.txt pentru a ascunde pagini sensibile

Fișierul este public. Oricine îl poate deschide și poate vedea ce încerci să blochezi. Dacă ai zone sensibile, protejează-le prin autentificare, restricții de acces sau configurare server-side. Robots.txt nu este o metodă de securitate.

Blocarea unei pagini pe care vrei să pui noindex

Dacă pagina este blocată la crawl, botul poate să nu mai vadă meta robots noindex. În practică, asta înseamnă că pagina poate rămâne cunoscută de Google fără ca tu să poți transmite semnalul complet de excludere.

Reguli prea largi

Un simplu

Disallow: /

blochează tot site-ul. Greșeala apare mai ales când cineva lasă un fișier de staging sau de dezvoltare activ după lansare. Verifică mereu mediul live după migrare.

Robots.txt, meta robots și sitemap: care este diferența

Aceste trei elemente sunt folosite des împreună, dar au roluri diferite.

Element	Ce face	Când îl folosești
robots.txt	Controlează accesul la crawl	Când vrei să limitezi accesul la zone inutile
meta robots	Transmite semnale precum noindex sau nofollow	Când vrei să controlezi indexarea unei pagini accesibile
sitemap XML	Listează URL-urile importante pentru descoperire	Când vrei să ajuți motoarele să găsească paginile relevante

Dacă vrei o regulă simplă de lucru, gândește așa:

folosește robots.txt pentru zone care nu merită crawl
folosește noindex pentru pagini accesibile care nu vrei să apară în index
folosește sitemap pentru URL-urile pe care vrei să le descopere și să le reevalueze ușor

Cum testezi și verifici dacă fișierul funcționează

Nu publica niciodată reguli noi fără verificare. Chiar și o linie greșită poate afecta o secțiune întreagă.

Ce instrumente poți folosi

Google Search Console pentru inspecția URL-urilor și verificarea accesului
un crawler SEO pentru a vedea ce zone sunt blocate
logurile serverului pentru a analiza comportamentul real al boților
browserul, deschizând direct fișierul robots.txt pentru a verifica forma finală publicată

Dacă analizezi Search Console, uită-te la paginile care par importante dar nu mai sunt accesate normal. Dacă ai loguri de server, verifică dacă Googlebot insistă pe zone inutile sau dacă a redus accesarea lor după schimbări.

Cum influențează rankingul

Robots.txt nu îți crește pozițiile în mod direct. Nu este un factor de ranking în sensul clasic. Influența apare indirect, prin felul în care ajuți motoarele de căutare să consume mai eficient resursele de crawl și să ajungă la conținutul valoros.

Dacă ai un site mic, efectul poate fi redus. Dacă ai un site mare, cu multe URL-uri inutile, un robots.txt bine gândit poate ajuta la o recrawlare mai eficientă a paginilor importante. Asta nu înlocuiește optimizarea conținutului, linkurile interne, viteza, arhitectura informației și experiența utilizatorului.

Bune practici pe care merită să le urmezi

Păstrează fișierul scurt și clar
Blochează doar ceea ce ai analizat
Nu bloca pagini importante pentru SEO
Nu folosi robots.txt ca soluție de securitate
Include linkul către sitemap
Testează după fiecare modificare
Revizuiește fișierul după migrare, redesign sau schimbare de platformă

Întrebări frecvente

Robots.txt scoate paginile din Google?

Nu în mod direct. Fișierul blochează crawlul, nu indexarea. Dacă o pagină este deja cunoscută de Google din linkuri interne, externe sau din sitemap, ea poate apărea în rezultate chiar dacă nu poate fi crawl-ată complet.

Dacă vrei să scoți o pagină din index, las-o accesibilă pentru crawler și folosește noindex sau elimină pagina corect. După aceea monitorizează rezultatul în Search Console.

Pot să blochez /wp-admin/ sau alte zone tehnice?

Da, de multe ori este o practică normală să blochezi zone administrative, autentificare, coș sau checkout. Aceste pagini nu aduc valoare în rezultatele organice și consumă crawl inutil.

Totuși, verifică dacă anumite fișiere din aceste directoare trebuie lăsate accesibile. În WordPress, de exemplu,

admin-ajax.php

este frecvent permis chiar dacă folderul este blocat.

Este bine să blochezi filtrele și parametrii dintr-un magazin online?

Depinde de cum sunt construite și dacă acele combinații au valoare SEO. Dacă filtrele generează mii de URL-uri fără cerere reală, blocarea unor zone poate ajuta la controlul crawlului.

Înainte să faci asta, analizează dacă unele pagini filtrate aduc trafic sau răspund unei intenții de căutare clare. Nu bloca tot automat. Pe multe magazine, unele combinații de filtre merită păstrate și optimizate.

Ce faci dacă ai blocat accidental tot site-ul?

Corectează imediat fișierul și publică varianta bună. Apoi verifică pagina principală și câteva URL-uri importante în Search Console ca să confirmi că Googlebot are din nou acces.

După remediere, urmărește crawlul și indexarea câteva zile sau săptămâni, în funcție de mărimea site-ului. Dacă blocarea a stat activă mai mult timp, unele pagini pot avea nevoie de recrawl până își revin complet.