Fișierul robots.txt este un fișier text plasat în rădăcina domeniului tău care le spune crawlerelor ce zone din site pot sau nu pot fi accesate. Nu controlează indexarea în mod direct, ci accesul la crawl. Dacă îl folosești greșit, poți bloca pagini importante și poți pierde trafic organic fără să îți dai seama imediat.
Dacă vrei să optimizezi corect un site, trebuie să înțelegi diferența dintre crawl, indexare și afișare în rezultate. Robots.txt influențează în primul rând crawlul. Asta înseamnă că îi arăți motoarelor de căutare unde să nu consume resurse, ce secțiuni administrative să evite și cum să acceseze mai eficient conținutul util.
Ce este fișierul robots.txt
Robots.txt este un fișier public, accesibil de obicei la adresa
https://siteultău.ro/robots.txt
, care conține reguli pentru boți. Aceste reguli sunt citite înainte ca un crawler să acceseze anumite URL-uri de pe site-ul tău.
Fișierul folosește directive simple. Cele mai cunoscute sunt:
- User-agent – specifică robotul pentru care se aplică regula
- Disallow – blochează accesul la anumite căi
- Allow – permite accesul la anumite URL-uri dintr-o zonă altfel blocată
- Sitemap – indică locația sitemap-ului XML
Un exemplu simplu arată așa:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Sitemap: https://siteultău.ro/sitemap.xml
În acest exemplu, orice robot este rugat să nu acceseze zona de administrare și coșul de cumpărături, dar poate găsi sitemap-ul pentru restul paginilor importante.
De ce contează în SEO
Robots.txt te ajută să controlezi eficient bugetul de crawl, mai ales dacă ai un site mare, un magazin online sau multe URL-uri generate din filtre, parametri și paginare. Când lași crawlerul să intre în zone inutile, acesta poate consuma timp pe pagini fără valoare SEO și poate ajunge mai rar la paginile care chiar contează.
Pe un site real, problema apare des în zone precum:
- pagini de căutare internă
- filtre cu combinații foarte multe
- coș, checkout, cont client
- fișiere tehnice sau foldere administrative
- URL-uri cu parametri care dublează conținutul
Dacă blochezi aceste zone, îi faci loc crawlerului să ajungă mai des la categorii, produse, articole și pagini comerciale importante.
Totuși, robots.txt nu este un instrument pentru a ascunde pagini sensibile și nici o metodă sigură pentru a scoate pagini din Google. Dacă o pagină este deja cunoscută din linkuri externe sau sitemap, ea poate apărea în rezultate chiar dacă este blocată la crawl. În astfel de cazuri ai nevoie de alte soluții, cum ar fi noindex sau protecție prin autentificare.
Cum funcționează robots.txt
Când un bot ajunge pe domeniul tău, verifică mai întâi fișierul robots.txt. Dacă găsește o regulă relevantă pentru user-agentul său, încearcă să o respecte. Motoarele de căutare majore, cum este Google, respectă aceste reguli în general. Boții malițioși nu sunt obligați să le respecte.
Care este diferența dintre crawl și indexare
Aici apar cele mai multe confuzii. Crawl înseamnă accesarea paginii de către robot. Indexare înseamnă stocarea și evaluarea ei pentru a putea apărea în rezultate.
| Concept | Ce înseamnă | Ce controlezi |
|---|---|---|
| Crawl | Robotul accesează URL-ul | Prin robots.txt poți permite sau bloca accesul |
| Indexare | Pagina poate fi inclusă în index | Prin noindex, canonical, calitatea paginii și alte semnale |
| Ranking | Poziția în rezultate | Prin relevanță, calitate, linkuri, experiență și intenție de căutare |
Dacă blochezi o pagină în robots.txt, robotul poate să nu mai poată vedea conținutul ei și nici eticheta noindex de pe acea pagină. Din acest motiv, nu bloca în robots.txt paginile pe care vrei să le scoți din index prin noindex.
Cum sunt interpretate regulile
Regulile se aplică pe baza căii URL-ului. De exemplu, dacă scrii:
User-agent: *
Disallow: /wp-admin/
blochezi accesul în acel folder. Dacă vrei să permiți un fișier dintr-o zonă blocată, poți folosi Allow:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Această situație apare frecvent în WordPress, unde anumite funcții au nevoie de acel fișier pentru a funcționa corect.
Când merită să folosești robots.txt
Folosește acest fișier atunci când vrei să limitezi accesul crawlerelor la zone care nu aduc valoare în căutarea organică. Nu îl trata ca pe un loc în care adaugi reguli după ureche. Fiecare blocare trebuie să aibă un motiv clar.
Exemple practice utile
- Blochează paginile de administrare și autentificare
- Blochează coșul și checkout-ul
- Blochează rezultatele căutării interne
- Blochează URL-urile tehnice sau folderele de sistem
- Limitează crawlul pe filtre fără valoare SEO, dacă ai confirmat că produc foarte multe URL-uri inutile
Dacă ai un magazin online, analizează mai întâi logurile serverului, rapoartele din Google Search Console și structura URL-urilor. Așa vezi unde se irosește crawlul și unde merită să intervii.
Cum scrii corect un fișier robots.txt
Fișierul trebuie să fie simplu, lizibil și fără reguli contradictorii. O versiune bună este de obicei scurtă. Dacă ajungi la un fișier foarte lung, verifică dacă încerci să rezolvi din robots.txt probleme care țin de arhitectura site-ului, canonicalizare sau gestionarea parametrilor.
Structura de bază
Un exemplu general pentru multe site-uri arată așa:
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Sitemap: https://siteultău.ro/sitemap.xml
Dacă folosești WordPress, o variantă comună poate arăta astfel:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://siteultău.ro/sitemap_index.xml
Nu copia exemplele fără să verifici structura reală a site-ului tău. Ce este corect pentru un site poate fi greșit pentru altul.
Unde îl plasezi
Plasează fișierul în directorul principal al domeniului sau subdomeniului. Dacă ai mai multe subdomenii, fiecare are propriul robots.txt. De exemplu:
- https://siteultău.ro/robots.txt
- https://blog.siteultău.ro/robots.txt
Regulile de pe domeniul principal nu se aplică automat și pe subdomenii.
Cum implementezi corect pe un site real
În practică, cel mai sigur mod este să pornești de la nevoile site-ului, nu de la un model generic. Verifică mai întâi ce URL-uri generează platforma, ce pagini vrei să fie indexate și ce zone nu au niciun rol în SEO.
Pași de lucru recomandați
- Analizează structura URL-urilor din site-ul tău
- Identifică zonele care nu trebuie crawl-ate
- Verifică dacă acele zone sunt deja în index sau doar crawl-ate
- Scrie reguli clare, fără suprapuneri inutile
- Testează fișierul înainte de publicare
- Monitorizează după implementare în Search Console și în loguri
Ce verifici după publicare
- dacă paginile importante mai pot fi accesate de Googlebot
- dacă sitemap-ul este accesibil
- dacă au apărut URL-uri blocate accidental
- dacă raportul de crawl arată mai puține accesări inutile
După orice modificare, urmărește câteva săptămâni comportamentul crawlerelor. Uneori efectele nu apar imediat, mai ales pe site-uri mari.
Ce greșeli apar cel mai des
Majoritatea problemelor apar din confuzia dintre robots.txt și noindex sau din reguli copiate fără verificare.
Blocarea paginilor care trebuie să rankeze
Este una dintre cele mai costisitoare greșeli. Dacă blochezi categorii, produse sau articole importante, Google nu le mai poate accesa normal. Pagina poate pierde vizibilitate sau poate rămâne indexată incomplet, fără semnale actualizate.
Blocarea resurselor necesare randării
Dacă blochezi fișiere CSS, JavaScript sau alte resurse importante, motorul de căutare poate interpreta greșit pagina. În prezent, randarea contează mai mult decât în trecut. Dacă vrei ca pagina ta să fie evaluată corect, lasă accesibile resursele esențiale.
Folosirea robots.txt pentru a ascunde pagini sensibile
Fișierul este public. Oricine îl poate deschide și poate vedea ce încerci să blochezi. Dacă ai zone sensibile, protejează-le prin autentificare, restricții de acces sau configurare server-side. Robots.txt nu este o metodă de securitate.
Blocarea unei pagini pe care vrei să pui noindex
Dacă pagina este blocată la crawl, botul poate să nu mai vadă meta robots noindex. În practică, asta înseamnă că pagina poate rămâne cunoscută de Google fără ca tu să poți transmite semnalul complet de excludere.
Reguli prea largi
Un simplu
Disallow: /
blochează tot site-ul. Greșeala apare mai ales când cineva lasă un fișier de staging sau de dezvoltare activ după lansare. Verifică mereu mediul live după migrare.
Robots.txt, meta robots și sitemap: care este diferența
Aceste trei elemente sunt folosite des împreună, dar au roluri diferite.
| Element | Ce face | Când îl folosești |
|---|---|---|
| robots.txt | Controlează accesul la crawl | Când vrei să limitezi accesul la zone inutile |
| meta robots | Transmite semnale precum noindex sau nofollow | Când vrei să controlezi indexarea unei pagini accesibile |
| sitemap XML | Listează URL-urile importante pentru descoperire | Când vrei să ajuți motoarele să găsească paginile relevante |
Dacă vrei o regulă simplă de lucru, gândește așa:
- folosește robots.txt pentru zone care nu merită crawl
- folosește noindex pentru pagini accesibile care nu vrei să apară în index
- folosește sitemap pentru URL-urile pe care vrei să le descopere și să le reevalueze ușor
Cum testezi și verifici dacă fișierul funcționează
Nu publica niciodată reguli noi fără verificare. Chiar și o linie greșită poate afecta o secțiune întreagă.
Ce instrumente poți folosi
- Google Search Console pentru inspecția URL-urilor și verificarea accesului
- un crawler SEO pentru a vedea ce zone sunt blocate
- logurile serverului pentru a analiza comportamentul real al boților
- browserul, deschizând direct fișierul robots.txt pentru a verifica forma finală publicată
Dacă analizezi Search Console, uită-te la paginile care par importante dar nu mai sunt accesate normal. Dacă ai loguri de server, verifică dacă Googlebot insistă pe zone inutile sau dacă a redus accesarea lor după schimbări.
Cum influențează rankingul
Robots.txt nu îți crește pozițiile în mod direct. Nu este un factor de ranking în sensul clasic. Influența apare indirect, prin felul în care ajuți motoarele de căutare să consume mai eficient resursele de crawl și să ajungă la conținutul valoros.
Dacă ai un site mic, efectul poate fi redus. Dacă ai un site mare, cu multe URL-uri inutile, un robots.txt bine gândit poate ajuta la o recrawlare mai eficientă a paginilor importante. Asta nu înlocuiește optimizarea conținutului, linkurile interne, viteza, arhitectura informației și experiența utilizatorului.
Bune practici pe care merită să le urmezi
- Păstrează fișierul scurt și clar
- Blochează doar ceea ce ai analizat
- Nu bloca pagini importante pentru SEO
- Nu folosi robots.txt ca soluție de securitate
- Include linkul către sitemap
- Testează după fiecare modificare
- Revizuiește fișierul după migrare, redesign sau schimbare de platformă
Întrebări frecvente
Robots.txt scoate paginile din Google?
Nu în mod direct. Fișierul blochează crawlul, nu indexarea. Dacă o pagină este deja cunoscută de Google din linkuri interne, externe sau din sitemap, ea poate apărea în rezultate chiar dacă nu poate fi crawl-ată complet.
Dacă vrei să scoți o pagină din index, las-o accesibilă pentru crawler și folosește noindex sau elimină pagina corect. După aceea monitorizează rezultatul în Search Console.
Pot să blochez /wp-admin/ sau alte zone tehnice?
Da, de multe ori este o practică normală să blochezi zone administrative, autentificare, coș sau checkout. Aceste pagini nu aduc valoare în rezultatele organice și consumă crawl inutil.
Totuși, verifică dacă anumite fișiere din aceste directoare trebuie lăsate accesibile. În WordPress, de exemplu,
admin-ajax.php
este frecvent permis chiar dacă folderul este blocat.
Este bine să blochezi filtrele și parametrii dintr-un magazin online?
Depinde de cum sunt construite și dacă acele combinații au valoare SEO. Dacă filtrele generează mii de URL-uri fără cerere reală, blocarea unor zone poate ajuta la controlul crawlului.
Înainte să faci asta, analizează dacă unele pagini filtrate aduc trafic sau răspund unei intenții de căutare clare. Nu bloca tot automat. Pe multe magazine, unele combinații de filtre merită păstrate și optimizate.
Ce faci dacă ai blocat accidental tot site-ul?
Corectează imediat fișierul și publică varianta bună. Apoi verifică pagina principală și câteva URL-uri importante în Search Console ca să confirmi că Googlebot are din nou acces.
După remediere, urmărește crawlul și indexarea câteva zile sau săptămâni, în funcție de mărimea site-ului. Dacă blocarea a stat activă mai mult timp, unele pagini pot avea nevoie de recrawl până își revin complet.




