Ce înseamnă eroarea 404 și cum o rezolvi
Eroarea 404 apare atunci când o pagină nu mai poate fi găsită la adresa accesată. Pentru utilizator, înseamnă un drum…
Citește articolul
Fișierul robots.txt este un fișier text plasat în rădăcina domeniului tău care le spune crawlerelor ce zone din site pot sau nu pot fi accesate. Nu controlează indexarea în mod direct, ci accesul la crawl. Dacă îl folosești greșit, poți bloca pagini importante și poți pierde trafic organic fără să îți dai seama imediat.
Dacă vrei să optimizezi corect un site, trebuie să înțelegi diferența dintre crawl, indexare și afișare în rezultate. Robots.txt influențează în primul rând crawlul. Asta înseamnă că îi arăți motoarelor de căutare unde să nu consume resurse, ce secțiuni administrative să evite și cum să acceseze mai eficient conținutul util.
Robots.txt este un fișier public, accesibil de obicei la adresa
https://siteultău.ro/robots.txt
, care conține reguli pentru boți. Aceste reguli sunt citite înainte ca un crawler să acceseze anumite URL-uri de pe site-ul tău.
Fișierul folosește directive simple. Cele mai cunoscute sunt:
Un exemplu simplu arată așa:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Sitemap: https://siteultău.ro/sitemap.xml
În acest exemplu, orice robot este rugat să nu acceseze zona de administrare și coșul de cumpărături, dar poate găsi sitemap-ul pentru restul paginilor importante.
Robots.txt te ajută să controlezi eficient bugetul de crawl, mai ales dacă ai un site mare, un magazin online sau multe URL-uri generate din filtre, parametri și paginare. Când lași crawlerul să intre în zone inutile, acesta poate consuma timp pe pagini fără valoare SEO și poate ajunge mai rar la paginile care chiar contează.
Pe un site real, problema apare des în zone precum:
Dacă blochezi aceste zone, îi faci loc crawlerului să ajungă mai des la categorii, produse, articole și pagini comerciale importante.
Totuși, robots.txt nu este un instrument pentru a ascunde pagini sensibile și nici o metodă sigură pentru a scoate pagini din Google. Dacă o pagină este deja cunoscută din linkuri externe sau sitemap, ea poate apărea în rezultate chiar dacă este blocată la crawl. În astfel de cazuri ai nevoie de alte soluții, cum ar fi noindex sau protecție prin autentificare.
Când un bot ajunge pe domeniul tău, verifică mai întâi fișierul robots.txt. Dacă găsește o regulă relevantă pentru user-agentul său, încearcă să o respecte. Motoarele de căutare majore, cum este Google, respectă aceste reguli în general. Boții malițioși nu sunt obligați să le respecte.
Aici apar cele mai multe confuzii. Crawl înseamnă accesarea paginii de către robot. Indexare înseamnă stocarea și evaluarea ei pentru a putea apărea în rezultate.
| Concept | Ce înseamnă | Ce controlezi |
|---|---|---|
| Crawl | Robotul accesează URL-ul | Prin robots.txt poți permite sau bloca accesul |
| Indexare | Pagina poate fi inclusă în index | Prin noindex, canonical, calitatea paginii și alte semnale |
| Ranking | Poziția în rezultate | Prin relevanță, calitate, linkuri, experiență și intenție de căutare |
Dacă blochezi o pagină în robots.txt, robotul poate să nu mai poată vedea conținutul ei și nici eticheta noindex de pe acea pagină. Din acest motiv, nu bloca în robots.txt paginile pe care vrei să le scoți din index prin noindex.
Regulile se aplică pe baza căii URL-ului. De exemplu, dacă scrii:
User-agent: *
Disallow: /wp-admin/
blochezi accesul în acel folder. Dacă vrei să permiți un fișier dintr-o zonă blocată, poți folosi Allow:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Această situație apare frecvent în WordPress, unde anumite funcții au nevoie de acel fișier pentru a funcționa corect.
Folosește acest fișier atunci când vrei să limitezi accesul crawlerelor la zone care nu aduc valoare în căutarea organică. Nu îl trata ca pe un loc în care adaugi reguli după ureche. Fiecare blocare trebuie să aibă un motiv clar.
Dacă ai un magazin online, analizează mai întâi logurile serverului, rapoartele din Google Search Console și structura URL-urilor. Așa vezi unde se irosește crawlul și unde merită să intervii.
Fișierul trebuie să fie simplu, lizibil și fără reguli contradictorii. O versiune bună este de obicei scurtă. Dacă ajungi la un fișier foarte lung, verifică dacă încerci să rezolvi din robots.txt probleme care țin de arhitectura site-ului, canonicalizare sau gestionarea parametrilor.
Un exemplu general pentru multe site-uri arată așa:
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
Sitemap: https://siteultău.ro/sitemap.xml
Dacă folosești WordPress, o variantă comună poate arăta astfel:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://siteultău.ro/sitemap_index.xml
Nu copia exemplele fără să verifici structura reală a site-ului tău. Ce este corect pentru un site poate fi greșit pentru altul.
Plasează fișierul în directorul principal al domeniului sau subdomeniului. Dacă ai mai multe subdomenii, fiecare are propriul robots.txt. De exemplu:
Regulile de pe domeniul principal nu se aplică automat și pe subdomenii.
În practică, cel mai sigur mod este să pornești de la nevoile site-ului, nu de la un model generic. Verifică mai întâi ce URL-uri generează platforma, ce pagini vrei să fie indexate și ce zone nu au niciun rol în SEO.
După orice modificare, urmărește câteva săptămâni comportamentul crawlerelor. Uneori efectele nu apar imediat, mai ales pe site-uri mari.
Majoritatea problemelor apar din confuzia dintre robots.txt și noindex sau din reguli copiate fără verificare.
Este una dintre cele mai costisitoare greșeli. Dacă blochezi categorii, produse sau articole importante, Google nu le mai poate accesa normal. Pagina poate pierde vizibilitate sau poate rămâne indexată incomplet, fără semnale actualizate.
Dacă blochezi fișiere CSS, JavaScript sau alte resurse importante, motorul de căutare poate interpreta greșit pagina. În prezent, randarea contează mai mult decât în trecut. Dacă vrei ca pagina ta să fie evaluată corect, lasă accesibile resursele esențiale.
Fișierul este public. Oricine îl poate deschide și poate vedea ce încerci să blochezi. Dacă ai zone sensibile, protejează-le prin autentificare, restricții de acces sau configurare server-side. Robots.txt nu este o metodă de securitate.
Dacă pagina este blocată la crawl, botul poate să nu mai vadă meta robots noindex. În practică, asta înseamnă că pagina poate rămâne cunoscută de Google fără ca tu să poți transmite semnalul complet de excludere.
Un simplu
Disallow: /
blochează tot site-ul. Greșeala apare mai ales când cineva lasă un fișier de staging sau de dezvoltare activ după lansare. Verifică mereu mediul live după migrare.
Aceste trei elemente sunt folosite des împreună, dar au roluri diferite.
| Element | Ce face | Când îl folosești |
|---|---|---|
| robots.txt | Controlează accesul la crawl | Când vrei să limitezi accesul la zone inutile |
| meta robots | Transmite semnale precum noindex sau nofollow | Când vrei să controlezi indexarea unei pagini accesibile |
| sitemap XML | Listează URL-urile importante pentru descoperire | Când vrei să ajuți motoarele să găsească paginile relevante |
Dacă vrei o regulă simplă de lucru, gândește așa:
Nu publica niciodată reguli noi fără verificare. Chiar și o linie greșită poate afecta o secțiune întreagă.
Dacă analizezi Search Console, uită-te la paginile care par importante dar nu mai sunt accesate normal. Dacă ai loguri de server, verifică dacă Googlebot insistă pe zone inutile sau dacă a redus accesarea lor după schimbări.
Robots.txt nu îți crește pozițiile în mod direct. Nu este un factor de ranking în sensul clasic. Influența apare indirect, prin felul în care ajuți motoarele de căutare să consume mai eficient resursele de crawl și să ajungă la conținutul valoros.
Dacă ai un site mic, efectul poate fi redus. Dacă ai un site mare, cu multe URL-uri inutile, un robots.txt bine gândit poate ajuta la o recrawlare mai eficientă a paginilor importante. Asta nu înlocuiește optimizarea conținutului, linkurile interne, viteza, arhitectura informației și experiența utilizatorului.
Nu în mod direct. Fișierul blochează crawlul, nu indexarea. Dacă o pagină este deja cunoscută de Google din linkuri interne, externe sau din sitemap, ea poate apărea în rezultate chiar dacă nu poate fi crawl-ată complet.
Dacă vrei să scoți o pagină din index, las-o accesibilă pentru crawler și folosește noindex sau elimină pagina corect. După aceea monitorizează rezultatul în Search Console.
Da, de multe ori este o practică normală să blochezi zone administrative, autentificare, coș sau checkout. Aceste pagini nu aduc valoare în rezultatele organice și consumă crawl inutil.
Totuși, verifică dacă anumite fișiere din aceste directoare trebuie lăsate accesibile. În WordPress, de exemplu,
admin-ajax.php
este frecvent permis chiar dacă folderul este blocat.
Depinde de cum sunt construite și dacă acele combinații au valoare SEO. Dacă filtrele generează mii de URL-uri fără cerere reală, blocarea unor zone poate ajuta la controlul crawlului.
Înainte să faci asta, analizează dacă unele pagini filtrate aduc trafic sau răspund unei intenții de căutare clare. Nu bloca tot automat. Pe multe magazine, unele combinații de filtre merită păstrate și optimizate.
Corectează imediat fișierul și publică varianta bună. Apoi verifică pagina principală și câteva URL-uri importante în Search Console ca să confirmi că Googlebot are din nou acces.
După remediere, urmărește crawlul și indexarea câteva zile sau săptămâni, în funcție de mărimea site-ului. Dacă blocarea a stat activă mai mult timp, unele pagini pot avea nevoie de recrawl până își revin complet.
Creează un cont și publică advertoriale pe site-uri relevante din România, rapid și simplu.