Slovník
robots.txt
Textový súbor v koreni webu, ktorý robotom hovorí, kam smú a kam nie. Dnes rovnaký nástroj rozhoduje aj o tom, či vás čítajú AI crawlery.
robots.txt je obyčajný textový súbor umiestnený v koreni domény (napríklad svaton.sk/robots.txt), ktorý robotom dáva pokyny, ktoré časti webu smú prechádzať a ktoré nie. Je to dohoda, nie zámok - slušné roboty (Googlebot, Bing, väčšina AI crawlerov) ju rešpektujú.
Ako funguje
Pracuje s pravidlami User-agent (pre ktorého robota platí), Disallow (kam nesmie) a Allow (výnimka). Klasicky sa ním riešilo, aby roboty nemíňali kapacitu na nezmyselné stránky - filtre, košík, interné vyhľadávanie.
Nová úloha v ére AI
Ten istý súbor dnes rozhoduje aj o AI crawleroch. Riadkom Disallow pri GPTBot, ClaudeBot alebo PerplexityBot ich pustíte alebo zablokujete - a tým priamo ovplyvníte, či vás AI nástroje môžu citovať.
Naučená pasca: keď audit hlási, že je niečo "blokované v robots.txt", väčšinou nejde o dôležité stránky, ale o filtre a faceted navigáciu, ktoré tam blokované byť majú. Vždy si treba pozrieť, čo presne je za pravidlom, než sa spustí poplach.
Časté otázky
Skryje robots.txt stránku z Google?
Nie spoľahlivo. Disallow len zabráni prechádzaniu obsahu, stránka sa aj tak môže objaviť vo výsledkoch bez popisu. Na skutočné vylúčenie z indexu slúži značka noindex, nie robots.txt.
Musí mať web robots.txt?
Nemusí, ale mať ho je dobrá prax. Aspoň by mal odkazovať na sitemapu a vedome riešiť prístup robotov vrátane AI crawlerov.
Chcete vedieť, či vás v tomto vidieť?
Pošlite mi web alebo otázku. Pozriem sa prakticky na to, kde sa stráca viditeľnosť a čo riešiť ako prvé.