robots.txt

Textový súbor v koreni webu, ktorý robotom hovorí, kam smú a kam nie. Dnes rovnaký nástroj rozhoduje aj o tom, či vás čítajú AI crawlery.

robots.txt je obyčajný textový súbor umiestnený v koreni domény (napríklad svaton.sk/robots.txt), ktorý robotom dáva pokyny, ktoré časti webu smú prechádzať a ktoré nie. Je to dohoda, nie zámok - slušné roboty (Googlebot, Bing, väčšina AI crawlerov) ju rešpektujú.

Ako funguje

Pracuje s pravidlami User-agent (pre ktorého robota platí), Disallow (kam nesmie) a Allow (výnimka). Klasicky sa ním riešilo, aby roboty nemíňali kapacitu na nezmyselné stránky - filtre, košík, interné vyhľadávanie.

Nová úloha v ére AI

Ten istý súbor dnes rozhoduje aj o AI crawleroch. Riadkom Disallow pri GPTBot, ClaudeBot alebo PerplexityBot ich pustíte alebo zablokujete - a tým priamo ovplyvníte, či vás AI nástroje môžu citovať.

Naučená pasca: keď audit hlási, že je niečo "blokované v robots.txt", väčšinou nejde o dôležité stránky, ale o filtre a faceted navigáciu, ktoré tam blokované byť majú. Vždy si treba pozrieť, čo presne je za pravidlom, než sa spustí poplach.

Časté otázky

Skryje robots.txt stránku z Google?

Nie spoľahlivo. Disallow len zabráni prechádzaniu obsahu, stránka sa aj tak môže objaviť vo výsledkoch bez popisu. Na skutočné vylúčenie z indexu slúži značka noindex, nie robots.txt.

Musí mať web robots.txt?

Nemusí, ale mať ho je dobrá prax. Aspoň by mal odkazovať na sitemapu a vedome riešiť prístup robotov vrátane AI crawlerov.

Ako funguje

Nová úloha v ére AI

Časté otázky

Chcete vedieť, či vás v tomto vidieť?

Súvisiace pojmy