Robots.txt je textový soubor umístěný v kořenovém adresáři webové stránky, který poskytuje pokyny pro vyhledávací roboty (crawlers) ohledně toho, které části webu mohou nebo nemohou indexovat. Tento soubor hraje klíčovou roli v řízení přístupu vyhledávačů k obsahu webu a v optimalizaci procházení webových stránek.
Hlavním účelem robots.txt je omezit přístup robotů na určité části webu. To může být užitečné například v případě, kdy obsah obsahuje citlivé informace, je duplicitní, nebo nemá být indexován z důvodu optimalizace výkonu webu. Robots.txt také pomáhá vyhledávačům efektivněji procházet stránky tím, že jim ukazuje, které části webu mají ignorovat.
Soubor robots.txt využívá jednoduchou textovou strukturu a obsahuje pokyny založené na následujících klíčových termínech:
*
.Příklad základního souboru robots.txt:
User-agent: *
Disallow: /private/
Allow: /private/public-data.html
Sitemap: https://www.example.com/sitemap.xml
Tento příklad zakazuje přístup k adresáři /private/
, ale povoluje přístup k souboru public-data.html
v rámci tohoto adresáře.
Robots.txt se používá v různých situacích, například:
Je důležité pochopit, že robots.txt není prostředkem pro zabezpečení obsahu. Zakázané adresy mohou být stále přístupné přímo prostřednictvím URL. Robots.txt je pouze doporučení pro roboty a není závazné pro všechny. Někteří roboti, zejména škodlivé nebo nepoctivé, mohou pravidla ignorovat.
Validace souboru robots.txt je klíčová pro zajištění jeho správné funkčnosti. K tomu lze použít nástroje jako Google Search Console, která poskytuje tester souboru robots.txt. Tento nástroj umožňuje zjistit, zda konkrétní URL odpovídá pravidlům, a poskytuje zpětnou vazbu k možným problémům.
Při vytváření a správě robots.txt je vhodné dodržovat tyto zásady:
Zablokování všech robotů na celém webu:
User-agent: *
Disallow: /
Povolení všech robotů na celém webu:
User-agent: *
Disallow:
Zákaz přístupu jen pro Googlebot:
User-agent: Googlebot
Disallow: /
Chybné nastavení robots.txt může mít vážné důsledky:
Robots.txt je jednoduchý, ale mocný nástroj pro správu přístupu vyhledávacích robotů na váš web. Jeho správné použití přispívá k efektivnímu indexování, lepšímu výkonu webu a ochraně obsahu, který nemá být veřejně přístupný. Pečlivá správa a pravidelná kontrola tohoto souboru jsou nezbytné pro dosažení maximální efektivity vašeho webu ve vyhledávačích.