Generator robots.txt
Kontroluj, które crawlery mogą wejść, zanim wyszukiwarki, boty AI albo wersja robocza odkryją niewłaściwe ścieżki.
Edytor reguł
Użyj * dla każdego crawlera albo wpisz nazwę konkretnego, na przykład Googlebot.
Jedna ścieżka na linię. Każdą zacznij od /.
Użyj reguł allow, aby nadpisać szerszą regułę disallow.
Wskaż crawlerom sitemap, aby publiczne URL-e były łatwiejsze do odkrycia.
Podgląd pliku: robots.txt
Ściąga robots.txt
User-agent: *
Dopasowuje każdego crawlera i zwykle służy jako domyślna grupa reguł.
Disallow: /private/
Prosi zgodne crawlery, aby nie pobierały ścieżek w katalogu `/private/`.
Allow: /private/image.jpg
Pozwala crawlerom wejść do konkretnego pliku, nawet gdy ścieżka nadrzędna jest zablokowana.
Sitemap: URL
Wskazuje crawlerom sitemap, aby mogły skuteczniej odkrywać publiczne URL-e.
Częste pytania
Czy potrzebuję pliku robots.txt?
Nie jest obowiązkowy, ale pomaga jasno przekazać crawlerom reguły indeksowania i lokalizację sitemap. Bez niego zgodne crawlery mogą pobierać każdy publiczny URL, który odkryją.
Czy mogę przesłać ten plik bez wiedzy technicznej?
Tak. Generator trzyma się standardowego protokołu robots exclusion. Dla typowej strony marketingowej preset pozwalający wszystkim plus URL sitemap często wystarczy.
Jak zablokować ChatGPT albo inne crawlery AI?
Użyj zestawu reguł do blokowania crawlerów AI. Dodaje reguły disallow dla popularnych botów związanych z AI, ale robots.txt jest dobrowolny. Kontroluje uprzejme crawlery, nie zabezpiecza dostępu.
Czy robots.txt zabezpiecza prywatne strony?
Nie. robots.txt jest publiczny i nie powinien być używany jako ochrona. Prywatne panele, wersje robocze i pliki klientów nadal potrzebują uwierzytelniania, noindex albo ograniczeń sieciowych.
Jaka jest różnica między noindex i Disallow?
Disallow mówi crawlerom, żeby nie pobierały ścieżki. noindex mówi wyszukiwarkom, żeby nie trzymały strony w wynikach. Jeśli crawler nie może pobrać strony przez Disallow, może nie zobaczyć tagu noindex na stronie.