מחולל Robots.txt
שליטה באילו סורקים יכולים להיכנס לפני שמנועי חיפוש, בוטים של AI או קישורי staging מגלים את הנתיבים הלא נכונים.
עורך כללים
השתמשו ב-* עבור כל סורק, או הזינו שם סורק ספציפי כמו Googlebot.
נתיב אחד לכל קו. התחל כל נתיב עם /.
השתמשו בכללי Allow כדי לעקוף כלל Disallow רחב יותר.
הפנו סורקים למפת האתר כדי שיהיה קל יותר לגלות כתובות URL ציבוריות.
תצוגה מקדימה של הקובץ: robots.txt
הפניה ל-Robots.txt
User-agent: *
מתאים לכל סורק ומשמש בדרך כלל כקבוצת כללים המוגדרים כברירת מחדל.
Disallow: /private/
מבקש מהסורקים התואמים לא לבקש נתיבים בתוך ספריית /private/.
Allow: /private/image.jpg
מאפשר לסורקים לגשת לקובץ ספציפי גם כאשר נתיב אב אינו מותר.
Sitemap: URL
מפנה סורקים למפת האתר כדי שיוכלו לגלות כתובות URL ציבוריות ביעילות רבה יותר.
שאלות נפוצות
האם אני צריך קובץ robots.txt?
זה לא חובה, אבל שימושי לתת לסורקים כללי סריקה ברורים ומיקום מפת אתר. בלי קובץ כזה, סורקים תואמים יכולים לבקש כל URL ציבורי שהם מגלים.
האם אני יכול להעלות את הקובץ הזה ישירות גם אם אני לא טכני?
כן. המחולל עוקב אחר Robots Exclusion Protocol. עבור אתר שיווק טיפוסי, ברירת המחדל שמאפשרת סריקה יחד עם URL למפת אתר מספיקה לעיתים קרובות.
כיצד אוכל לחסום את ChatGPT או סורק AI אחרים?
השתמשו בהגדרת Block AI crawlers. היא מוסיפה כללי Disallow לסורקים נפוצים הקשורים ל-AI, אבל robots.txt הוא וולונטרי. הוא מנחה סורקים שמכבדים את הכללים, לא מחליף אבטחת גישה.
האם robots.txt שומר על אבטחת הדפים הפרטיים?
לא. robots.txt הוא ציבורי ואין להשתמש בו כהגנה. לוחות בקרה פרטיים, builds של staging וקבצי לקוחות עדיין צריכים אימות, בקרות noindex או הגבלות ברמת הרשת.
מה ההבדל בין noindex ל-Disallow?
Disallow אומר לסורקים לא להביא נתיב. noindex מורה למנועי החיפוש לא לשמור דף בתוצאות החיפוש. אם סורק אינו יכול להביא דף מכיוון שהוא אסור, ייתכן שהוא לא יראה תג noindex ברמת הדף.