חיפוש ]

איך לחסום סורקי AI ובוטים באמצעות robots.txt

סורקי AI מבקרים באתר שלכם בכל יום. GPTBot של OpenAI, ClaudeBot של Anthropic, הסורק של Meta, ועשרות אחרים – כולם אוספים תוכן כדי לאמן מודלים של בינה מלאכותית או להפעיל תכונות חיפוש מבוססות AI.

בניגוד לסורקי מנועי חיפוש מסורתיים שמאנדקסים את האתר ושולחים אליכם תנועה, סורקי AI רבים לוקחים את התוכן שלכם בלי ייחוס ובלי קישור חזרה. החדשות הטובות הן שרובם מכבדים הנחיות robots.txt, מה שנותן לכם שליטה על מה שהם יכולים לגשת אליו.

במדריך זה תלמדו אילו בוטים של AI סורקים את האתר שלכם, איך לחסום אותם באופן סלקטיבי, ואיך לקבל החלטות חכמות לגבי אילו מהם כדאי להשאיר פעילים.

"Most AI web crawlers support being blocked via robots.txt, allowing website owners to opt-out of having their content used for AI training." – OpenAI GPTBot documentation, 2024.

סורקי אימון מול סורקי ציטוט

לפני שמתחילים לחסום, חשוב להבין את שני סוגי סורקי ה-AI:

סורקי אימון (Training crawlers) אוספים את התוכן שלכם כדי לאמן מודלים של AI. הטקסט שלכם הופך לחלק מהידע של המודל, אבל אתם לא מקבלים ייחוס, קישור או תנועה. דוגמאות: GPTBot, Google-Extended ו-ClaudeBot.

סורקי ציטוט (Citation crawlers) – נקראים גם סוכני גלישה – מושכים את התוכן שלכם בזמן אמת כדי לענות על שאלות של משתמשים. הם בדרך כלל מצטטים את הדף שלכם ומקשרים אליו חזרה. דוגמאות: ChatGPT-User, PerplexityBot ו-OAI-SearchBot.

חסימת סורקי אימון מגינה על התוכן שלכם מפני ספיגה ללא קרדיט. חסימת סורקי ציטוט אומרת שעוזרי AI לא יפנו לאתר שלכם כשמשתמשים שואלים שאלות קשורות – מה שעלול לעלות לכם בנראות בנוף החיפוש הגנרטיבי (GEO) ההולך וגדל.

חישבו היטב לפני שאתם חוסמים סורקי ציטוט כמו ChatGPT-User ו-PerplexityBot. בוטים אלה מניעים תנועת הפניות לאתר שלכם על ידי ציטוט וקישור לדפים שלכם. חסימתם אומרת שהתוכן שלכם לא יופיע בתשובות מבוססות AI – מקור תנועה שהולך ונהיה חשוב יותר.

רשימת סורקי AI מלאה

הנה סורקי ה-AI העיקריים שכדאי להכיר, מסודרים לפי חברה:

חברהUser-Agentסוגמטרה
OpenAIGPTBotאימוןאימון מודלי GPT
OpenAIChatGPT-Userציטוטגלישה בזמן אמת ב-ChatGPT
OpenAIOAI-SearchBotציטוטתוצאות חיפוש ChatGPT
AnthropicClaudeBotאימוןאימון מודלי Claude
AnthropicClaude-Userציטוטגלישה בזמן אמת ב-Claude
GoogleGoogle-Extendedאימוןאימון מודלי Gemini
PerplexityPerplexityBotציטוטמנוע חיפוש AI
AppleApplebot-ExtendedאימוןApple Intelligence / Siri
MetaMeta-ExternalAgentאימוןאימון מודלי LLaMA
ByteDanceBytespiderאימוןאימון AI של TikTok
Common CrawlCCBotאימוןמאגר נתונים פתוח לשימוש מעבדות AI
Coherecohere-aiאימוןמודלי AI ארגוניים
DeepSeekDeepSeekBotאימוןאינדוקס ידע

הרשימה הזו משתנה ככל שחברות AI חדשות משיקות סורקים משלהן. לרשימה מעודכנת, בדקו את פרויקט ai.robots.txt הקהילתי ב-GitHub.

איך לחסום סורקי AI ב-robots.txt

הוסיפו הנחיות User-agent ו-Disallow לקובץ robots.txt שלכם. קובץ זה נמצא בתיקיית השורש של האתר (למשל, https://yoursite.com/robots.txt).

חסימת כל סורקי האימון

כדי לחסום את סורקי האימון העיקריים ולהשאיר סורקי ציטוט מותרים:

# Block AI training crawlers
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DeepSeekBot
Disallow: /

בגישה זו רוב המפרסמים נוקטים: חוסמים סורקי אימון שסופגים את התוכן ללא ייחוס, אבל מאפשרים סורקי ציטוט שיכולים להחזיר תנועה.

חסימת נתיבים ספציפיים בלבד

אם אתם רוצים שסורקי AI ייגשו לחלק מהתוכן אבל לא לכולו, חסמו תיקיות ספציפיות:

User-agent: GPTBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/

User-agent: ClaudeBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/

זה מאפשר למודלי AI להתאמן על הפוסטים הציבוריים בבלוג שלכם, תוך הגנה על תוכן סגור או פרימיום.

חסימת כל סורקי ה-AI (אימון וציטוט)

אם אתם רוצים לחסום כל סורק AI מוכר לחלוטין:

# Block all AI crawlers (training + citation)
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DeepSeekBot
Disallow: /

איך לערוך את robots.txt בוורדפרס

יש כמה דרכים לערוך את קובץ robots.txt בוורדפרס:

אפשרות 1: עריכת הקובץ ישירות

אם יש לכם קובץ robots.txt פיזי בתיקיית השורש של האתר, ערכו אותו עם כל עורך טקסט והעלו באמצעות FTP או מנהל הקבצים של האחסון. זו השיטה האמינה ביותר.

אפשרות 2: שימוש בתוסף SEO

רוב תוספי ה-SEO מאפשרים לערוך את robots.txt מתוך ממשק הניהול של וורדפרס:

  • Yoast SEO: Yoast SEO > Tools > File Editor
  • Rank Math: Rank Math > General Settings > Edit robots.txt

אפשרות 3: שימוש בפילטר ב-functions.php

אם וורדפרס מייצרת את robots.txt באופן דינמי (אין קובץ פיזי), תוכלו להוסיף חוקים דרך הפילטר robots_txt:

add_filter( 'robots_txt', function( $output ) {
    $output .= "\n# Block AI training crawlers\n";
    $output .= "User-agent: GPTBot\nDisallow: /\n\n";
    $output .= "User-agent: ClaudeBot\nDisallow: /\n\n";
    $output .= "User-agent: Google-Extended\nDisallow: /\n\n";
    $output .= "User-agent: Meta-ExternalAgent\nDisallow: /\n\n";
    $output .= "User-agent: Bytespider\nDisallow: /\n\n";
    $output .= "User-agent: CCBot\nDisallow: /\n";
    return $output;
}, 99 );

robots.txt מול llms.txt: תפקידים שונים

חסימת סורקי AI עם robots.txt ומתן הקשר עם llms.txt הן שתי אסטרטגיות שונות שעובדות יחד:

  • robots.txt שולט בגישה – אילו בוטים יכולים לסרוק אילו דפים
  • llms.txt מספק הקשר – כשמערכת AI כן משתמשת בתוכן שלכם, היא יודעת איך לצטט אתכם נכון

גישה מאוזנת: חסמו סורקי אימון דרך robots.txt כדי שהתוכן שלכם לא ייספג למודלים ללא קרדיט, אבל ספקו קובץ llms.txt כדי שסורקי ציטוט שניגשים לאתר יוכלו לייצג אתכם בצורה מדויקת.

איך לוודא שסורקי AI נחסמו

אחרי עדכון robots.txt, וודאו שהחוקים עובדים:

  1. בקרו ב-https://yoursite.com/robots.txt בדפדפן וודאו שההנחיות החדשות מופיעות
  2. השתמשו בבודק robots.txt של Google ב-Search Console כדי לאמת את התחביר
  3. בדקו את הלוגים של השרת כדי לראות את מחרוזות ה-user-agent שחסמתם
  4. עקבו אחרי תנועת ה-AI שלכם ב-Google Analytics כדי לראות אם ביקורי הסורקים יורדים עם הזמן

זכרו ש-robots.txt הוא פרוטוקול וולונטרי. חברות AI מוכרות (OpenAI, Anthropic, Google, Apple) מכבדות אותו, אבל סורקים קטנים או פחות אמינים עלולים להתעלם ממנו. להגנה חזקה יותר, שקלו חסימה ברמת השרת דרך קונפיגורציית שרת הווב או WAF (חומת אש לאפליקציות ווב).

שאלות נפוצות

שאלות נפוצות על חסימת סורקי AI עם robots.txt:

האם חסימת סורקי AI תשפיע על הדירוג שלי בגוגל?
לא. חסימת סורקי אימון של AI כמו GPTBot, ClaudeBot או Google-Extended לא משפיעה על דירוג החיפוש בגוגל. בוטים אלה נפרדים מ-Googlebot, שאחראי על אינדוקס החיפוש. חסימת Google-Extended רק מונעת שימוש בתוכן שלכם לאימון Gemini - היא לא פוגעת בנראות שלכם בחיפוש Google או ב-AI Overviews של Google.
מה ההבדל בין GPTBot ל-ChatGPT-User?
GPTBot הוא סורק האימון של OpenAI - הוא אוסף תוכן כדי לשפר מודלי GPT. ChatGPT-User הוא סוכן הגלישה שמושך דפים בזמן אמת כשמשתמש ChatGPT מבקש לחפש באינטרנט. חסימת GPTBot מונעת שימוש בתוכן שלכם לאימון. חסימת ChatGPT-User מונעת מ-ChatGPT לצטט או לקשר לאתר שלכם בשיחות.
האם כדאי לחסום את Google-Extended?
חסימת Google-Extended מונעת שימוש בתוכן שלכם לאימון מודלי Gemini של Google. היא לא משפיעה על אינדוקס חיפוש Google הרגיל או על ההופעה שלכם ב-AI Overviews - אלה מטופלים על ידי Googlebot, שהוא user-agent נפרד. אם אתם רוצים למנוע אימון AI אבל לשמור על נוכחות בחיפוש, חסימת Google-Extended היא בחירה בטוחה.
האם כל סורקי ה-AI מכבדים robots.txt?
חברות AI גדולות כמו OpenAI, Anthropic, Google, Apple ו-Perplexity התחייבו פומבית לכבד robots.txt. עם זאת, robots.txt הוא פרוטוקול וולונטרי ללא אכיפה טכנית. סורקים קטנים או לא מוכרים עלולים להתעלם ממנו. להגנה חזקה יותר, שלבו robots.txt עם חסימה ברמת השרת באמצעות חוקי חומת אש או קונפיגורציית שרת הווב.
אפשר לחסום סורקי AI מדפים ספציפיים בלבד?
כן. במקום Disallow: / (שחוסם את כל האתר), ניתן לחסום נתיבים ספציפיים. למשל, Disallow: /premium-content/ חוסם רק את התיקייה הזו. אפשר גם להשתמש ב-Allow: כדי להתיר גישה לנתיבים ספציפיים בתוך אזור חסום. זה נותן לכם שליטה מפורטת על מה שמערכות AI יכולות ולא יכולות לגשת אליו.
האם חסימת סורקי AI היא רטרואקטיבית?
לא. חסימת סורק ב-robots.txt מונעת רק סריקה עתידית. תוכן שכבר נסרק לפני שהוספתם את החסימה עדיין עשוי להיות קיים בנתוני האימון של מודל ה-AI. כרגע אין דרך סטנדרטית לבקש הסרה של תוכן שנסרק בעבר, אם כי חברות מסוימות כמו OpenAI מציעות טפסי opt-out לתוכן שכבר נאסף.

סיכום

סורקי AI מתחלקים לשתי קטגוריות: סורקי אימון (GPTBot, ClaudeBot, Google-Extended) שסופגים את התוכן שלכם למודלים, וסורקי ציטוט (ChatGPT-User, PerplexityBot) שמושכים תוכן בזמן אמת ומקשרים חזרה לאתר שלכם.

רוב המפרסמים חוסמים סורקי אימון כדי למנוע שימוש בתוכן שלהם ללא קרדיט, ומשאירים סורקי ציטוט מותרים כדי לשמור על נראות בחיפוש מבוסס AI. הוסיפו את הנחיות User-agent ו-Disallow המתאימות לקובץ robots.txt שלכם כדי לשלוט בגישה.

שלבו חסימת robots.txt עם קובץ llms.txt לאסטרטגיית תוכן AI מלאה: חסמו את הבוטים שאתם לא רוצים, והנחו את אלה שאתם מאשרים לציטוטים מדויקים.

דיון ותגובות
0 תגובות  ]

השאירו תגובה

הוסיפו קוד באמצעות הכפתורים מטה. למשל, בכדי להוסיף PHP לחצו על הכפתור PHP והוסיפו את הקוד בתוך השורטקוד. מצאתם שגיאה בפוסט? עדכנו אותנו...

Savvy WordPress Development official logo