חיפוש

איך לחסום סורקי AI ובוטים באמצעות robots.txt

סורקי AI מבקרים באתר שלכם כל יום. GPTBot של OpenAI, ClaudeBot של Anthropic, הסורק של Meta, ועשרות אחרים – כולם אוספים תוכן כדי לאמן מודלי שפה או להפעיל תכונות חיפוש מבוססות AI.

בניגוד לסורקי מנועי חיפוש רגילים שמאנדקסים את האתר ומביאים לכם תנועה, סורקי AI רבים לוקחים את התוכן בלי ייחוס ובלי קישור חזרה. הצד החיובי הוא שרובם מכבדים הנחיות robots.txt, ככה שיש לכם שליטה על מה שהם ניגשים אליו.

בהמשך נעבור על הסורקים העיקריים, נראה איך לחסום אותם בצורה סלקטיבית, ונבין אילו מהם שווה להשאיר פתוחים. המדריך הזה הוא חלק מהצ'קליסט שלי ל-AEO לוורדפרס.

סורקי אימון מול סורקי חיפוש ואחזור

לפני שחוסמים משהו, כדאי להבין שיש שלוש קטגוריות של סורקי AI:

סורקי אימון (Training crawlers) לוקחים את התוכן שלכם כדי לאמן מודלי AI. הטקסט שלכם נספג לתוך המודל, אבל אתם לא מקבלים ייחוס, קישור או תנועה בתמורה. דוגמאות: GPTBot, Google-Extended, ClaudeBot, Meta-ExternalAgent.

סורקי חיפוש ואחזור (Search bots) מושכים תוכן בזמן אמת כדי לענות על שאלות של משתמשים. בדרך כלל הם מצטטים את הדף שלכם עם קישור חזרה. דוגמאות: OAI-SearchBot, Claude-SearchBot, PerplexityBot.

עוזרי AI וסוכנים גולשים באינטרנט בשם משתמש ספציפי – ChatGPT-User, Claude-User, או הסוכנים האוטונומיים החדשים יותר כמו ChatGPT Operator ו-Google Agent. חלקם כבר מתחילים להתעלם מ-robots.txt בטענה שהבקשה היא "ביוזמת המשתמש".

חסימת סורקי אימון מגינה על התוכן שלכם מפני ספיגה בלי קרדיט. חסימת סורקי חיפוש משמעותה שעוזרי AI לא יפנו לאתר שלכם כשמישהו שואל שאלה קשורה – וזה עלול לפגוע לכם בנראות בנוף החיפוש הגנרטיבי (GEO) שהולך וגדל.

תחשבו פעמיים לפני שחוסמים סורקי חיפוש כמו OAI-SearchBot ו-PerplexityBot. הבוטים האלה מביאים תנועת הפניות לאתר על ידי ציטוט וקישור לדפים שלכם. חסימתם אומרת שהתוכן שלכם לא יופיע בתשובות מבוססות AI – ובימים אלה זה מקור תנועה שחשיבותו רק עולה.

רשימת סורקי AI מלאה

אלה סורקי ה-AI העיקריים שצריך להכיר. הנוף התרחב ליותר מ-140 user-agents מוכרים נכון לתחילת 2026 – ריכזתי כאן את המרכזיים:

סורקי אימון

חברהUser-Agentמטרה
OpenAIGPTBotאימון מודלי GPT
AnthropicClaudeBotאימון מודלי Claude
GoogleGoogle-Extendedאימון Gemini (לא משפיע על דירוג בחיפוש)
AppleApplebot-ExtendedApple Intelligence / Siri
MetaMeta-ExternalAgentאימון מודלי LLaMA (נפח סריקה גבוה מאוד)
AmazonAmazonbotAlexa ועוזר הקניות Rufus
ByteDanceBytespiderAI של TikTok (נפח ירד ב-85% ב-2025)
Common CrawlCCBotמאגר נתונים פתוח לשימוש מעבדות AI
Coherecohere-aiמודלי AI ארגוניים
DeepSeekDeepSeekBotאימון LLM (ציות ל-robots.txt מפוקפק)

סורקי חיפוש ואחזור

הבוטים האלה מושכים תוכן כדי לענות על שאלות, ובדרך כלל מצטטים את הדף שלכם עם קישור חזרה:

חברהUser-Agentמטרה
OpenAIOAI-SearchBotתוצאות חיפוש ChatGPT
AnthropicClaude-SearchBotתוצאות חיפוש Claude
PerplexityPerplexityBotמנוע חיפוש AI
AmazonAmzn-SearchBotחיפוש AI של Amazon

עוזרי AI (מופעלים על ידי משתמש)

גולשים בשם משתמש ספציפי. אם תחסמו אותם, ה-AI לא יוכל לאחזר את התוכן שלכם כשמשתמש מבקש:

חברהUser-Agentמטרה
OpenAIChatGPT-Userגלישה בזמן אמת ב-ChatGPT
AnthropicClaude-Userגלישה בזמן אמת ב-Claude
PerplexityPerplexity-Userאחזור תוכן ביוזמת המשתמש

שימו לב לגבי ChatGPT-User: OpenAI הסירו בשקט מהתיעוד את ההתחייבות שלהם לציית ל-robots.txt עבור ChatGPT-User. הטענה שלהם: בקשות "ביוזמת המשתמש" לא כפופות ל-robots.txt. בפועל, זה אומר שחסימת ChatGPT-User דרך robots.txt עשויה כבר לא לעבוד.

הרשימה משתנה כל הזמן. למעקב שוטף עם 140+ סורקים, בדקו את פרויקט ai.robots.txt ב-GitHub או Known Agents.

איך לחסום סורקי AI ב-robots.txt

הוסיפו הנחיות User-agent ו-Disallow לקובץ ה-robots.txt שלכם. הקובץ יושב בתיקיית השורש של האתר (למשל https://yoursite.com/robots.txt).

חסימת כל סורקי האימון

כדי לחסום את סורקי האימון העיקריים תוך השארת סורקי החיפוש פתוחים:

# Block AI training crawlers
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DeepSeekBot
Disallow: /

זו הגישה שרוב בעלי האתרים נוקטים: חוסמים סורקי אימון שסופגים תוכן בלי לתת קרדיט, ומשאירים סורקי חיפוש פתוחים כדי שהאתר יופיע בתשובות AI.

חסימת נתיבים ספציפיים בלבד

אם אתם רוצים שסורקי AI ייגשו לחלק מהתוכן אבל לא לכולו, אפשר לחסום תיקיות ספציפיות:

User-agent: GPTBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/

User-agent: ClaudeBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/

ככה מודלי AI יכולים להתאמן על הפוסטים הציבוריים בבלוג, בזמן שתוכן סגור או פרימיום נשאר מוגן.

חסימת כל סורקי ה-AI (אימון + חיפוש + עוזרים)

אם אתם רוצים לחסום את כל סורקי ה-AI המוכרים לגמרי:

# Block all AI crawlers (training + citation)
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DeepSeekBot
Disallow: /

סורקים שמתעלמים מ-robots.txt

לא כל סורק AI משחק לפי הכללים. כמה מהגדולים פשוט בלתי נראים ל-robots.txt:

ChatGPT Atlas (OpenAI) משתמש ב-user-agent רגיל של Chrome, בלי סימן מזהה כלשהו. הוא נראה כמו תנועת דפדפן רגילה ואין דרך לזהות אותו דרך robots.txt.

Grok / xAI מסובב כתובות IP ביתיות ומתחזה ל-Safari ול-Chrome. למרות ש-xAI תיעדו user-agent בשם "GrokBot", בפועל לא נראתה תנועה אמיתית שמשתמשת בו.

Bing Copilot משתמש ב-user-agent הרגיל של Bingbot, אז אי אפשר לחסום את Copilot בלי לחסום גם את חיפוש Bing עצמו.

נגד הסורקים האלה, ההגנה היעילה היחידה היא חסימה ברמת השרת – WAF כמו AI Crawl Control של Cloudflare, חוקים מבוססי IP בקונפיגורציית שרת הווב, או הגבלת קצב. Cloudflare כבר חוסמים סורקי AI כברירת מחדל על כל דומיין חדש.

איך לערוך את robots.txt בוורדפרס

כמה דרכים לערוך את קובץ ה-robots.txt בוורדפרס:

אפשרות 1: עריכת הקובץ ישירות

אם יש לכם קובץ robots.txt פיזי בתיקיית השורש, פתחו אותו בעורך טקסט כלשהו והעלו דרך FTP או מנהל הקבצים של האחסון. הדרך הכי אמינה.

אפשרות 2: שימוש בתוסף SEO

רוב תוספי ה-SEO מאפשרים לערוך את robots.txt מתוך ממשק הניהול של וורדפרס:

  • Yoast SEO: Yoast SEO > Tools > File Editor
  • Rank Math: Rank Math > General Settings > Edit robots.txt

אפשרות 3: שימוש בפילטר ב-functions.php

אם וורדפרס מייצרת את robots.txt דינמית (בלי קובץ פיזי), אפשר להוסיף חוקים דרך הפילטר robots_txt:

add_filter( 'robots_txt', function( $output ) {
    $output .= "n# Block AI training crawlersn";
    $output .= "User-agent: GPTBotnDisallow: /nn";
    $output .= "User-agent: ClaudeBotnDisallow: /nn";
    $output .= "User-agent: Google-ExtendednDisallow: /nn";
    $output .= "User-agent: Meta-ExternalAgentnDisallow: /nn";
    $output .= "User-agent: BytespidernDisallow: /nn";
    $output .= "User-agent: CCBotnDisallow: /n";
    return $output;
}, 99 );

robots.txt מול llms.txt מול ai.txt

כיום יש כמה תקנים לניהול גישת AI לתוכן. לכל אחד תפקיד אחר:

  • robots.txt שולט בגישת סריקה – אילו בוטים יכולים לבקר באילו דפים
  • llms.txt מספק הקשר – מפת תוכן שמערכות AI יכולות להשתמש בה כדי להבין ולצטט את האתר שלכם בצורה מדויקת
  • ai.txt (של Spawning) מצהיר על הרשאות אימון – ספציפית לאימון מודלי AI, עם תמיכה ב-opt-out של EU TDM

מה שאני ממליץ: חסמו סורקי אימון דרך robots.txt, ספקו llms.txt כדי שסורקי חיפוש שניגשים לאתר יידעו לייצג אתכם נכון, והוסיפו נתונים מובנים (structured data) כדי שלמערכות AI יהיה קל לנתח את התוכן.

איך לוודא שסורקי AI נחסמו

אחרי שעדכנתם את robots.txt, ודאו שהכל עובד:

  1. בקרו ב-https://yoursite.com/robots.txt בדפדפן וודאו שההנחיות החדשות מופיעות
  2. השתמשו בבודק robots.txt של Google ב-Search Console כדי לאמת את התחביר
  3. בדקו את הלוגים של השרת כדי לראות את מחרוזות ה-user-agent שחסמתם
  4. עקבו אחרי תנועת ה-AI שלכם ב-Google Analytics כדי לראות אם ביקורי הסורקים יורדים עם הזמן

חשוב לזכור ש-robots.txt הוא פרוטוקול וולונטרי. החברות הגדולות (OpenAI, Anthropic, Google, Apple) מכבדות אותו, אבל סורקים קטנים או פחות אחראיים עלולים להתעלם ממנו. אם צריכים הגנה חזקה יותר, שווה לשקול חסימה ברמת השרת דרך קונפיגורציה של שרת הווב או WAF.

שאלות נפוצות

שאלות נפוצות על חסימת סורקי AI עם robots.txt:

האם חסימת סורקי AI תשפיע על הדירוג שלי בגוגל?
לא. חסימת סורקי אימון של AI כמו GPTBot, ClaudeBot או Google-Extended לא משפיעה על דירוג החיפוש בגוגל. בוטים אלה נפרדים מ-Googlebot, שאחראי על אינדוקס החיפוש. חסימת Google-Extended רק מונעת שימוש בתוכן שלכם לאימון Gemini - היא לא פוגעת בנראות שלכם בחיפוש Google או ב-AI Overviews של Google.
מה ההבדל בין GPTBot ל-ChatGPT-User?
GPTBot הוא סורק האימון של OpenAI - הוא אוסף תוכן כדי לשפר מודלי GPT. ChatGPT-User הוא סוכן הגלישה שמושך דפים בזמן אמת כשמשתמש ChatGPT מבקש לחפש באינטרנט. חסימת GPTBot מונעת שימוש בתוכן שלכם לאימון. חסימת ChatGPT-User מונעת מ-ChatGPT לצטט או לקשר לאתר שלכם בשיחות.
האם כדאי לחסום את Google-Extended?
חסימת Google-Extended מונעת שימוש בתוכן שלכם לאימון מודלי Gemini של Google. היא לא משפיעה על אינדוקס חיפוש Google הרגיל או על ההופעה שלכם ב-AI Overviews - אלה מטופלים על ידי Googlebot, שהוא user-agent נפרד. אם אתם רוצים למנוע אימון AI אבל לשמור על נוכחות בחיפוש, חסימת Google-Extended היא בחירה בטוחה.
האם כל סורקי ה-AI מכבדים robots.txt?
חברות AI גדולות כמו OpenAI, Anthropic, Google, Apple ו-Perplexity התחייבו פומבית לכבד robots.txt. עם זאת, robots.txt הוא פרוטוקול וולונטרי ללא אכיפה טכנית. סורקים קטנים או לא מוכרים עלולים להתעלם ממנו. להגנה חזקה יותר, שלבו robots.txt עם חסימה ברמת השרת באמצעות חוקי חומת אש או קונפיגורציית שרת הווב.
אפשר לחסום סורקי AI מדפים ספציפיים בלבד?
כן. במקום Disallow: / (שחוסם את כל האתר), ניתן לחסום נתיבים ספציפיים. למשל, Disallow: /premium-content/ חוסם רק את התיקייה הזו. אפשר גם להשתמש ב-Allow: כדי להתיר גישה לנתיבים ספציפיים בתוך אזור חסום. זה נותן לכם שליטה מפורטת על מה שמערכות AI יכולות ולא יכולות לגשת אליו.
מה הם ClaudeBot, Claude-User ו-Claude-SearchBot של Anthropic?
Anthropic מפעילה שלושה סורקים נפרדים. ClaudeBot אוסף תוכן לאימון מודלים. Claude-User מושך דפים בזמן אמת כשמשתמש Claude מפעיל גלישה. Claude-SearchBot מאנדקס תוכן לתוצאות חיפוש של Claude. אפשר לחסום כל אחד בנפרד ב-robots.txt, ו-Anthropic מצהירים ששלושתם מכבדים הנחיות robots.txt.
יש סורקי AI שעוקפים robots.txt?
כן. חלק מסורקי ה-AI משתמשים ב-user-agent סטנדרטי של דפדפן ובלתי נראים ל-robots.txt. ChatGPT Atlas של OpenAI משתמש ב-user-agent רגיל של Chrome. סורק Grok של xAI מתחזה ל-Safari ו-Chrome עם כתובות IP מסתובבות. Bing Copilot משתמש ב-user-agent הסטנדרטי של Bingbot. עבור אלה, חסימה ברמת השרת דרך WAF כמו Cloudflare היא הגישה היעילה היחידה.
האם חסימת סורקי AI היא רטרואקטיבית?
לא. חסימת סורק ב-robots.txt מונעת רק סריקה עתידית. תוכן שכבר נסרק לפני שהוספתם את החסימה עדיין עשוי להיות קיים בנתוני האימון של מודל ה-AI. כרגע אין דרך סטנדרטית לבקש הסרה של תוכן שנסרק בעבר, אם כי חברות מסוימות כמו OpenAI מציעות טפסי opt-out לתוכן שכבר נאסף.

סיכום

סורקי AI מתחלקים כיום לשלוש קטגוריות: סורקי אימון (GPTBot, ClaudeBot, Google-Extended) שסופגים תוכן למודלים, סורקי חיפוש (OAI-SearchBot, Claude-SearchBot, PerplexityBot) שמצטטים ומקשרים אליכם חזרה, ועוזרי AI/סוכנים שגולשים בשם משתמשים.

רוב המפרסמים חוסמים סורקי אימון ומשאירים סורקי חיפוש מותרים. זו הגישה שאני נוקט באתר הזה. הוסיפו הנחיות User-agent ו-Disallow ל-robots.txt, אבל קחו בחשבון שחלק מהסורקים (Atlas, Grok) עוקפים אותו לגמרי.

לאסטרטגיה מלאה, שלבו robots.txt עם קובץ llms.txt ונתונים מובנים. חסמו את מה שלא רוצים, והנחו את הבוטים שאתם מאשרים לציטוטים מדויקים.

דיון ותגובות
0 תגובות  ]

השאירו תגובה

הוסיפו קוד באמצעות הכפתורים מטה. למשל, בכדי להוסיף PHP לחצו על הכפתור PHP והוסיפו את הקוד בתוך השורטקוד. מצאתם שגיאה בפוסט? עדכנו אותנו...

Savvy WordPress Development official logo