סורקי AI מבקרים באתר שלכם כל יום. GPTBot של OpenAI, ClaudeBot של Anthropic, הסורק של Meta, ועשרות אחרים – כולם אוספים תוכן כדי לאמן מודלי שפה או להפעיל תכונות חיפוש מבוססות AI.
בניגוד לסורקי מנועי חיפוש רגילים שמאנדקסים את האתר ומביאים לכם תנועה, סורקי AI רבים לוקחים את התוכן בלי ייחוס ובלי קישור חזרה. הצד החיובי הוא שרובם מכבדים הנחיות robots.txt, ככה שיש לכם שליטה על מה שהם ניגשים אליו.
בהמשך נעבור על הסורקים העיקריים, נראה איך לחסום אותם בצורה סלקטיבית, ונבין אילו מהם שווה להשאיר פתוחים. המדריך הזה הוא חלק מהצ'קליסט שלי ל-AEO לוורדפרס.
סורקי אימון מול סורקי חיפוש ואחזור
לפני שחוסמים משהו, כדאי להבין שיש שלוש קטגוריות של סורקי AI:
סורקי אימון (Training crawlers) לוקחים את התוכן שלכם כדי לאמן מודלי AI. הטקסט שלכם נספג לתוך המודל, אבל אתם לא מקבלים ייחוס, קישור או תנועה בתמורה. דוגמאות: GPTBot, Google-Extended, ClaudeBot, Meta-ExternalAgent.
סורקי חיפוש ואחזור (Search bots) מושכים תוכן בזמן אמת כדי לענות על שאלות של משתמשים. בדרך כלל הם מצטטים את הדף שלכם עם קישור חזרה. דוגמאות: OAI-SearchBot, Claude-SearchBot, PerplexityBot.
עוזרי AI וסוכנים גולשים באינטרנט בשם משתמש ספציפי – ChatGPT-User, Claude-User, או הסוכנים האוטונומיים החדשים יותר כמו ChatGPT Operator ו-Google Agent. חלקם כבר מתחילים להתעלם מ-robots.txt בטענה שהבקשה היא "ביוזמת המשתמש".
חסימת סורקי אימון מגינה על התוכן שלכם מפני ספיגה בלי קרדיט. חסימת סורקי חיפוש משמעותה שעוזרי AI לא יפנו לאתר שלכם כשמישהו שואל שאלה קשורה – וזה עלול לפגוע לכם בנראות בנוף החיפוש הגנרטיבי (GEO) שהולך וגדל.
תחשבו פעמיים לפני שחוסמים סורקי חיפוש כמו OAI-SearchBot ו-PerplexityBot. הבוטים האלה מביאים תנועת הפניות לאתר על ידי ציטוט וקישור לדפים שלכם. חסימתם אומרת שהתוכן שלכם לא יופיע בתשובות מבוססות AI – ובימים אלה זה מקור תנועה שחשיבותו רק עולה.
רשימת סורקי AI מלאה
אלה סורקי ה-AI העיקריים שצריך להכיר. הנוף התרחב ליותר מ-140 user-agents מוכרים נכון לתחילת 2026 – ריכזתי כאן את המרכזיים:
סורקי אימון
| חברה | User-Agent | מטרה |
|---|---|---|
| OpenAI | GPTBot | אימון מודלי GPT |
| Anthropic | ClaudeBot | אימון מודלי Claude |
Google-Extended | אימון Gemini (לא משפיע על דירוג בחיפוש) | |
| Apple | Applebot-Extended | Apple Intelligence / Siri |
| Meta | Meta-ExternalAgent | אימון מודלי LLaMA (נפח סריקה גבוה מאוד) |
| Amazon | Amazonbot | Alexa ועוזר הקניות Rufus |
| ByteDance | Bytespider | AI של TikTok (נפח ירד ב-85% ב-2025) |
| Common Crawl | CCBot | מאגר נתונים פתוח לשימוש מעבדות AI |
| Cohere | cohere-ai | מודלי AI ארגוניים |
| DeepSeek | DeepSeekBot | אימון LLM (ציות ל-robots.txt מפוקפק) |
סורקי חיפוש ואחזור
הבוטים האלה מושכים תוכן כדי לענות על שאלות, ובדרך כלל מצטטים את הדף שלכם עם קישור חזרה:
| חברה | User-Agent | מטרה |
|---|---|---|
| OpenAI | OAI-SearchBot | תוצאות חיפוש ChatGPT |
| Anthropic | Claude-SearchBot | תוצאות חיפוש Claude |
| Perplexity | PerplexityBot | מנוע חיפוש AI |
| Amazon | Amzn-SearchBot | חיפוש AI של Amazon |
עוזרי AI (מופעלים על ידי משתמש)
גולשים בשם משתמש ספציפי. אם תחסמו אותם, ה-AI לא יוכל לאחזר את התוכן שלכם כשמשתמש מבקש:
| חברה | User-Agent | מטרה |
|---|---|---|
| OpenAI | ChatGPT-User | גלישה בזמן אמת ב-ChatGPT |
| Anthropic | Claude-User | גלישה בזמן אמת ב-Claude |
| Perplexity | Perplexity-User | אחזור תוכן ביוזמת המשתמש |
שימו לב לגבי ChatGPT-User: OpenAI הסירו בשקט מהתיעוד את ההתחייבות שלהם לציית ל-robots.txt עבור ChatGPT-User. הטענה שלהם: בקשות "ביוזמת המשתמש" לא כפופות ל-robots.txt. בפועל, זה אומר שחסימת ChatGPT-User דרך robots.txt עשויה כבר לא לעבוד.
הרשימה משתנה כל הזמן. למעקב שוטף עם 140+ סורקים, בדקו את פרויקט ai.robots.txt ב-GitHub או Known Agents.
איך לחסום סורקי AI ב-robots.txt
הוסיפו הנחיות User-agent ו-Disallow לקובץ ה-robots.txt שלכם. הקובץ יושב בתיקיית השורש של האתר (למשל https://yoursite.com/robots.txt).
חסימת כל סורקי האימון
כדי לחסום את סורקי האימון העיקריים תוך השארת סורקי החיפוש פתוחים:
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: DeepSeekBot
Disallow: /זו הגישה שרוב בעלי האתרים נוקטים: חוסמים סורקי אימון שסופגים תוכן בלי לתת קרדיט, ומשאירים סורקי חיפוש פתוחים כדי שהאתר יופיע בתשובות AI.
חסימת נתיבים ספציפיים בלבד
אם אתם רוצים שסורקי AI ייגשו לחלק מהתוכן אבל לא לכולו, אפשר לחסום תיקיות ספציפיות:
User-agent: GPTBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/
User-agent: ClaudeBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/ככה מודלי AI יכולים להתאמן על הפוסטים הציבוריים בבלוג, בזמן שתוכן סגור או פרימיום נשאר מוגן.
חסימת כל סורקי ה-AI (אימון + חיפוש + עוזרים)
אם אתם רוצים לחסום את כל סורקי ה-AI המוכרים לגמרי:
# Block all AI crawlers (training + citation)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: DeepSeekBot
Disallow: /סורקים שמתעלמים מ-robots.txt
לא כל סורק AI משחק לפי הכללים. כמה מהגדולים פשוט בלתי נראים ל-robots.txt:
ChatGPT Atlas (OpenAI) משתמש ב-user-agent רגיל של Chrome, בלי סימן מזהה כלשהו. הוא נראה כמו תנועת דפדפן רגילה ואין דרך לזהות אותו דרך robots.txt.
Grok / xAI מסובב כתובות IP ביתיות ומתחזה ל-Safari ול-Chrome. למרות ש-xAI תיעדו user-agent בשם "GrokBot", בפועל לא נראתה תנועה אמיתית שמשתמשת בו.
Bing Copilot משתמש ב-user-agent הרגיל של Bingbot, אז אי אפשר לחסום את Copilot בלי לחסום גם את חיפוש Bing עצמו.
נגד הסורקים האלה, ההגנה היעילה היחידה היא חסימה ברמת השרת – WAF כמו AI Crawl Control של Cloudflare, חוקים מבוססי IP בקונפיגורציית שרת הווב, או הגבלת קצב. Cloudflare כבר חוסמים סורקי AI כברירת מחדל על כל דומיין חדש.
איך לערוך את robots.txt בוורדפרס
כמה דרכים לערוך את קובץ ה-robots.txt בוורדפרס:
אפשרות 1: עריכת הקובץ ישירות
אם יש לכם קובץ robots.txt פיזי בתיקיית השורש, פתחו אותו בעורך טקסט כלשהו והעלו דרך FTP או מנהל הקבצים של האחסון. הדרך הכי אמינה.
אפשרות 2: שימוש בתוסף SEO
רוב תוספי ה-SEO מאפשרים לערוך את robots.txt מתוך ממשק הניהול של וורדפרס:
- Yoast SEO: Yoast SEO > Tools > File Editor
- Rank Math: Rank Math > General Settings > Edit robots.txt
אפשרות 3: שימוש בפילטר ב-functions.php
אם וורדפרס מייצרת את robots.txt דינמית (בלי קובץ פיזי), אפשר להוסיף חוקים דרך הפילטר robots_txt:
add_filter( 'robots_txt', function( $output ) {
$output .= "n# Block AI training crawlersn";
$output .= "User-agent: GPTBotnDisallow: /nn";
$output .= "User-agent: ClaudeBotnDisallow: /nn";
$output .= "User-agent: Google-ExtendednDisallow: /nn";
$output .= "User-agent: Meta-ExternalAgentnDisallow: /nn";
$output .= "User-agent: BytespidernDisallow: /nn";
$output .= "User-agent: CCBotnDisallow: /n";
return $output;
}, 99 );
robots.txt מול llms.txt מול ai.txt
כיום יש כמה תקנים לניהול גישת AI לתוכן. לכל אחד תפקיד אחר:
robots.txtשולט בגישת סריקה – אילו בוטים יכולים לבקר באילו דפים- llms.txt מספק הקשר – מפת תוכן שמערכות AI יכולות להשתמש בה כדי להבין ולצטט את האתר שלכם בצורה מדויקת
ai.txt(של Spawning) מצהיר על הרשאות אימון – ספציפית לאימון מודלי AI, עם תמיכה ב-opt-out של EU TDM
מה שאני ממליץ: חסמו סורקי אימון דרך robots.txt, ספקו llms.txt כדי שסורקי חיפוש שניגשים לאתר יידעו לייצג אתכם נכון, והוסיפו נתונים מובנים (structured data) כדי שלמערכות AI יהיה קל לנתח את התוכן.
איך לוודא שסורקי AI נחסמו
אחרי שעדכנתם את robots.txt, ודאו שהכל עובד:
- בקרו ב-
https://yoursite.com/robots.txtבדפדפן וודאו שההנחיות החדשות מופיעות - השתמשו בבודק robots.txt של Google ב-Search Console כדי לאמת את התחביר
- בדקו את הלוגים של השרת כדי לראות את מחרוזות ה-user-agent שחסמתם
- עקבו אחרי תנועת ה-AI שלכם ב-Google Analytics כדי לראות אם ביקורי הסורקים יורדים עם הזמן
חשוב לזכור ש-robots.txt הוא פרוטוקול וולונטרי. החברות הגדולות (OpenAI, Anthropic, Google, Apple) מכבדות אותו, אבל סורקים קטנים או פחות אחראיים עלולים להתעלם ממנו. אם צריכים הגנה חזקה יותר, שווה לשקול חסימה ברמת השרת דרך קונפיגורציה של שרת הווב או WAF.
שאלות נפוצות
שאלות נפוצות על חסימת סורקי AI עם robots.txt:
Disallow: / (שחוסם את כל האתר), ניתן לחסום נתיבים ספציפיים. למשל, Disallow: /premium-content/ חוסם רק את התיקייה הזו. אפשר גם להשתמש ב-Allow: כדי להתיר גישה לנתיבים ספציפיים בתוך אזור חסום. זה נותן לכם שליטה מפורטת על מה שמערכות AI יכולות ולא יכולות לגשת אליו.ClaudeBot אוסף תוכן לאימון מודלים. Claude-User מושך דפים בזמן אמת כשמשתמש Claude מפעיל גלישה. Claude-SearchBot מאנדקס תוכן לתוצאות חיפוש של Claude. אפשר לחסום כל אחד בנפרד ב-robots.txt, ו-Anthropic מצהירים ששלושתם מכבדים הנחיות robots.txt.סיכום
סורקי AI מתחלקים כיום לשלוש קטגוריות: סורקי אימון (GPTBot, ClaudeBot, Google-Extended) שסופגים תוכן למודלים, סורקי חיפוש (OAI-SearchBot, Claude-SearchBot, PerplexityBot) שמצטטים ומקשרים אליכם חזרה, ועוזרי AI/סוכנים שגולשים בשם משתמשים.
רוב המפרסמים חוסמים סורקי אימון ומשאירים סורקי חיפוש מותרים. זו הגישה שאני נוקט באתר הזה. הוסיפו הנחיות User-agent ו-Disallow ל-robots.txt, אבל קחו בחשבון שחלק מהסורקים (Atlas, Grok) עוקפים אותו לגמרי.
לאסטרטגיה מלאה, שלבו robots.txt עם קובץ llms.txt ונתונים מובנים. חסמו את מה שלא רוצים, והנחו את הבוטים שאתם מאשרים לציטוטים מדויקים.

