סורקי AI מבקרים באתר שלכם בכל יום. GPTBot של OpenAI, ClaudeBot של Anthropic, הסורק של Meta, ועשרות אחרים – כולם אוספים תוכן כדי לאמן מודלים של בינה מלאכותית או להפעיל תכונות חיפוש מבוססות AI.
בניגוד לסורקי מנועי חיפוש מסורתיים שמאנדקסים את האתר ושולחים אליכם תנועה, סורקי AI רבים לוקחים את התוכן שלכם בלי ייחוס ובלי קישור חזרה. החדשות הטובות הן שרובם מכבדים הנחיות robots.txt, מה שנותן לכם שליטה על מה שהם יכולים לגשת אליו.
במדריך זה תלמדו אילו בוטים של AI סורקים את האתר שלכם, איך לחסום אותם באופן סלקטיבי, ואיך לקבל החלטות חכמות לגבי אילו מהם כדאי להשאיר פעילים.
"Most AI web crawlers support being blocked via robots.txt, allowing website owners to opt-out of having their content used for AI training." – OpenAI GPTBot documentation, 2024.
סורקי אימון מול סורקי ציטוט
לפני שמתחילים לחסום, חשוב להבין את שני סוגי סורקי ה-AI:
סורקי אימון (Training crawlers) אוספים את התוכן שלכם כדי לאמן מודלים של AI. הטקסט שלכם הופך לחלק מהידע של המודל, אבל אתם לא מקבלים ייחוס, קישור או תנועה. דוגמאות: GPTBot, Google-Extended ו-ClaudeBot.
סורקי ציטוט (Citation crawlers) – נקראים גם סוכני גלישה – מושכים את התוכן שלכם בזמן אמת כדי לענות על שאלות של משתמשים. הם בדרך כלל מצטטים את הדף שלכם ומקשרים אליו חזרה. דוגמאות: ChatGPT-User, PerplexityBot ו-OAI-SearchBot.
חסימת סורקי אימון מגינה על התוכן שלכם מפני ספיגה ללא קרדיט. חסימת סורקי ציטוט אומרת שעוזרי AI לא יפנו לאתר שלכם כשמשתמשים שואלים שאלות קשורות – מה שעלול לעלות לכם בנראות בנוף החיפוש הגנרטיבי (GEO) ההולך וגדל.
חישבו היטב לפני שאתם חוסמים סורקי ציטוט כמו ChatGPT-User ו-PerplexityBot. בוטים אלה מניעים תנועת הפניות לאתר שלכם על ידי ציטוט וקישור לדפים שלכם. חסימתם אומרת שהתוכן שלכם לא יופיע בתשובות מבוססות AI – מקור תנועה שהולך ונהיה חשוב יותר.
רשימת סורקי AI מלאה
הנה סורקי ה-AI העיקריים שכדאי להכיר, מסודרים לפי חברה:
| חברה | User-Agent | סוג | מטרה |
|---|---|---|---|
| OpenAI | GPTBot | אימון | אימון מודלי GPT |
| OpenAI | ChatGPT-User | ציטוט | גלישה בזמן אמת ב-ChatGPT |
| OpenAI | OAI-SearchBot | ציטוט | תוצאות חיפוש ChatGPT |
| Anthropic | ClaudeBot | אימון | אימון מודלי Claude |
| Anthropic | Claude-User | ציטוט | גלישה בזמן אמת ב-Claude |
Google-Extended | אימון | אימון מודלי Gemini | |
| Perplexity | PerplexityBot | ציטוט | מנוע חיפוש AI |
| Apple | Applebot-Extended | אימון | Apple Intelligence / Siri |
| Meta | Meta-ExternalAgent | אימון | אימון מודלי LLaMA |
| ByteDance | Bytespider | אימון | אימון AI של TikTok |
| Common Crawl | CCBot | אימון | מאגר נתונים פתוח לשימוש מעבדות AI |
| Cohere | cohere-ai | אימון | מודלי AI ארגוניים |
| DeepSeek | DeepSeekBot | אימון | אינדוקס ידע |
הרשימה הזו משתנה ככל שחברות AI חדשות משיקות סורקים משלהן. לרשימה מעודכנת, בדקו את פרויקט ai.robots.txt הקהילתי ב-GitHub.
איך לחסום סורקי AI ב-robots.txt
הוסיפו הנחיות User-agent ו-Disallow לקובץ robots.txt שלכם. קובץ זה נמצא בתיקיית השורש של האתר (למשל, https://yoursite.com/robots.txt).
חסימת כל סורקי האימון
כדי לחסום את סורקי האימון העיקריים ולהשאיר סורקי ציטוט מותרים:
# Block AI training crawlers
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: DeepSeekBot
Disallow: /בגישה זו רוב המפרסמים נוקטים: חוסמים סורקי אימון שסופגים את התוכן ללא ייחוס, אבל מאפשרים סורקי ציטוט שיכולים להחזיר תנועה.
חסימת נתיבים ספציפיים בלבד
אם אתם רוצים שסורקי AI ייגשו לחלק מהתוכן אבל לא לכולו, חסמו תיקיות ספציפיות:
User-agent: GPTBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/
User-agent: ClaudeBot
Disallow: /premium-content/
Disallow: /members-only/
Allow: /blog/זה מאפשר למודלי AI להתאמן על הפוסטים הציבוריים בבלוג שלכם, תוך הגנה על תוכן סגור או פרימיום.
חסימת כל סורקי ה-AI (אימון וציטוט)
אם אתם רוצים לחסום כל סורק AI מוכר לחלוטין:
# Block all AI crawlers (training + citation)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: DeepSeekBot
Disallow: /איך לערוך את robots.txt בוורדפרס
יש כמה דרכים לערוך את קובץ robots.txt בוורדפרס:
אפשרות 1: עריכת הקובץ ישירות
אם יש לכם קובץ robots.txt פיזי בתיקיית השורש של האתר, ערכו אותו עם כל עורך טקסט והעלו באמצעות FTP או מנהל הקבצים של האחסון. זו השיטה האמינה ביותר.
אפשרות 2: שימוש בתוסף SEO
רוב תוספי ה-SEO מאפשרים לערוך את robots.txt מתוך ממשק הניהול של וורדפרס:
- Yoast SEO: Yoast SEO > Tools > File Editor
- Rank Math: Rank Math > General Settings > Edit robots.txt
אפשרות 3: שימוש בפילטר ב-functions.php
אם וורדפרס מייצרת את robots.txt באופן דינמי (אין קובץ פיזי), תוכלו להוסיף חוקים דרך הפילטר robots_txt:
add_filter( 'robots_txt', function( $output ) {
$output .= "\n# Block AI training crawlers\n";
$output .= "User-agent: GPTBot\nDisallow: /\n\n";
$output .= "User-agent: ClaudeBot\nDisallow: /\n\n";
$output .= "User-agent: Google-Extended\nDisallow: /\n\n";
$output .= "User-agent: Meta-ExternalAgent\nDisallow: /\n\n";
$output .= "User-agent: Bytespider\nDisallow: /\n\n";
$output .= "User-agent: CCBot\nDisallow: /\n";
return $output;
}, 99 );
robots.txt מול llms.txt: תפקידים שונים
חסימת סורקי AI עם robots.txt ומתן הקשר עם llms.txt הן שתי אסטרטגיות שונות שעובדות יחד:
robots.txtשולט בגישה – אילו בוטים יכולים לסרוק אילו דפיםllms.txtמספק הקשר – כשמערכת AI כן משתמשת בתוכן שלכם, היא יודעת איך לצטט אתכם נכון
גישה מאוזנת: חסמו סורקי אימון דרך robots.txt כדי שהתוכן שלכם לא ייספג למודלים ללא קרדיט, אבל ספקו קובץ llms.txt כדי שסורקי ציטוט שניגשים לאתר יוכלו לייצג אתכם בצורה מדויקת.
איך לוודא שסורקי AI נחסמו
אחרי עדכון robots.txt, וודאו שהחוקים עובדים:
- בקרו ב-
https://yoursite.com/robots.txtבדפדפן וודאו שההנחיות החדשות מופיעות - השתמשו בבודק robots.txt של Google ב-Search Console כדי לאמת את התחביר
- בדקו את הלוגים של השרת כדי לראות את מחרוזות ה-user-agent שחסמתם
- עקבו אחרי תנועת ה-AI שלכם ב-Google Analytics כדי לראות אם ביקורי הסורקים יורדים עם הזמן
זכרו ש-robots.txt הוא פרוטוקול וולונטרי. חברות AI מוכרות (OpenAI, Anthropic, Google, Apple) מכבדות אותו, אבל סורקים קטנים או פחות אמינים עלולים להתעלם ממנו. להגנה חזקה יותר, שקלו חסימה ברמת השרת דרך קונפיגורציית שרת הווב או WAF (חומת אש לאפליקציות ווב).
שאלות נפוצות
שאלות נפוצות על חסימת סורקי AI עם robots.txt:
Disallow: / (שחוסם את כל האתר), ניתן לחסום נתיבים ספציפיים. למשל, Disallow: /premium-content/ חוסם רק את התיקייה הזו. אפשר גם להשתמש ב-Allow: כדי להתיר גישה לנתיבים ספציפיים בתוך אזור חסום. זה נותן לכם שליטה מפורטת על מה שמערכות AI יכולות ולא יכולות לגשת אליו.סיכום
סורקי AI מתחלקים לשתי קטגוריות: סורקי אימון (GPTBot, ClaudeBot, Google-Extended) שסופגים את התוכן שלכם למודלים, וסורקי ציטוט (ChatGPT-User, PerplexityBot) שמושכים תוכן בזמן אמת ומקשרים חזרה לאתר שלכם.
רוב המפרסמים חוסמים סורקי אימון כדי למנוע שימוש בתוכן שלהם ללא קרדיט, ומשאירים סורקי ציטוט מותרים כדי לשמור על נראות בחיפוש מבוסס AI. הוסיפו את הנחיות User-agent ו-Disallow המתאימות לקובץ robots.txt שלכם כדי לשלוט בגישה.
שלבו חסימת robots.txt עם קובץ llms.txt לאסטרטגיית תוכן AI מלאה: חסמו את הבוטים שאתם לא רוצים, והנחו את אלה שאתם מאשרים לציטוטים מדויקים.

