חיפוש ]

מה זה תוכן משוכפל, מה הגורמים ומה הפתרונות באתרי וורדפרס

אחת הבעיות בעולם קידום האתרים ו – SEO, כזו שעלולה למנוע מאתר לעלות בדירוגים ולהצליח להתקדם באופן אורגני, היא תוכן משוכפל (או במילים אחרות תוכן כפול). למנועי חיפוש כמו גוגל ישנה בעיה עם תוכן זהה המופיע במספר מקומות ברשת כמו גם עם תוכן דומה המופיע במספר מקומות באותו אתר, בין אם אתר וורדפרס או כל אתר אחר.

חשוב להבין: בעיני גוגל, תוכן משוכפל או ״תוכן כפול״ הוא כל עמוד בעל תוכן זהה המוצג בכתובות שונות (URL's). בהמשך המאמר נעמוד על ההבדלים השונים, אבל כבר בשלב הזה צריך להדגיש – כל עמוד באתר שקריא ונגיש לגוגל צריך להיות מיוצג על ידי כתובת URL אחת בלבד.

כאשר תוכן באתר מופיע בכמה כתובות URL שונות, הוא עלול להיות נגיש לגולשים בכל אותן כתובות. וכשאתרים חיצוניים מתחילים לקשר לכל הוריאציות השונות של הכתובות הבעיה מחמירה.

מדוע עליכם לייחס חשיבות לתוכן משוכפל באתר שלכם או באתר הלקוח? התשובה פשוטה – כי זה עלול לפגוע בחשיפת האתר לגולשים. במרבית המקרים, אם גוגל תזהה תוכן משוכפל באתר, היא תבחר בעצמה איזה עמוד להציג לגולשים בתוצאות החיפוש (ולא תמיד זה יהיה העמוד שאליו התכוון המשורר).

סיטואציה זו עלולה לפגוע בהתנהגות הגולשים ובחווית המשתמש באתר ומכאן שעלול להיפגע דירוגו. כתוצאה מכך עלולה להצטמצם תנועת הגולשים האורגנית לאתר ומזה אנו בעצם מנסים להמנע.

סיבות עיקריות לתוכן משוכפל באתרי וורדפרס

קיימות לא מעט סיבות אפשריות לתוכן משוכפל באתרי וורדפרס – חלקן אמנם נובעות מהזנת תוכן לקויה או לא נכונה, אך רובן הגדול נובע דווקא מהגדרות שגויות של המערכת או סיבות טכניות שונות.

במאמר הזה נתמקד בבעיות הטכניות שמובילות לתוכן משוכפל באתר, וננסה להבין כיצד ניתן להימנע מהן. הנה חמש סיבות מרכזיות לסיטואציות אפשריות הגורמות לתוכן משוכפל:

1. כל עמוד מיוצג על ידי כתובת אחת בלבד

תופעה זו עלולה לצוץ עוד בשלב פיתוח האתר, וזאת כאשר עמוד מסוים (או מספר עמודים) נבנים בצורה כזו שניתן להגיע אליהם מ-URL שונים. אמנם מבחינת המתכנת או מפתח אתר הוורדפרס לא מדובר כהכרח בבעיה, כלומר במסד הנתונים של וורדפרס העמוד או הפוסט מזוהים על ידי ID בודד, אך עבור מנועי החיפוש – כל כתובת משוייכת באופן חד ערכי לעמוד ספציפי.

ברגע שעמוד מסוים ניתן להצגה בשתי כתובות שונות, מדובר בשכפול וייתכן שתפגעו בעקבות. הדוגמה הטובה והנפוצה ביותר לבעיה זו, היא בעת שימוש בתת קטגוריות באתר וורדפרס:

http://www.example.co.il/category/sub-category/
http://www.example.co.il/sub-category/

שתי כתובות אלו יציגו את אותו עמוד תת-קטגוריה, אך למעשה מבחינת גוגל מדובר בשכפול תוכן – אותו עמוד מוצג בשתי כתובות שונות.

מספיק שבאתר עצמו יהיו קישורים פנימיים לשתי כתובות אלו (או אף אתרים חיצוניים שמקשרים לשתי הכתובות השונות), וגוגל יאנדקס את שתיהן ויזהה את התוכן כמשוכפל. מה עושים? שימוש בכתובות קנוניות, או הפניות 301. (ועל כך נרחיב בהמשך).

2. שימוש בפרמטרים

תוספת של פרמטרים ל-URL של עמוד מאפשרת בחלק מהמקרים למעקב אחר תנועה לעמוד, או שינויים ויזואליים קלים בעמוד, כמו הוספת והסרת סיידבר ואלמנטים גרפיים. אך שימו לב כי כל שימוש בפרמטר שאינו משנה את תוכן העמוד, עלול ליצור תוכן משוכפל. לדוגמה:

http://www.example.co.il/post-name/
http://www.example.co.il/post-name/?source=news

בדומה לסעיף הקודם, גם במקרה זה גוגל תאנדקס במשך הזמן את שתי הכתובות, מצד אחד עם הפרמטר ובנוסף את הכתובת המקורית, ויכול להיות שתזהה את התוכן כמשוכפל.

מה עושים? כדאי להימנע ככל האפשר משימוש בפרמטרים. במקרים שבהם לא ניתן להימנע, כדאי להגדיר לגוגל מה עושה כל פרמטר ומתי השימוש באלו לא משנה את תוכן הדף, וזאת באמצעות האפשרות המובנה בכלי המנהלים של גוגל. לחילופין כדאי להשתמש בכתובת קנונית שתצביע על הכתובת המקורית.

המיקום של אותם פרמטרים גם כן רלוונטי ומיקום שונה של פרמטרים באותה כתובת, גם כן נכנס לקטגוריה של כתובות שונות, ולמרות הנאמר, ברוב האתרים שתבדקו שינוי מיקום הפרמטרים אינו משפיע על תוכן העמוד ולכן יש לשים לב גם למצבים אלו.

3. שימוש בעימוד ממוספר (Pagination)

חלוקה של עמודי ארכיון או טקסונומיות למספר עמודים, עם קישורי המשך ביניהם (נאמר עמוד קטגוריה שמציג רשימת פוסטים) היא בדרך כלל צעד מבורך וחשוב מבחינת חווית המשתמש. עם זאת, במקרים בהם יש טקסט קבוע בעמוד הקטגוריה, לדוגמה תיאור של פסקה או שתיים או אפילו טקסט מורחב יותר, הוא עלול להשתכפל גם לעמודים הבאים.

בעיה דומה ואף חמורה יותר עלולה לקרות כאשר לפוסט יש תגובות רבות: אם פורסים את התגובות לעמודי המשך, הפוסט עצמו עלול להשתכפל גם בעמודים הבאים.

מה עושים? במקרים של עימוד ממוספר (pagination) בטקסונומיות, כדאי לוודא כי בעמודי ההמשך לא יופיע טקסט הפתיח של הקטגוריה (כלומר – להגדיר כך שהטקסט יופיע רק בעמוד הראשון). במקרים של עימוד בתגובות, כדאי לבדוק אפשרות לרענן את התגובות מבלי להחליף את הכתובת ה – URL של העמוד באמצעות Ajax או לוותר על העימוד.

4. גרסה להדפסה

באתרים רבים, בעיקר ותיקים, מופיע בחלק מהעמודים קישור ל״גרסה להדפסה״ של העמוד. קישור זה פותח עמוד נפרד בו מוצג התוכן בצורה נקייה על מנת להקל על הדפסת העמוד. מבחינת גוגל זהו עלול להחשב כתוכן משוכפל (כמו שהסברנו – התוכן מופיע בשתי כתובות שונות ושניהן זמינות וקריאות לגוגל ומנועי חיפוש נוספים.

מקרה זה עלול להציג בעייה נוספת מכיוון ומנועי החיפוש עלולים להעדיף את אותה גרסה להדפסה אשר ברוב המקרים נקייה יותר, נטולת פרסומות ובאנרים, ומציגה אך ורק את התוכן המרכזי. במקרה זה ייתכן שתציג גירסה זו בתוצאות החיפוש על פני העמוד המקורי.

מה עושים? כדאי לוותר על גרסה להדפסה של העמוד ולהשתמש בהגדרות CSS ליצירת תוכן מותאם להדפסה. בדיוק כפי שאתם משתמשים ב Media Queries עבור מסכים שונים ואוריינטציה, ניתן להשתמש בזו עבור גירסה להדפסה כבדוגמה הבאה:

@media print {
 /* styles go here */
}

5. גרסאות שונות של האתר

הסיטואציה בה קיימות גירסאות שונות וזהות של האתר היא אחת הבעיות הוותיקות אך הנפוצות בתחום. עם זאת, אתרים רבים עדיין סובלים ממנה: גרסה משוכפלת של האתר עם WWW, לעומת ללא WWW. אם שתי גרסאות אלו מוצגות ונגישות לגוגל, ואם ישנם קישורים פנימיים מגרסה אחת לשנייה, גוגל עלולה לזהות אלו כשכפול תוכן.

לבעיה הזו יש גם נגזרת חדשנית יותר, שהמודעות אליה אולי נמוכה יותר אך מעלה את אותו חשש: גרסת HTTP וגרסת HTTPS שמוצגות במקביל. סיטואציה זו מתקיימת כאשר לא מבצעים את תהליך המעבר ל HTTPS באופן הנכון.

מה עושים? הקפידו על הפניות 301 גורפות לגרסה המועדפת עליכם, והגדירו בכלי המנהלים של גוגל מהי הגרסה המועדפת להצגה בתוצאות החיפוש. ההגדרה בכלי המנהלים של גוגל מתבצעת בהגדרות האתר בדומה לתמונה הבאה:

דומיין מועדף - כלי המנהלים של גוגל

דומיין מועדף – כלי המנהלים של גוגל

איך לזהות Duplicate Content באתר?

1. סריקה באמצעות כלי Audit שונים (פרוג, וובסייט אודיטור)

כלי סריקה שונים כדוגמת Screaming Frog המצוין או כלי Audit שמבצעים סריקה טכנית של האתר, כוללים במרבית המקרים כלים לבדיקה לאיתור תוכן משוכפל באמצעות סריקת מטא-טייטל (meta-title) של כל העמודים ואיתור כפילויות. זוהי בדרך כלל אינדיקציה מספיק טובה למציאת עמודים משוכפלים.

כלי Audit מתקדמים יותר סורקים אף את תוכן הדפים עצמם ומוצאים תוכן משוכפל. אפשר גם להשתמש בכלים כמו SiteLiner שמבצע סריקה מלאה של האתר ומציג אינדיקציה לעמודים בעלי תוכן משוכפל ועוד אינפורמציה מעניינת:

מציאת תוכן משוכפל באמצעות SiteLiner

מציאת תוכן משוכפל באמצעות SiteLiner

2. כלי המנהלים של גוגל

בכלי המנהלים של גוגל (Search Console) תוכלו למצוא לשונית בשם שיפורים ב-HTML או HTML Improvements. תחת לשונית זו ניתן למצוא מטא-טייטלים משוכפלים וגם מטא-דסקריפשנים או כותרות משוכפלות.

היתרון של השימוש בכלי הזה (שרצוי לעבוד איתו לצד כלים אחרים, ולא במקומם!), הוא בעובדה שמוצגים בו רק עמודים שגוגל כבר מצא, סרק ואינדקס. כלומר – כדאי להתחיל בתיקון של העמודים האלה, על פני עמודים שגוגל עדיין לא אינדקס והסיבה לכך ברורה מאליה.

3. חיפוש פשוט בגוגל עם intitle

ביצוע חיפוש פשוט בגוגל באמצעות אופרטורים שונים יכול למקד אותנו בנוגע לתוכן שמאונדקס באתר, ואיך גוגל רואה אותו. רבים מכירים את השימוש באופרטור site: שמאפשר לראות את כל העמודים המאונדקסים באתר.

אם אתם רואים בסוף רשימת התוצאות הודעה של גוגל בנוגע לדפים שלא הוצגו בגלל שכפולים – לחצו על הקישור ותוכלו לראות מה הדפים שגוגל סינן ומהי הסיבה (לא תמיד הם באמת משוכפלים, וייתכן שחלקם רק חסומים לאינדוקס).

אם אתם יודעים על שכפול קיים באתר, ומעוניינים לראות כמה עמודים משוכפלים כאלה אונדקסו, תוכלו לצרף לחיפוש את האופרטור intitle: בשילוב ביטוי או מילת מפתח רלוונטית, וגוגל יציג את כל הדפים שהמילה מופיעה במטא-טייטל שלהם.

לאחר שזיהינו תוכן משוכפל – איך לתקן אותו ולמנוע שכפולים?

1. הפתרון הקל ביותר הוא פשוט להימנע מתוכן משוכפל. זה אמנם נשמע טריוויאלי, אבל כמו ציינו לא פעם – תוכן משוכפל נוצר כתוצאה מהגדרות לא נכונות באתר. חשוב להימנע מתוספי Duplicate למיניהם שעלולים (בשימוש לא מושכל וזהיר) ליצור עמודים משוכפלים, וכמובן להקפיד שבכל עמוד מופיע תוכן ייחודי לו, ורק לו.

2. שימוש בכתובות קנוניות (Canonical URL's) – אותם קישורים שמוצבים בתוך ה head של האתר, מסמנים לגוגל ולמנועי החיפוש האחרים היכן נמצא התוכן המקורי. ישנם תוספים רבים לוורדפרס שמאפשרים עריכה של כתבות קנוניות ספציפית עבור כל עמוד באתר (לדוגמה Yoast SEO). אם התוכן המשוכפל אינו ניתן להסרה או למחיקה, השתמשו בכתובת קנונית שתצביע על העמוד המקורי אליו תרצו שגוגל תתייחס.

מידע נוסף על כתובות קנוניות תמצאו בפוסט מהן כתובות קנוניות (Canonical) וכיצד להשתמש בהן?

3. שימוש בהפניות 301 – בחלק מהמקרים, בעיקר מקרים בהם מנוע החיפוש של גוגל כבר אינדקס את התוכן המשוכפל והגיב אליו, כדאי לנקוט בגישה זו. היא מהירה יותר משימוש בכתובת קנונית ונקייה יותר (כי העמוד המשוכפל מפסיק להיסרק תוך פרק זמן לא ארוך) – פשוט בצעו הפניית 301 מהעמוד המשוכפל לעמוד המקורי.

4. קישור פנימי לעמוד המקורי – אם אין אפשרות לערוך את התוכן המשוכפל, להוסיף כתובת קנונית או לבצע הפניות 301, רצוי להוסיף קישור במקום בולט בעמוד המשוכפל, שיוביל לעמוד המקורי. בצורה כזו אנחנו מספקים מעין סימן לגוגל כי אנו יודעים שהתוכן משוכפל ומובילים אותו לעמוד המקורי.

מספר נקודות להתייחסות

חשוב לציין כי ההמלצה של גוגל היא לא לחסום את התוכן המשוכפל לאינדוקס – כלומר, אל תגדירו לו תגית noindex או תחסמו אותו באמצעות הקובץ robots.txt. על מנועי החיפוש לדעת שהתוכן המשוכפל קיים ולהכיר אותו, ועל ידי שימוש באחת השיטות שציינו – עלינו לגרום לו להבין מהו העמוד המקורי.

בנוסף, ובהנחה שאיתרתם תוכן משוכפל באתר והוא ניתן למחיקה או לעריכה (כלומר – תוכן שנוצר על ידי המשתמש), טפלו בו בהקדם. במידה וגוגל כבר אינדקסה את השכפול, חשוב לעדכן אותה שהנושא טופל באמצעות הגשת מפת אתר מעודכנת ב Search Console (כזו שאינה כוללת את העמוד המשוכפל).

אם מחקתם פוסט או עמוד מסויים לצורך העניין, ובמידה ומפת האתר שלכם נוצרת באמצעות תוסף וורדפרס כזה או אחר – מפת האתר תתעדכן אוטומטית ללא צורך בהתערבות שלכם.

נקודה אחרונה שנציין, היא כי אם ביצעתם הפניית 301 או הוספתם כתובת קנונית לעמוד המשוכפל, מומלץ להשתמש בכלי אחזר כמו גוגל (Fetch as Google) ולשלוח מחדש לאינדקס את העמוד המשוכפל וזאת על מנת ״לאלץ״ את גוגל להתייחס לשינוי בעמוד.

האם נקבל ״עונש״ מגוגל על כל תוכן משוכפל?

במילה אחת התשובה היא לא. אם תחשבו על התוכן ברשת האינטרנט כמכלול, כ 25% ממנו הוא בעצם תוכן משוכפל כך גוגל טוענים. לצורך הדוגמה חישבו על עמודים של ״הצהרת פרטיות״, עמודי ״תקנון״ או עמודים בסגנון, אלו עמודים שהתוכן שלהם מאד דומה בהמון אתרים אז האם זה נחשב תוכן משוכפל? אנשים אף מצוטטים אנשים אחרים רבות כאשר כותבים תוכן כזה או אחר, האם גוגל יכולה להתייחס לכל אלו כתוכן משוכפל? כמובן שלא.

אם גוגל הייתה מניחה כי כל מקרה של תוכן משוכפל שהזכרנו הוא סוג של ״ספאם״, השינויים שיחולו באיכות תוצאות החיפוש של גוגל יהיו דווקא נגטיבים, ובהקשר זה נוציא מן הכלל תוכן משוכפל שהוא ספאם המנופח במילות מפתח וכדומה. בדרך כלל – רק במקרים אלו גוגל שומרים לעצמם את הזכות ״להעניש״ (Penalty) את האתר ולפגוע בדירוגו בתוצאות החיפוש.

לא נרחיב מעבר לכך, אך הכוונה היא מעט להרגיע ולומר כי מנוע החיפוש של גוגל עובד בצורה חכמה יותר משנדמה לכם, כי לא הכל שחור או לבן וכי גוגל מנסה לתת מבט על האתר שלכם בעיניים אנושיות, על כל המשתמע מכך.

באותה נשימה נציין כי אין בנאמר סיבה להשאר שאננים ולבטח עדיף להמנע מאותן סיטואציות ולתקן אותן בהתאם לצורך, אם זה לטובת פשטות הבנת אתר הוורדפרס שלכם על ידי מנועי החיפוש ואם עבור פוטנציאל דירוג האתר וחווית משתמש נכונה.

תנו מבט על הדרך בסרטון בו Matt Cutts מסביר מעט על הדרך בה גוגל מתנהלת עם תוכן משוכפל:

סיכום ואמ;לק

במאמר הזה הצגנו מספר סיבות אפשריות להיווצרות של תוכן משוכפל באתרי וורדפרס הנובעות מבעיות טכניות והגדרות שגויות. הסיבות העיקריות לתוכן משוכפל נובעות משימוש בכמה כתובות שונות שמציגים את אותו העמוד (כשלמעשה במסד הנתונים של וורדפרס מדובר בעמוד אחד בלבד).

בנוסף הצגנו מספר פתרונות לתוכן משוכפל (למניעה וטיפול), שהעיקרי שבהם הוא שימוש בתגית "rel="canonical שתצביע על מיקומו של התוכן המקורי. במקרים אחרים, ניתן לנקוט בפתרונות נוספים כגון הפניות 301, קישורים פנימיים ועוד.

המסקנה שעליכם לקחת מפוסט זה היא שיש להקפיד ולהימנע מתוכן משוכפל באתר באמצעות מעקב שיטתי וקבוע אחרי הדפים המאונדקסים באתר והתרעות שונות בכלי המנהלים של גוגל לטובת קידום האתר ו SEO נכון באתרי וורדפרס.

  • לאה 16 מאי 2018, 17:20

    הי איתי,
    מאמר מאוד מעניין.
    אפשר להתייעץ איתך (אם אפשר בפרטי) על הנושא הזה, באתר של מישהו שאני עוזרת לו (תכנותית)?
    לאה

  • מיכאל ג 19 מאי 2018, 21:56

    רק רציתי להגיד שזה הבלוג היחיד שאני מנוי לעדכוני מאמרים שלו ואף פעם לא מצטער על זה! בלשון המעטה! תוכן איכותי, סידור נעים לעין ומושקע מאוד, מגיע לך לדעת!

    ותודה על המאמר כמובן!

    דרך אגב בעבר יצרתי אתר ושמתי לב שגוגל דווקא העדיפה את גרסאות התוכן ה"משוכפלות" בעוד שזה בעצם ארכיון הבלוג, גוגל בחרה בזה כגרסה העדיפה (ידוע לי כי אפשר לחסום את זה לסריקה). מה שמעניין הוא מה מוביל את גוגל לבחירה שלה, ככל הנראה היא הולכת לפי תאריך ההופעה הראשוני באינדקס שלה, אך במקרה זה שני הדפים פורסמו במקביל, והאלגוריתם החליט בסופו של דבר שגרסת הארכיון היא המקור. מעניין..

    • רועי יוסף 22 מאי 2018, 10:25

      שמח לשמוע שאתה אוהב את הבלוג מיכאל ותודה על המחמאות!

      אני לא חושב שלתאריך ההופעה הראשוני באינדקס ישנה השפעה מרכזית (בטווח הארוך), מניח כי זה קשור דווקא ל״כח״ שיש לעמוד הספציפי באתר עצמו שמושפע כמובן גם מכמות הקישורים הפנימיים אליו, מיקומו בהיררכיה וכדומה… אולי לאיתי דעה בנושא? 🙂

    • איתי טאו 23 מאי 2018, 9:22

      לגבי גרסאות הארכיון המשוכפלות – כמו שכתבתי במאמר, תוכן משוכפל באתר עלול לגרום למצב שבו העמוד הלא-נכון ידורג, וזה מה שקרה במקרה שתיארת. אם לעמודי הארכיון היו יותר קישורים פנימיים באתר (הגיוני שכן – כנראה הופיעו בפירורי הלחם או בקישוריות פנימית אוטומטית כלשהי), או המבנה שלהם היה שונה (ואולי מתאים יותר לגוגל – מבחינת כותרות, מבנה הדף וכו׳), או נמצאו על ידי גוגל כחזקים יותר מבחינת סיגנלים של התנהגות גולשים – הוא יעדיף אותם. אבל צריך לבדוק כל מקרה לגופו ולהשוות את שני העמודים באופן ספציפי.

  • שמול 27 אפריל 2020, 5:56

    אחלה מאמר, תודה.
    גם זה מקיף מאוד:
    https://www.seobits.co.il/bits/duplicate-content.html

  • yael mor 5 ספטמבר 2022, 18:00

    האם יכול לבוא תוכן זהה באותו דף אחת לדסקטופ ואחת למובייל או שזה נקרא תוכן משוכפל?
    לדוגמא אני רוצה לעצב אזור מסוים לדקסטופ ולמובייל באופן שונה אבל התוכן זהה מה אפשר לעשות?

    • רועי יוסף 6 ספטמבר 2022, 16:40

      היי יעל,

      זה לא אידיאלי לעשות זאת וגוגל אכן רואה את התוכן פעמיים במקרה זה. נסי להמנע מכך וליישם את העיצוב כך שלא תאלצי ליצור שני סקשיינים/אלמנטים נפרדים למובייל ולדסקטופ. בקיצור, עשי זאת רק אם אין ברירה או פתרון אחר… בהצלחה!

תגובה חדשה

הוסיפו קוד באמצעות הכפתורים מטה. למשל, בכדי להוסיף PHP לחצו על הכפתור PHP והוסיפו את הקוד בתוך השורטקוד. מצאתם שגיאה בפוסט? עדכנו אותנו...

Savvy WordPress Development