האם תמיד תוכן כפול הוא דבר פסול? בפוסט הבא שוקי גלילי מביא מספר דוגמאות קלאסיות למקרים בהם אין מנוס משכפול תוכן ומסביר מהן הפרקטיקות המומלצות ביותר לעשות זאת מבלי להיפגע מגוגל.
יש סוגים של תוכן כפול שחשוב להימנע מהם, אבל אפילו בגוגל לא חושבים שאפשר למנוע את כפילויות התוכן בכלל. במאמר הזה ננסה להבין מתי תוכן כפול הוא לגיטמי, וכיצד אפשר להסביר זאת ל-Google.
אם אתם קוראים את המאמר הזה, סביר להניח שלא צריך להסביר לכם מהו תוכן כפול ומדוע מנועי חיפוש לא אוהבים אותו. או מדוע פוטנציאל הנזק של התוכן הכפול גדול בעידן פנדה יותר מבעבר.
זו לא המטרה. גם לא תמצאו כאן הסברים על מניעת כפילויות תוכן מהסוגים הנפוצים (אם כי אולי תרצו לקרוא את המאמר המתורגם שפרסמה דוראן בנושא זה או את המקור האנגלי באתר של SEOmoz).
מה שכן אנסה לעשות כאן, הוא להציג דוגמאות אמיתיות למצבים שבהם כפילות התוכן היא בלתי נמנעת ואולי אפילו רצויה. כאשר בעיות הכפילות הן אימננטיות וכרוכות באופן הדוק באופי האתר, המודל העסקי או אילוצי הפעילות השוטפת.
הנחת העבודה שלי, בה אני מאמין שתשתכנעו גם אתם במהלך הקריאה, היא שסיטואציות שונות של תוכן כפול הן חלק בלתי נפרד מפעילות טבעית ולגיטימית של אתרים רבים. כך שלפעמים השאלה החשובה היא לא איך להיפטר מהתוכן הכפול, אלא איך למזער את נזקיו.
נדגים עם שלושה מקרי מבחן, ועבור כל אחד ננסה להגדיר את ההתנהלות הנכונה או “הפרקטיקה המומלצת” (Best practice) שמאפשרת להיות עם ולהרגיש בלי – איך אפשר להתגבר על הבעיות שהתוכן הכפול יוצר או לעקוף אותן.
מקרה מבחן 1: אתר סוכנות ידיעות
תיאור הבעיה:
סוכנות ידיעות (כמו רויטרס, AP, AFP, בלומברג וכו’), אם לפשט, היא גוף שעוסק בייצור ואספקה של תוכן לענפי התקשורת והעיתונות.
בדומה לעיתונים, סוכנויות הידיעות מעסיקות כתבים ועורכים, מקיימות תחקירים ומפרסמות אייטמים חדשותיים. אבל במקום למכור פרסום או לגבות תשלום מהקוראים, הן מוכרות את זכויות השימוש למערכות עיתונים, ערוצי טלוויזיה ואתרי חדשות.
ההצלחה האולטימיטיבית מבחינת סוכנות הידיעות, היא כשתוכן חדשותי שפרסמה מועתק ומפורסם מחדש במספר גדול ככל האפשר של כלי תקשורת. כלומר, בהגדרה כל התוכן באתר שלה יהיה כפול.
רוב האתרים שמשתמשים בתכני הסוכנויות משקיעים מאמץ קטן (אם בכלל) בעריכה, תחקיר משלים, הוספת קישורים למקורות משלימים וכדומה. ברוב המקרים יש קרדיט אבל אין קישור חוזר.
כך שלא מפתיע לגלות שהסנדלר הולך יחף: ידיעות מאתרי הסוכנויות בדרך כלל מופיעות בתוצאות חיפוש לזמן קצר מאד ואז נעלמות, אחרי שהן עולות מחדש באתרי חדשות ברחבי העולם.
מצד שני, ובניגוד למה שאפשר היה אולי לצפות, רוב האתרים של סוכנויות הידיעות לא נפגעו מפנדה באותה מידה כמו אתרי המאמרים.
פרקטיקה מומלצת בעידן פנדה:
בין סוכנויות הידיעות הגדולות בעולם, סוכנות רויטרס (Reuters) מתבלטת לטובה במה שקשור להתמודדות עם בעיות התוכן הכפול ועם SEO בכלל. ידיעות רבות שלה מצליחות להתברג בתוצאות החיפוש לצד העתקים וידיעות מתחרות שמופיעים באתרי חדשות גדולים.
דוגמא מהזמן האחרון: ידיעה שפורסמה ברויטרס ב-9 למרץ תחת הכותרת “Search engine users disapprove of data collection: survey“.
היא מקדימה בתוצאות החיפוש לביטויים רלוונטיים העתקים זהים או כמעט זהים וידיעות מתחרות בשיקגו טריביון, Yahoo! News, USA Today והרבה אתרי חדשות ואתרים מקצועיים. וגם העתקים משוכפלים בשני תריסר אתרים אזוריים באנגלית של רויטרס עצמה.
כמו שאפשר לנחש, ידיעות דומות פורסמו ומתפרסמות גם באתרים של סוכנויות אחרות, אבל רובן ממהרות להיעלם מהתוצאות. רויטרס, מצליחה שוב ושוב להשאיר ראש מעל למים.
יש כמה סיבות אפשריות שבהן אפשר לתלות את זה. קודם כל, הסיבות הבנאליות: Reuters הוא מותג בן 150 שנה, והאתר של רויטרס הוא הגדול בתחומו ויש פרופיל לינקים מפואר. זו תמיד נקודת פתיחה טובה.
לא בטוח שכל זה היה מספיק בעידן פנדה, אבל לרויטרס יש כמה יתרונות נוספים:
- ראשית, היא נוהגת לספק עם הידיעות שלה מספר גדול של רכיבי תוכן נלווים, שמאפשרים גיוון יחסי בין העותקים השונים – תמונות וכיתובים, ציטוטים (“לידים”), סרטונים, קישורים וכו’.
- העתקים שמתפרסמים באתרים האזוריים של רויטרס, כוללים הפניות לידיעות רלוונטיות מקומיות ולשירותים רלוונטיים נוספים של רויטרס (כמו שירות ה-Quotes שלה), מקשרים לדפים האישיים או לבלוגים של הכותבים והעורכים, ואפילו מעומדים אחרת.
- אבל מעבר לכך ואולי חשוב יותר: האתר של רויטרס בנוי כמו אתר חדשות אמיתי. הוא נוח, מקצועי, ושימושי באמת (וזה ניכר בנתוני התנועה שלו ודפוסי הגלישה בו), מה שקשה לומר על רוב מתחריו.
- בנוסף, רויטרס מלווה אותו בפעילות מדיה חברתית פשוטה ויעילה בפייסבוק, טוויטר, גוגל פלוס ולינקדאין. כך, בזמן הקצר שבו היא מפרסמת ידיעה בבלעדיות, היא משיגה גם תנועה אורגנית וגם קישורים טבעיים (כולל מבלוגים, למשל).
בקיצור: אין באתרים של רויטרס פיסת תוכן “מקורית” אחת, וזה לא מפריע ל-Google לשלוח אליהם הרבה תנועה. נראה שזה קשור גם להבנה טובה של אתגרי ה-SEO שלהם, וגם לעובדה שהם פשוט יודעים לעשות אתר אינטרנט טוב.
מקרה מבחן 2: פרסום חוזר
תיאור הבעיה:
סינדיקציה של תוכן, בהגדרה, יוצרת מגוון תופעות של תוכן כפול. גוגל לא באמת רוצה או יכולה להילחם בזה, וגם לא פוסלת שכפול תוכן קטגורית.
אדרבא: אם למשל אתר חדשות גדול מפרסם מחדש פוסט שפורסם לראשונה בבלוג קטן ואנונימי יחסית, עם קרדיט וקישור חוזר, זו הרי לא אינדיקציה שמישהו כאן הוא מעתיקן – זו אינדיקציה שלבלוג הקטן יש פוטנציאל. שמתפרסמים בו תכנים שעשויים לעניין לא עשרות או מאות אנשים, אלא רבבות.
בכל אופן, אפשר לראות היום הרבה פחות מקרים שבהם Google יציג בתוצאות גם את התוכן המקורי וגם את הפרסום החוזר. לכן, כשמישהו מבקש לפרסם מחדש את התוכן שלכם, עליכם לשקול היטב האם וכיצד אתם רוצים להיכנס לזה.
דוגמא: בנובמבר האחרון העלינו בבלוג המקצוענים את הפוסט הזה, שעסק במגמות במחירי השכירות לקראת סוף שנת 2011. הפוסט אונדקס כמעט מייד והחל להופיע במיקומים גבוהים עבור מספר ביטויים רלוונטיים.
למחרת, פנו אלינו ממערכת אתר המחאה J14 וביקשו להעלות את הפוסט גם אצלם, עם קישור חוזר. כמובן שנענינו בחיוב. J14 הוא אתר פופולרי, מאונדקס היטב, עם פרופיל קישורים איכותי (כולל קישורים טבעיים ממאות דומיינים, בהם כל אתרי החדשות הגדולים, אתרי ממשל ואקדמיה, בלוגים ועוד).
הפוסט פורסם מחדש, התברג גבוה בדפי התוצאות ושלח תנועה נאה. העותק המקורי, שלא במפתיע, כמעט נעלם מתוצאות החיפוש.
הפרקטיקה המומלצת בעידן פנדה:
בעבר, די היה בקישור החוזר למקור ובעובדה שהנ”ל פורסם ואונדקס קודם, כדי לכל הפחות להביא לכך שהוא יופיע בתוצאות לצד ההעתק. היום זה כבר לא מספיק, או בכל אופן לא תמיד.
לכתחילה, עדיף במצב כזה לספק טקסט ערוך שאינו זהה למקור ובמצב אידיאלי פשוט לכתוב טקסט חדש (אם הקישור החוזר שווה את זה). כשזה לא מסתייע (כמו במקרה שלפנינו), אפשר לערוך גם בדיעבד כדי ליצור גירסה מעודכנת, רצוי כזו שגם יש לה ערך מוסף ש-Google יוכל לזהות.
במקרה שבדוגמא אפשר לראות שדי לעיתים בעריכה מינורית מאד, תוספת של כמה שורות טקסט וקישורים למקורות סמכותיים, כדי להחזיר את העותק המקורי של הפוסט לתוצאות לרוב הביטויים עבורם הופיע קודם:
לפעמים זה בא על חשבון האתר בו פורסם התוכן מחדש, אך בהחלט לא תמיד:
בין השורות של מסמך ה-General Guidelines ל- Search Quality Rating Program (המסמך של גוגל שדלף לאחרונה), אפשר לקרוא ולהבין ש”מקורי” לא אומר בהכרח שאתה מחזיק בעותק היחיד. לפעמים מה שחשוב באמת הוא ש-Google (או צוות המדרגים האנושיים) ישתכנע שרוב הגולשים או חלק מהגולשים, יעדיפו לקרוא את התוכן המסויים הזה דווקא אצלך.
דרך אחת שבה Google יכול לבדוק את זה, היא לאסוף מספיק מידע על דפוסי הגלישה באתר בכלל ועל הפופולריות של ה”מסמך” באתרים השונים בהם הוא התפרסם. יש, מן הסתם, גם חשיבות להקשר הסמנטי שהוא מזהה בכל אחד מהאתרים, ולהתאמתו ל-intent, לכוונת המחפש כפי שעולה מתוכן ומבנה השאילתה שלו.
דרך נוספת שבה Google יכול להשתכנע שכדאי להציג (גם) אתכם בתוצאות, היא אם העותק שנמצא אצלכם עדכני יותר. אם למסמך יש מהדורות שונות באתרים שונים, יש היגיון רב בלהציג בתוצאות את המהדורה המעודכנת ביותר. כדי שזה יעבוד, רצוי שהיא באמת תכלול מידע נוסף ולא רק תווים נוספים או שונים.
מקרה מבחן 3: דפי תגיות
תיאור הבעיה:
בניגוד לטעות המקובלת, גוגל מעולם לא הייתה נלהבת מדי לגבי שימוש בתגיות טקסט (ומי שעקב אחרי הבלוג והסרטונים של מאט כץ ידע זאת).
תיאורטית, התגיות מציעות מימדים נוספים לפילוח התוכן ולניווט בתוכו. פרקטית, שימוש יתר ושימוש לא נכון בתגיות, יוצרים מצבי תוכן כפול מגוונים. גם שיעורי ההקלקה על הקישורים לדפי התגיות נוטים להיות נמוכים.
ככלל, נראה בימים האלה שהנטייה של גוגל היא להציג פחות תוצאות מאותו אתר ב-SERP, לא יותר. לעיתים קרובות יותר אפשר לראות תופעות של קניבליזציה, כאשר דפי תגיות ודפי מאמרים/פוסטים מתחלפים ביניהם בתוצאות ולרוב הראשונים “מנצחים”.
ומצד שני, עדיין אפשר לראות דפי תוצאות שנראים כך, למשל:
אין כאן סוד גדול, וברוב המקרים קל יחסית להבין מה גורם ל- Google להציג לפעמים גם דפי מאמרים או פוסטים וגם דפי תגיות.
במקרה שבדוגמא זה גם מאד הגיוני. Google בחר להציג במקומות 1-3 שלוש מתוך 19 תוצאות רלוונטיות בבלוג (18 פוסטים ודף התגית):
- הפוסט הפופולרי והמקושר ביותר שכולל את התגית “יפו”.
- הפוסט החדש ביותר עם התגית “יפו”.
- דף התגית “יפו”, דרכו ניתן להגיע לכל 18 הפוסטים.
אז ההיגיון ברור, אבל בדרך-כלל זה לא כל-כך פשוט, ובהרבה אתרים דפי התגיות הרבה יותר קרובים להיות נטל מנכס. אז איך עושים את זה נכון?
הפרקטיקה המומלצת בעידן פנדה:
שלא במפתיע, הרבה תוכן רלוונטי (וקישורים טבעיים) הוא התחלה טובה כשרוצים להשיג אינדוקס טוב ודירוגים גבוהים לדפי תגיות, ובטח כשרוצים שיופיעו ב-SERPs בנוסף ולא במקום.
אבל יש עוד כמה כללים שכדאי להקפיד עליהם ודברים שיכולים לעזור:
- אל תצרו תגית חדשה אם אתם לא בטוחים שתשתמשו בה יותר מפעם אחת. בהגדרה, הערך המוסף של דף תגית נוצר כאשר הוא מקשר למספר תכנים באותו נושא.
- גוונו, כך שדפי התגיות לא יהיו דומים מדי זה לזה. אם תשתמשו באותן תגיות בדיוק בפוסטים רבים, עלול להתקבל אוסף של דפים בעלי תוכן כמעט זהה (Title tag ו-Description שונים זה לא מספיק).
- היו שיטתיים בבחירת כותרות ותגיות, באופן שימנע מראש כפילות כותרות (Duplicate Title tags). יש שיטות רבות וזה נושא גדול מכדי שנוכל לכסות אותו הפעם. בכל אופן, שיטה פשוטה אחת לדוגמא: להשתמש בתגיות בנות מילה או שתיים בלבד, ובכותרות (Headings) בנות שלוש מילים או יותר.
- כלי ה-URL Parameters הכלול בשירות Webmaster Tools נועד לעזור לבעלי האתרים ולגוגל להתמודד טוב יותר עם כתובות URL מבוססות פרמטרים (למשל: example.co.il/?tag=hummus). הוא מאפשר להגדיר מה לאנדקס ומה להציג ומה לא, וחשוב לא פחות – מאפשר להגדיר ל-Google את סוג הדף והשפעתו על תוכן הדף (למשל: narrows, specifies, paginates וכו’).
קצרה היריעה להסבר על אופן השימוש, ולא לכל אתר ובעל אתר כדאי להשתמש בכלי הזה (גוגל מזהירה בפירוש: השתמשו רק אם אתם בטוחים שאתם יודעים מה אתם עושים). בכל אופן, לניצול אופטימלי של דפי תגיות באתר דינמי עם כתובות מבוססות פרמטרים, השימוש ב-URL Parameters הוא כמעט בלתי נמנע וכדאי להשקיע את הזמן בללמוד אותו.
טיפ אחד להגדרת דפי תגיות מבוססי פרמטרים: בשלבים מוקדמים במחזור החיים של אתר, או אם אינכם בטוחים שדפי התגיות מספיק שונים זה מזה, עדיף להגדיר “Let Googlebot Decide” (ראו התמונה). רק בהמשך, שנו את ההגדרה ל”Every URL” והכניסו את דפי התגיות ל-XML sitemap.
כמה מילות סיכום
העצה הכי טובה בנושא תוכן כפול, הייתה ונשארה: דאגו שלא יהיה לכם כזה. אבל נדמה לי שהצלחתי לשכנע שתוכן כפול הוא חלק מהחיים – משהו שאפשר לחיות איתו ואף להפיק ממנו תועלת, כל זמן שעושים את זה נכון ובמידה וכשיש לכך הצדקה.
בעידן פנדה, הרף עלה אבל העקרון הבסיסי לא השתנה: עליכם לתת ל-Google סיבות טובות מאד להציג אתכם גבוה בתוצאות עם תוכן שאיננו בלעדי, או כדי להציג לגוגלבוט פיסות תוכן שחוזרות על עצמן בדפים שונים באתר שלכם.
לפני הכל, עליכם לשאול את עצמכם האם הכפילות מוצדקת וכיצד אתם יכולים להדגיש את הערך המוסף של כל עותק שקיים באתר שלכם, לא ל-Google אלא קודם כל לגולש. אחרת, תמצאו את עצמכם בטווח הארוך רודפים אחרי שינויים אלגוריתמיים ועושים עבודה כפולה.
התמונה באדיבות: KerryHalasz