האנשים בעולם מתחלקים לשניים – בני אדם ואנשים שמעתיקים תוכן.
אולי זה קצת אכזרי, אבל באמת שקשה לי עם התופעה הזו! וזה רק הולך וגדל. האם זה לא הדבר הכי מתסכל בעולם לגלות יום אחד את המאמר שלך מופיע באתר אחר בלי רשות? שעות של השקעה ומחקר ירדו לטמיון כשמישהו החליט יום אחד לעשות קופי פייסט ופשוט לגנוב. פשוטו כמשמעו.
הפוסט הזה נועד לעזור לך להתמודד עם הבעיה המתישה הזו. כמובן אי אפשר להעלים את התופעה לגמרי, אבל אני אשתדל להציג כלים יישומיים שיסייעו לך לשמור על יצירת האומנות שלך עד כמה שניתן + כמה בונוסים בסוף (לאנשים נקמנים במיוחד)… 🙂
כאן לא נדבר על ההיבטים המשפטיים בגניבת תוכן (שזו כבר סיבה מספיק טובה למה לא לעשות זאת). בשביל זה אני ממליץ לקרוא בעיון את הפוסט המקיף שפורסם כאן בשבוע שעבר על 9 סוגיות משפטיות שחובה להכיר לפני הקמת אתר אינטרנט.
איך לעזור למנועי החיפוש להבין מי המקור?
הדעה הרווחת היא שאם התוכן מתפרסם קודם באתר שלך, כנראה שגוגל ידע לזהות מי העתיק ומי המקור. אך הבעיה היא שלא תמיד התוכן מתאנדקס אצלך ראשון. יכולות להיות כמה סיבות לכך שהתוכן יתאנדקס קודם דווקא אצל הגורם שהעתיק:
- רמת הסמכות (Authority) של הדומיין המעתיק גבוהה יותר – יש הרבה אתרים שנחשבים לסמכותיים בתחומם, אתרי אוטוריטה. הסמכות הזו היא לא דבר של מה בכך. היא נבנתה לאורך זמן ומגובה בהרבה עבודה קשה ותוכן איכותי שתורם לגולשים. לכן סביר להניח שאם דומיין סמכותי במיוחד העתיק תוכן מדומיין חדש, יכול להיות שהוא ייחשב ליוצר המקורי, אפילו אם גוגל גילה את 2 הגרסאות בו זמנית. ראיתי מספר דוגמאות כאלו בעבר.
- תדירות הסריקה באתר שהעתיק גבוהה יותר – למרות שפרסמת את התוכן קודם, זה לא אומר שגוגל ישר ביקר אצלך וסרק אותו. יכול להיות שמישהו העתיק את המאמר ובגלל תדירות הסריקה הגבוהה באתר המעתיק זה יתאנדקס שם קודם. בהקשר הזה כדאי להכיר כמה דרכים שיעזרו לשפר את תדירות הביקורים והאינדוקס.
אז הסכמנו שיכולים להיות מקרים בהם יעתיקו ממך תוכן והוא ייחשב אצל המעתיק בתור התוכן המקורי – מבאס? לא בהכרח. במקרים כאלו יש כמה דברים שכן אפשר לעשות כדי לסייע לגוגל להבין שהתוכן שלך הוא התוכן המקורי (זאת למרות שהוא התאנדקס אצל המעתיק קודם).
לדאוג שיהיה קישור מהתוכן המועתק לדומיין שלך
כשגוגל נתקל בכמה גרסאות של תוכן זהה, אחד המדדים שיעזרו לו להבין מי היוצר המקורי זה קישור שיפנה לעמוד המקורי. את הקישור הזה אפשר להוסיף בכמה דרכים:
- להוסיף תגובה במאמר עם קישור שלא יבלוט – אם התוכן הועתק לעמוד שמאפשר הוספת תגובות, כדאי להוסיף בסוף המאמר תגובה עם לינק למאמר המקורי באתר שלך. סביר להניח שבעל האתר לא ייאשר אותה אם יראה את הקישור, לכן מומלץ לכתוב תגובה עניינית שתתייחס לתוכן ולשלב את הקישור בדרך שתהיה פחות בולטת לעין (למשל מתוך מילה קצרה מאמצע הטקסט).
- להוסיף אצלך שורת קרדיט בסוף כל מאמר עם קישור – ברוב המקרים אנשים נוהגים לסמן את הטקסט ולהעתיק אותו כפי שהוא יחד עם כל הקישורים שכלולים בו. לכן אפשר להוסיף איזשהו קוד שיוסיף אוטומטית שורת קרדיט בכל מאמר שיפורסם באתר שלך. השורה הזו תכלול את השם המלא שלך וקישור ל-URL של המאמר המקורי באתר שלך. כדי לעשות ווידוי הריגה אפשר להוסיף את השורה הזו בתחילת המאמר ובסופו.
- לקשר מגוף המאמר לעמודים פנימיים בדומיין שלך – אם האדם שהעתיק שם לב לשורת הקרדיט מהסעיף הקודם והסיר אותה, קישורים לעמודים אחרים בדומיין שלך יכולים לעזור. כשגוגל רואה 2 גרסאות זהות אבל מאחת מהן יש קישורים לדומיין של השניה, זה יכול להקנות איזושהי עדיפות למציאת המקור.
להגדיר תג קנוניקל בכל פריט תוכן
בשנה שעברה גוגל הציגו תגי מטה חדשים בשם Source attribution metatags. המטרה שלהן היא לעזור לעיתונאים ויוצרי תוכן לקבל את הקרדיט שמגיע להם. מדובר ב-2 תגי מטה שיש להטמיע בכל עמוד תוכן:
- syndication-source – הגרסה המועתקת.
- original-source – הגרסה המקורית.
בגלל הדמיון הרב שיש ביניהם לבין תג הקנוניקל, גוגל הודיעו לפני כמה חודשים (בחלק התחתון של הדף) שהקנוניקל יחליף את השימוש שלהם:
If you know the full URL, rel=canonical is preferred, and you need not specify syndication-source. If you know a partial URL, or just the domain name, continue using syndication-source.
מכך אפשר להסיק שלתג הקנוניקל יש כעת את אותה המשמעות ולכן יכול לשמש כאינדיקציה לתוכן המקורי. לכן מומלץ להוסיף בכל עמוד באתר שלך תג קנוניקל שיכיל את הכתובת המקורית של אותו דף. בגרסאות אחרונות של וורדפרס זה מוטמע אוטומטית בכל עמוד ופוסט. לדוגמא ככה זה מופיע בקוד של הפוסט הזה:
<link rel=’canonical’ href=’https://www.askpavel.co.il/blog/stop-stealing-content’ />
איך להקשות על העתקת תוכן?
בסעיף הקודם דיברתי על דרכים לשכנע את גוגל ומנועי חיפוש אחרים מי המקור אחרי שהתוכן התאנדקס, אבל אולי אפשר להקדים תרופה למכה ומראש להקשות על תהליך ההעתקה?
נחלק את קבוצת המעתיקים ל-2:
1. מכונות (ספלוגים, אגריגטורים וסקראפרים)
ספלוג (Splog) זה פשוט ראשי תיבות של Spam Blog. מדובר לרוב בבלוגים אוטומטיים שניזונים על חשבון תוכן של אנשים אחרים. ברגע שספאמרים משגרים אותם, הם מתחילים להעתיק תוכן מדפים שונים באינטרנט או מתוך פידים של RSS. ספלוג הוא למעשה סוג של Scraper (מלשון “לגרד”).
הנה כמה דרכים להקשות על רובוטים מהסוג הזה:
- להוסיף בפיד ה-RSS קרדיט עם קישור – בסעיף הקודם המלצתי להוסיף את הקרדיט בקוד של המאמר עצמו בעוד שכאן הכוונה היא להוסיף את זה ממש בפיד, כדי שסקראפרים יכללו אותו בתהליך ההעתקה (הרבה סקראפרים מעתיקים את התוכן על בסיס ה-RSS). הדרך הכי טובה לעשות זאת היא באמצעות פיצ’ר שנקרא FeedFlare שהוא חלק אינטגרלי מתוך Feedburner (בהנחה ששם מנוהל הפיד שלך). FeedFlare מאפשר להוסיף לכל פריט ב-RSS כל מני תוספות כמו: כפתורי שיתוף במדיה חברתית, תגובות וגם קרדיט עם קישור. מה שצריך לעשות זה לקחת את הכתובת של ה-XML המתאים מתוך הרשימה הבאה (כרגע זה הראשון) ולהדביק אותו במסך של FeedFlare (תחת Personal FeedFlare):
- להוסיף קישור להמשך קריאה בפיד עם תקצירים – אם אין לך פיד מלא אלא תקצירים (כאן כתבתי על ההבדלים בין השניים), ייתכן מאד שכל תקציר נגמר עם 3 נקודות… בהנחה שהרובוט יצליח לעקוף איכשהו את התוספות של FeedFlare מהסעיף הקודם, כדאי לעשות כסת”ח נוסף ולהוסיף עוד לינק במקום שלושת הנקודות (שיוביל למאמר המקורי באתר שלך). מה שצריך לעשות זה בסך הכל להוסיף קוד קצר בקובץ functions.php בקבצים של וורדפרס וכאן יש הסבר איך לעשות את זה.
2. אנשים (עצלנים, גנבים וחסרי עמוד שדרה)
סביר להניח שאם מישהו ממש מתעקש להעתיק את התוכן שלך, הוא יצליח (בניגוד לסקריפטים מהסעיף הקודם שלא מסתגלים דינמית לחסימות). אולי קצת קשה למנוע את זה אבל אם נהפוך את התהליך למסובך יותר, המעתיק עשוי להתעצל ולחפש מקור אחר להעתיק ממנו.
הדרך הכי טובה לעשות זאת היא להקשות על סימון הטקסט בדף והעתקה ידנית שלו. יש כמה פלאגינים מצויינים לוורדפרס שיעשו את העבודה ויחד עם זאת לא יפגעו ברמת ה-SEO של הדף (גוגל עדיין יוכל לסרוק ולאנדקס את התוכן):
- WP Copyprotect – הפלאגין הזה ייחסום את האפשרות לסמן את הטקסט בעמודים ואת האפשרות להקליק על מקש ימני בעכבר. אפשר כמובן לבטל את זה מתי שרוצים דרך לוח הניהול של הפלאגין.
- No Copy – זהה מאד לפלאגין הקודם רק שהוא מחייב גרסת וורדפרס 2.7 ומעלה. הוא גם מבטל את האפשרות להשתמש בכל מני קיצורי דרך במקלדת שמסייעים בהעתקה (כמו Ctrl+A ו- Ctrl+C) שזה סופר שימושי.
אם מדובר באתרים שהם לא וורפדרס אפשר להשתמש בסקריפטים שכתובים ב-DHTML אותם אפשר להטמיע בקוד העמוד. כדי לבטל את האפשרות לעשות קליק ימני של העכבר יש לשים את הקוד הבא בחלק של ה- <body>. כדי לבטל את האפשרות לסמן טקסט, יש להוסיף את הקוד הזה בעמוד.
שיטה אפקטיבית לגרום לעמוד להתאנדקס אצלך מהר
ואם בכל זאת שום דבר לא עובד ואנשים עדיין ממשיכים להעתיק ממך, אפשר להגדיל את הסיכוי שהתוכן יתאנדקס אצלך קודם. איך עושים את זה?
קודם צריך להשיג חשבון טוויטר שיש לו PR גבוה (מה שבהכרח גורם לתדירות סריקה גבוהה של הטוויטים שנוצרים דרכו). אפשר למצוא אנשים שמוכרים חשבונות כאלו באינטרנט אבל אני מציע פשוט לטפח אחד כזה בעצמך. עוד נכס שישאר שלך ותמיד יהיה לו שימוש.
כעת יש לסנכרן בין הבלוג לבין החשבון בטוויטר באמצעות האפליקציה Twitterfeed. מעכשיו כל פעם שנוצר תוכן חדש בבלוג שלך, אוטומטית יתפרסם טוויט עם קישור אליו וככה גוגל יאנדקס אותו מיידית.
איך אפשר לדעת אם העתיקו ממך תוכן?
גם אם יישמת חלק מהשיטות, עדיין יש סיכוי שמישהו יגנוב לך את התוכן ולכן תמיד כדאי להיות עם היד על הדופק. יש מספר כלים שימושיים שישלחו לך התרעה כשזה קורה, כך שאפשר יהיה לטפל בזה כמה שיותר מהר:
- Copyscape – מי לא מכיר את קופיסקייפ? כנראה הכלי הפופולארי ביותר לזיהוי תוכן משוכפל באינטרנט. המערכת מאפשרת לבדוק בחינם כל URL שרוצים, או לשלם על חבילה שכוללת התרעות שנשלחות אם נמצאה העתקה. אפשר לקנות חבילה שבודקת את הדפים פעם בשבוע והיא עולה 5 דולר בחודש ל-10 דפים וחבילת פרימיום שתבצע בדיקה יומית והיא עולה 20 דולר בחודש (הפרימיום כולל עוד מספר פיצ’רים כמו התממשקות ל-API ועוד). אפשר להתרשם מהכלי הזה בסרטון הבא:
- Google Alerts – לוקחים קטע טקסט רנדומאלי מתוך הטקסט ומוסיפים עליו התרעה. חשוב לשים אותו במרכאות כדי שזה ייחפש הופעה מדוייקת שלו. יש כאן רק קאץ’ קטן – מומלץ שהטקסט יהיה ייחודי לטקסט המלא, אחרת יישלחו אליך התרעות בלי סוף. זו גם השיטה שעליה מבוסס מנוע החיפוש הפנימי של Amazon. הם פיתחו טכנולוגיה בשם Statistically Improbable Phrases או בקיצור SIP. הטכנולוגיה הזו מאפשרת להם לאנדקס ספרים בצורה אפקטיבית כך שניתן יהיה למצוא אותם בקלות במנוע החיפוש הפנימי שלהם. SIPs הן למעשה מחרוזות המילים השכיחות ביותר שמייצגות טקסט נתון (כאלו שסביר להניח שיהיו פחות שכיחות בטקסט אחר).
- Copy Alerts – כרגיל יש גם פלאגין לבעלי בלוגים של וורדפרס. אחרי שמגדירים התרעה במערכת, יישלח אליך מייל בכל פעם שתמצא גרסה זהה (אפשר יהיה לראות השוואה בין הגרסה המקורית לבין ההעתק).
נקמה מתוקה: 3 דרכים לפגוע בחזרה במעתיקים
אני לא בנאדם רע מטבעי, אבל מצד שני הגונב מגנב פטור לא? 🙂
אם מישהו כבר עקף את כל ההגנות שהצבת, לקח במודע את התוכן שלך ופרסם אותו באתר שלו בלי רשות, צריך לפחות לשבש לו קצת את העניינים לא? להלן כמה דרכים אפקטיביות איך “להעניש” את מי ששיגר אליך את הסקראפר שלו:
- שימוש בכתובות רלטיביות עבור תמונות – אומנם יש מערכות שעוקפות את זה בלי בעיה, אך עדיין אני רואה בשטח הרבה סקראפרים שמעתיקים את התמונות כפי שהן מופיעות בקוד. עכשיו, אם התמונות יכילו נתיבים (path) רלטיביים ולא אבסולוטיים – הן פשוט לא יוצגו אצלו אלא יישארו כשטח ריק בטקסט (=חוויית משתמש גרועה). הקישורים לעמודים הפנימיים לעומת זאת יהיו אבסולוטיים, כדי שאם מישהו יקליק עליהם הוא יגיע לאתר שלך (שזו אגב אחת מההוכחות לכך שהתוכן אצלך הוא המקורי, במידה וזה התאנדקס אצל המעתיק קודם).
- יצירת פונקציה שתוסיף קישור לאתר משכונה רעה – לגוגל יכולה להיות בעיה להעניש דומיין בגלל שקיבל קישורים משכונות רעות (כי זה לא בשליטתו של בעל האתר), אבל כשמדובר בקישור יוצא לשכונה רעה הסיפור הוא אחר לגמרי. כשהקישור יוצא מתוך האתר זה אומר שבעל האתר הוסיף אותו במודע ולכן סביר להניח שיענש על כך. אפשר ליצור סקריפט שבעת ההעתקה של התוכן יוסיף קישור לאתר בשכונה רעה מתוך אות אחת בטקסט (כדי שלא יהיה נראה לעין). אולי זה קצת אכזרי אבל מצד שני זה הוגן למדי…
- שיבוש תוכן שספלוגים העתיקו מפיד RSS – יש תוכנה מאד נחמדה בשם AntiLeech שמקשה על גניבת תוכן. התוכנה הזו לא מונעת מהבוטים של הספלוגים להיכנס לאתר, אלא מייצרת תוכן מזוייף במיוחד עבורם. AntiLeech מזהה ספלוג באמצעות מחרוזת User Agent ייחודית שחלקם שולחים בעת העתקת התוכן או באמצעות כתובת IP. כמו כן התוכנה מוסיפה אוטומטית קישור חוזר לאתר שלך ואזהרה על כך שזה תוכן גנוב. ככה יראה התוכן שנגנב ממך באתר המעתיק:
איך לדעתך כדאי להתמודד עם העתקת תוכן?
ועכשיו תורך…אשמח לשמוע על הנסיון שלך בהתמודדות עם מקרים של העתקת תוכן. מה הדרך הטובה ביותר למנוע את זה? ואם זה כבר קרה, איך לפנות למעתיק כדי שיוריד את התוכן? האם זה משהו שקורה יותר או פחות לאחרונה? אשמח לשמוע על מקרי גניבה שהיו לך ואיך טיפלת בהם כדי שנוכל ללמוד.
נב – אני לא יודע אם שמת לב אבל בהמשך להמלצות הנדיבות של ורד חורי ושל כרמי איתן זה הפוסט הראשון בבלוג שנכתב ביוניסקס במלואו. למרות שזה אולי קשה יותר, הפניה לכל אחד מהקוראים הרבה יותר אישית ואשמח להתמיד עם זה 🙂
קרדיט לתמונה: Aragga