25.11.2010

לחסום את גוגל: גוגלבוט, רובוטס, סניפטים ונואינדקס

בעלי אתרים רבים עדיין אינם יודעים שאפשר לחסום את גוגל ושאר מנועי החיפוש מלגשת לדף מסוים באתר שלהם, ולשלוט בצורה יפה בדרך שבה האתר מוצג בתוצאות החיפוש; מדריך מקוצר ל"חסימת גוגל"
יש לך אתר? גוגל סורק אותו? אתה לא מרוצה ממה שמופיע בתוצאות החיפוש? הנה כמה דרכים לשלוט על הדרך שבה גוגל סורק את התוכן שלך.

כאשר רוצים לחסום את כל מנועי החיפוש, משתמשים בשם robots בכל תג.
כאשר רוצים לחסום את גוגל בלבד, משתמשים בשם googlebot (גוגלבוט).
יש תגים שרק גוגל מתייחס אליהם, כמו למשל חסימת תמונות (no image index)
או איסור תרגום (no translate).


"אני לא רוצה שגוגל בכלל יסרוק את הדף הזה" (נו-אינדקס)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="googlebot" content="noindex"

"אני לא רוצה שאף מנוע חיפוש יסרוק את הדף הזה" (נו-אינדקס)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="robots" content="noindex"

"אני לא רוצה שגוגל ייתייחס לכל הקישורים שנמצאים בעמוד הזה" (נו-פולו)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="googlebot" content="nofollow"

"אני לא רוצה שגוגל ישמור את התוכן של הדף בתור 'עותק שמור' בתוצאות החיפוש" (נו-ארכייב)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="googlebot" content="noarchive"

"אני לא רוצה שאף מנוע חיפוש, כולל גוגל, יוכל לשמור את התוכן של הדף בתור עותק שמור ('זכרון מטמון' או cache) בתוצאות החיפוש" (נו-ארכייב)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="robots" content="noarchive"

"אני לא רוצה שגוגל יראה חלקים מן התוכן של הדף, ולא ישמור עותק שמור, אבל עדיין יציג את הדף עצמו בתוצאות" (נו-סניפט)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="googlebot" content="nosnippet"

"אני לא רוצה שהתמונות בדף הזה ייסרקו על ידי גוגל, כך שכל אחד יוכל להגיע לאתר שלי דרך חיפוש תמונות בגוגל" (נו-אימג'-אינדקס)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="googlebot" content="noimageindex"

"אני לא שגוגל יציע תרגום של העמוד הזה דרך גוגל טרנסלייט" (נוטרנסלייט)
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="google" content="notranslate"

והתג הכי קיצוני שיש: אין כניסה לאף אחד, לא גוגל, לא יאהו, לא וואלה, אף מנוע חיפוש (נו-אינדקס, נו-פולו)

"אני לא רוצה שאף אחד לא ייכנס לעמוד, לא ישמור את העמוד ולא יתייחס לקישורים שלו"
הוסף את הקוד הבא לאיזור ה-head של הקוד:
meta name="robots" content="noindex, nofollow"


תוקף החסימה
ההוראות שלעיל, שאותן משתילים בתוך איזור ה-head של קוד הדף הספציפי, מחייבות את כל מנועי החיפוש הגדולים (גוגל, יאהו-בינג וכד'). המנועים הגדולים, המתפרנסים מפרסומוץ, הם למעשה חברות ציבוריות גדולות שאינן רוצות להיתפס פוגעות בלקוחות פוטנציאליים.

אם מנוע חיפוש ידוע ומוכר מתעלם מן ההוראה שלכם, זו יכולה להיות עילה לתביעה. זאת, כמובן, בתנאי שפניתם קודם למנהלי המנוע "בצינורות המקובלים" ופעלתם כדי להעיר את תשומת לבם של האחראים על כך.

ההוראות אינן מהוות "פקודה" שכל מנוע חיפוש חייב לציית לה באופן אבסולוטי, ובוודאי שאין מדובר ב"מנעול" שמונע ממנועי חיפוש לסרוק את דפי האתר שלכם.

במקרים נדירים שבהם מנועי חיפוש "פליליים" מתעלמים מן החסימה הכללית (robots), יש לבצע פעולות מתוחכמות יותר כדי לחסום את פעולת המנוע הסורר. בהחלט קיימים מנועי חיפוש, עכבישים ורובוטים עקשניים, שסורקים אתרים בניגוד לרצונם, כמו טפיל דיגיטלי. חלק מהם מבצע פעולות העתקה בלתי חוקיות (scraping) כדי לשכפל אתרים מפורסמים.


לא מיצינו
נושא חסימת דפים למנועי חיפוש, מניעת גישה והגבלת סורקים באופן כללי הוא עניין מורכב למדי. 
הדף הזה לחלוטין לא ממצה את הנושא, אבל הוא נותן מענה לרוב הבעיות הנפוצות של בעלי האתרים.

במקרים שבהם נדרשת חסימה מתוחכמת יותר, לאתרים גדולים ומורכבים יותר, מומלץ שלא לעשות זאת באמצעות הוספת תג ספציפי לעמוד אחד בלבד, אלא לעבוד עם הגדרות השרת של האתר (IIS או Apache).

במקרים רבים נוספים, אפשר לעבוד עם קובץ "רובוטס.טקסט" (robots.txt) המגדיר בצורה מדויקת את הספריות (sub-directories) שאותן רוצים לחסום. אנשי גוגל כתבו מדריך עזרה טוב בנושא קובץ רובוטים טקסטואלי.

בכל מקרה, כאשר חוסמים גישה של מנוע חיפוש כלשהו, צריך להמתין בסבלנות מספר ימים או שבועות עד שההגבלה נכנסת לתוקף. עצם הוספת הקוד לדף אינה אומרת שמנוע החיפוש יבצע את הפקודה באופן מיידי. תמיד צריך להמתין עד לסריקה הבאה. אם מדובר בדף חשוב ופופולרי, אפשר לצפות לתגובה של ימים ספורים. אך אם מדובר בדף זניח השייך לאתר קטן מאוד, העניין יכול להימשך שבועות רבים ולעתים חודשים.

יש לכם שאלות על חסימת מנועי חיפוש לאתר שלכם?  הוסיפו תגובה.

4 תגובות:

אנונימי אמר/ה...

תמיד שאלתי את עצמי מה המחוייבות של המנועים לציית להנחיות האלה.

זה הרי יותר עניין של אתיקה, לא?

אם מחר אני מייסד מנוע חיפוש ששם פס על הבקשות האלה, האם יש למישהו יסוד לגרור אותי לבית משפט?

מאמרים אמר/ה...

אני מציע להתייחס גם לשימוש בקובץ Robots.txt על מנת לחסום את הגישה לקובץ או ספרייה מסוימת. כדאי גם להסביר אודות ההבדל בין חסימת הגישה באמצעות קובץ Robots.txt לבין תגיות ה-Meta שציינת.

שי ש. אמר/ה...

שאלת החוקיות של סריקת אתר ע"י רובוט בניגוד לתגי no-index או no-follow (לרבות scraping) היא מעורפלת - לא תמיד בתי משפט פוסקים שהעניין הוא בלתי חוקי.

eyal אמר/ה...

תודה רבה על הפוסט,
חיפשתי מזה זמן דרך להגביל את הרובוט לא לסרוק דפים לא רלוונטים
גם ככה הם עולים בחיפושים לא רלוונטים
אפשר לראות את זה עם אנליטיקס..
המחלה הכי קשה לפי דעתי זה חיפוש על פי מספר טלפון שמהווה בעיה לצערי

ניתן לקרוא עוד באנגלית על הרובוטס במאמר
ט'נקס

http://antezeta.com/news/avoid-search-engine-indexing

כל הזכויות שמורות לבלוג חופש החיפוש 2007-2012