אל תחפשו אותי
זמן רב חלף מאז הוקמו אתרי אינדוקס כדוגמת יאהו! ו-וואלה! (שהתגאה בזמנו בעובדה שהוא האינדקס העברי הראשון). למעשה כל המושג הזה של אתרי אינדקס די פס מן העולם ברגע שבו המציאו את ה-Crawlers - עכבישים רובוטיים קטנים שסרקו את המרשתת לאורכה ולרוחבה, אינדקסו וקיטלגו אתרים ככל יכולתם וכל זה ללא מגע ידי אדם. היה זה הגיוני מן הסתם שלא כולם יהיו מרוצים מן העובדה שמישהו אחר מקטלג את האתר שלהם, וכך הומצא robots.txt - קובץ קטן שמונח בספריה הראשית של האתר, ומכתיב לרובוטים את המדיניות של האתר כלפיהם.
כל זה כמובן טוב ויפה לאתרים פרטים או סתם כאלה שיש לנו גישה לניהול הכונן הקשיח של האחסון. אבל מה לגבי אתרי פלטפורמות, של בלוגים, של פורומים, של כל תוכן גולשים אחר?
לפני חודש וחצי הושחת אתר "במה חדשה" בידי script kiddies מתוסכלים. באותה הרגע דובר על טרגדיה - מפעל חייו של בועז רימר נרמס באכזריות, וכפועל יוצא, מרבית יוצרי ישראל שהיו חסרים פלטפורמה עצמאית מצאו עצמם בלי כל מה שהם כתבו, ציירו וצילמו. אנשים מהירי חשיבה (ובנימה לא צנועה בעליל זו, אני אחד מהם) הציגו מספר פתרונות אפשריים לשחזור חלקי של התוכן שהלך לאיבוד בעקבות מעשה הוונדליזם המדובר. אחד הפתרונות הללו היה שימוש ב-cache של גוגל (ושל מנועי חיפוש אחרים) לשחזור המידע. פתרון זה לא יכול היה להתקיים אם בועז רימר היה מונע ממנועי החיפוש ועכבישי האינדוקס לקטלג ולשמור את התוכן בבמה החדשה.
מנגד, בימים הראשונים שהתחלתי לכתוב בישרא-בלוג, הדאגה העיקרית שלי הייתה בקשר לאנונימיות היחסית. באותו הזמן בלוגיניג לא היה בגדר עיסוק פופלארי במיוחד, וגם לא התלהבתי מלפרסם ברבים את דעותיי. יריב חבוט - המייסד של ישרא-בלוג, השאיר את הברירה הזאת בידי המשתמשים. במסך עדכון הפרטים של ישרא-בלוג, ניתן למצוא את האפשרות של "מנע ממנועי חיפוש ורובוטים (כמו גוגל) לתעד את הבלוג שלי". פיצ'ר זה אמנם לא מונע מגוגל להציג את הבלוג שלי בתוצאות החיפוש שלו, אבל מדובר אך ורק בהפנייה לעמוד הראשי של הבלוג ולא בקישור ישיר שמכיל גם תוכן מתוך פוסטים.
האתרים שמאחסנים את התוכן שלנו, ברוב המקרים לא מחזיקים בבעלות על התוכן הזה, אלא רק על הפלטפורה. הדבר נעשה במטרה ברורה להתנער מאחריות על התוכן במידה והאתר יהיה צפוי לתביעה בגינו. עם זאת, לא כל אתרי תוכן הגולשים מאפשרים למשתמשים שלהם להחליט בסוגיית אינדוקס התוכן שיצרו. הדבר יוצר חשיפה שלעיתים קרובות אין אנו חפצים בה, ולעיתים עוד יותר קרובות - רוצים יותר מכל למנוע אותה, משיקולים כאלה ואחרים. אפי פוקס מנסה כיום לרכז את העבודה על הקוד האתי לבלוגוספירה העברית. אני חושב שקוד אתי זה לא יהיה שלם אם הוא ידון רק בנושאים שהם בתחום של בין אדם לאדם. בעידן שבו לא כל אחד יכול להרשות לעצמו להחזיק דומיין משלו עבור הבלוג שלו, חובה ליצור ממשק פעולה מוסכם בין הפלטפורמות לבין הבלוגרים שעושים בהן שימוש. משהו כמו בין אדם למקום (ויסלחו לי הדתיים שעלולים לקרוא פה).
למעשה הבעיה היחידה שאני רואה בכל הרעיון הזה, היא בשיתוף הפעולה של מנועי החיפוש והאינדוקס. מי באמת יכול להבטיח לנו שהעכביש שסורק לי את הבלוג יתנהג לפי כללי הגישה המפורטים בקובץ robots.txt?
אם חושבים על זה, אני באמת לא סומך על אף מנוע חיפוש שהוא אכן מתייחס לקובץ המדובר. עם התחרות שרק הולכת ומתלקחת בתחום (אף על פי שגוגל מובילה בהפרש גדול, והקרב הוא בעיקר על המקום השני, בין מיקרוסופט ויאהו - מה גם שנשמעים קולות על ניסיונות איחוד בין השתיים), לא הגיוני להניח שמישהו בכלל יתייחס להגבלות שאני הגדרתי. יותר סביר להניח שהמידע שנאסף פשוט לא יוצג בתוצאות חיפוש, אבל יהיה זמין במאגר המידע של האינדקס. במעבר חוזר של העכביש, אם יתברר שההגבלות של ה-robots.txt כבר לא בתוקף, ישלפו הדפים שנסרקו בעבר מתוך הארכיון ויוצגו לקהל הרחב.
בדר"כ אני לא רוצה שיחפשו אותי באינטרנט. במקום המצב שקיים עכשיו, לדעתי יש צורך במנגנון אבטחה שונה לגמרי כנגד החיפוש הפולשני. פיתוח אפשרי שניתן לחשוב עליו, הוא השימוש ב-OpenID. יצירת תת-חשבון אורח או חשבון חיפוש, עבור כל משתמש הרשום במערכת. ההתניה לתיעוד וחיפוש בתוכן שיצרתי תהיה ע"י זה שאני אכניס את הפרטים של החשבון אורח הזה באתר של מנוע החיפוש ובכך אתן את הסכמתי לחיפוש ותיעוד התוכן האישי שלי.
אודות הפוסט
הפוסט הנקרא: “אל תחפשו אותי”, הוא חלק מבשכנות טובה
- פורסם:
- 12.05.07 / 2:14
- נושאים:
- בלוגינג, וובשתייםאפס, רטרוספקטיבה
עדיין אין תגובות.