מגדליני איירינקי ומיכליס וזירגיאניס | 06.07.2004

הקדמה

הגידול המתמשך במימדים ובשימוש של הרשת העולמית כופה דרכים חדשות של עיצוב ופיתוח של שירותי מידע ברשת. רוב המבנים ברשת גדולים ומורכבים ולעיתים קרובות מחמיצים המשתמשים את מטרת החיפוש, או מקבלים תוצאות מעורפלות כאשר הם מנסים לנווט דרכה. מצד שני, סקטור המסחר ברשת מתפתח במהירות והצורך בשווקים אלקטרונים הצופים את צרכי הלקוחות הוא ניכר יותר מאי פעם.

בשל כך, ניתן ליישם את הצורך לצפות את צרכי המשתמש על מנת לשפר את אופן השימוש ונוחות המשתמש באתר באמצעות התאמה אישית של האתר. התאמה אישית מוגדרת כפעולה המתאימה את המידע או שירותים אותם מספק אתר לצרכים של משתמש מסוים או מספר משתמשים, תוך ניצול הידע הנרכש מהרגלי הגלישה ונושאי העניין האישיים, בשילוב עם התוכן והמבנה של האתר. המטרה של מערכת ההתאמה האישית היא "לספק למשתמשים מידע שהם רוצים או צריכים, בלי לצפות מהם לבקש זאת מפורשות"
[Mulvenna et al. 2000].

בשלב הזה, יש להדגיש את ההבדל בין התאמה רגילה והתאמה אישית של המערכת. בהתאמה רגילה ניתן להתאים את האתר להעדפות המשתמש בהתאם למבנה והתצוגה. בכל פעם שמשתמש רשום נכנס לרשת, אתר הבית המותאם שלו עולה. תהליך זה נעשה באופן ידני או באופן אוטומטי למחצה. במערכות מותאמות אישית שינויים בתוכן או אפילו במבנה האתר מבוצעים באופן דינמי.

עקרונות ראשיים של התאמה אישית של הרשת כוללים (א) מיון לקטגוריות ועיבוד של נתוני רשת, (ב) מציאת התאמה בין ולרוחב סוגים שונים של נתונים אלו, ו-(ג) קביעת הפעולות המומלצות על ידי מערכות ההתאמה האישית [Mobasher et al. 2000a].

ניתן לאסוף נתוני רשת ולהשתמש בהם בהקשר של התאמה אישית. הנתונים מסווגים בארבע קטגוריות לפי: [2000 Srivastava et al.].

  1. נתוני תוכן מוצגים למשתמשי הקצה במבנה מותאם. הם יכולים להיות טקסט פשוט, תמונות, או נתונים מובנים, כמו מידע המאוחזר מבסיסי נתונים.
  2. נתוני מבנה מייצגים את דרך סידור התוכן. הם יכולים להיות ישויות נתונים הנמצאות בשימוש בתוך דף רשת, כגון תגי HTML או XML, או ישויות נתונים המשמשות להרכבת אתר, כגון קישורים (hyperlinks) המחברים בין הדפים השונים.
  3. נתוני שימוש מייצגים את השימוש באתר, כמו כתובת IP של מבקר, תאריך וזמן כניסה, נתיב גישה מלא (קבצים או ספריות), כתובת משתמש מפנה, ותכונות נוספות הכלולות ביומן (log} הגישה של האתר.
  4. נתוני פרופיל משתמש מספקים מידע אודות המשתמשים של האתר. פרופיל משתמש מכיל מידע דמוגרפי (כגון שם, גיל, ארץ מוצא, סטטוס נישואין, השכלה, תחומי עניין, וכו') על כל משתמשי האתר, וכן מידע אודות תחומי העניין וההעדפות של המשתמש. האינפורמציה נאספת באמצעות טפסי הרשמה או שאלונים, או ניתנת להסקה מניתוח יומני השימוש.

התהליך הכולל של התאמה אישית המבוססת על השימוש ברשת מורכב מחמישה רכיבים, המקבילים לכל שלב בתהליך, כמפורט להלן.

  1. בניית פרופיל משתמש: בתחומי הרשת, בניית פרופיל משתמש הוא התהליך של איסוף מידע ספציפי לכל מבקר, באופן מפורש או מבלי ידיעת המשתמש. פרופיל משתמש כולל מידע דמוגרפי, תחומי עניין ואפילו הרגלי גלישה. המידע מנוצל כדי להתאים את התוכן והמבנה של האתר לצרכים הספציפיים והאישיים של המבקר.
  2. ניתוח יומן השימוש ואחזור השימוש ברשת: זהו התהליך בו אינפורמציה השמורה ביומני השרת מעובדת באמצעות טכניקות אחזור מידע במטרה ל-
    (א) מציאת מידע סטטיסטי ודפוסי שימוש מעניינים, (ב) סיווג המשתמשים לקבוצות בהתאם להרגלי הגלישה שלהם, ו-(ג) מציאת התאמות פוטנציאליות בין דפי אתר וקבוצות משתמשים. התהליך של מציאת אינפורמציה הנוגעת להרגלי הגלישה של המשתמשים הוא בעצם חלק מהתהליך של בניית פרופיל משתמש. מכאן ניתן להסיק שבין הרכיבים של בניית פרופיל משתמש ואחזור מידע ברשת קיימת חפיפה.
  3. ניהול תוכן: תהליך סיווג תוכן האתר לקטגוריות סמנטיות על מנת להקל על המשתמש את אחזור והצגת המידע. ניהול התוכן חשוב ביותר באתרים בהם כמות התוכן גדלה מיום ליום, כגון אתרים ופורטלים (portals) של חדשות.
  4. פרסום באתר אינטרנט: שימוש במנגנון הפרסום נעשה על מנת להציג תכנים השמורים בשרת מקומי ו/או מידע מאוחזר ממשאבי רשת אחרים בצורה אחידה למשתמש הקצה. ניתן להשתמש במגוון טכנולוגיות לפרסום מידע ברשת.
  5. רכישה וחיפוש של מידע: במקרים רבים מידע הניתן על ידי אתר אינו מאוחסן פיסית בשרת של האתר. במקרה של פורטל או "וורטל" (vortal, פורטל אנכי), המשתמשים מעונינים במידע ממספר מקורות ברשת. מה שנשאר לעורכי האתר לעשות הוא לחפש ברשת תכנים מעניינים שימוינו אפוא לקטגוריות סמנטיות. יש ליישם טכניקות של חיפוש ודירוג על פי רלוונטיות הן בתהליך הרכישה של מידע רלוונטי והן בפרסום מידע המתאים לכל קבוצת משתמשים.

מערכת התאמה אישית של רשת המבוססת על נתוני שימוש מנצלת את נתוני הרשת על מנת לבצע שינויים באתר. התאמה אישית של אתר מושגת באמצעות האינטראקציה בין המודולים הנזכרים לעיל. מאמר זה ערוך כדלקמן:

בפרק 2, אנו מספקים תאור קצר של תהליך ההתאמה האישית של הרשת ומדגימים את האינטראקציה של המודולים הללו במערכת שכזאת. אנו מבצעים ניתוח של הרכיבים: פרופיל משתמש, יומן שימוש ואחזור מידע ברשת. רכיבים אלו מתוארים בפירוט יתר בפרקים 3 ו-4, בהתאמה.

המאמר כולל ניתוח של השיטות הנמצאות בשימוש וכן נושאים טכניים רלוונטיים, ובנוסף סקירה כללית על כלים ויישומים הזמינים אצל ספקי תוכנה. בפרק 5 אנו מציגים את היוזמות המחקריות החשובות ביותר בתחום של אחזור מידע ברשת והתאמה אישית.

בנספחים א' ו-ב' רשימות של ראשי תיבות וקיצורים וכן מוצגים אזכורים ברשת. בנספח ג' מוצגים בטבלאות השוואתיות הכלים הייצוגיים ביותר לביצוע פרופיל משתמש ואחזור מידע ברשת, וכן היוזמות המחקריות החשובות ביותר בתחום אחזור המידע ברשת וההתאמה האישית של הרשת.

התאמה אישית של הרשת

ניתן לתאר התאמה אישית של אתר כתהליך ההתאמה של התוכן והמבנה של אתר לצרכים הספציפיים והאישיים של כל משתמש תוך ניצול המידע אודות הרגלי הגלישה של המשתמש. שלבי ההתאמה האישית של הרשת כוללים:

(א) איסוף נתוני רשת, (ב) הכנת מודלים וסיווג האינפורמציה (שלב העיבוד המקדים), (ג) ניתוח המידע שנאסף, ו-(ד) קביעת הפעולות שצריך לנקוט. הדרכים הנמצאות בשימוש לעיבוד הנתונים שנאספו כוללות סינון על פי תוכן, סינון תוך כדי שיתוף פעולה, סינון על פי חוקים, ואחזור מידע ברשת. האתר מותאם אישית באמצעות הדגשה של קישורים קיימים, שיבוץ דינמי של קישורים חדשים התואמים את תחומי העניין של משתמש נוכחי, או אפילו יצירה של דפי אינדקס.

מערכות סינון על פי תוכן מבוססת אך ורק על ההעדפות האישיות של המשתמש. המערכת מאתרת את הרגלי המשתמש ומציגה בפניו אופציות התואמות לפריטים שמצאו חן בעיניו בעבר.

מערכות סינון תוך כדי שיתוף פעולה מזמינות את המשתמשים לדרג אובייקטים או לחשוף את ההעדפות ותחומי העניין שלהם ואז הן מציגות אינפורמציה הצפויה לעניין אותם. המערכת מבוססת על ההנחה שמשתמשים בעלי התנהגות דומה (כגון, משתמשים המדרגים אובייקטים באופן דומה) הנם בעלי תחומי עניין מקבילים.

בסינון על פי חוקים מתבקשים המשתמשים לענות על סדרה של שאלות. השאלות נלקחות מעץ החלטות, כך שככל שהוא מתקדם בהשבה לשאלות, התוצאה הסופית שיקבל (כגון, רשימת מוצרים) מותאמת לצרכיו האישיים. ניתן לשלב יחד סינון על פי תוכן, סינון על פי חוקים וסינון תוך כדי שיתוף פעולה, על מנת להשיג מסקנות מדויקות יותר.

המאמר מתמקד באחזור מידע ברשת. תהליך זה מסתמך על יישום שיטות של אחזור סטטיסטי ואחזור מידע על יומן נתוני הרשת, והתוצאה היא סדרה של דפוסי התנהגות המצביעים על הרגלי הגלישה של המשתמשים. שיטות אחזור המידע הנמצאות בשימוש: אחזור אסוציאטיבי על פי חוקים, חשיפת דפוס סדרתי, קיבוץ, סיווג. לאחר מכן משמש המידע לשינוי האתר בהתאם להתנהגות והפרופיל של כל משתמש.

תרשים הזרימה המומחש בתרשים 1 מציג את הארכיטקטורה המעשית של מערכת התאמה אישית של אתר במושגים של מודולים ומשאבי נתונים שתוארו קודם לכן. רכיב ניהול התוכן מעבד את תכני האתר ומסווגם בקטגוריות רעיוניות. ניתן להעשיר את תכני האתר באינפורמציה נוספת הלקוחה ממקורות שונים ברשת, תוך שימוש בטכניקות חיפוש מתקדמות. בהסתמך על מבנה מפת האתר ויומני השימוש, אחזור המידע ברשת מספק תוצאות בנוגע לדפוסי שימוש, הרגלי משתמש, סטים של פעולות וקבוצות משתמשים, אינפורמציה אודות רצף הקלקות (clickstream) וכן הלאה.

ניתן להשיג מידע נוסף אודות משתמשים בודדים באמצעות פרופיל משתמש. יתרה מזאת, ניתן להוסיף לפרופיל המשתמש כל אינפורמציה בקשר להרגלי הגלישה של המשתמש הלקוחה מתהליך אחזור המידע ברשת. כל המידע אודות צמתים (nodes), קישורים, תכני רשת, התנהגות אופיינית, ודפוסים מתומצתת באופן רעיוני ומסווגת לקטגוריות סמנטיות. כל מידע הלקוח מיחסי הגומלין שבין הידע הנרכש משימוש בטכניקות אחזור וידע הנרכש מניהול התוכן ישמש את המסגרת להערכת אלטרנטיבות אפשריות לשינוי מבנה האתר. מנגנון פרסום יבצע את השינויים באתר, תוך שמירה על כך שכל משתמש מנווט דרך מבנה האתר האופטימלי. אפשרויות התוכן הזמינות לכל משתמש ידורגו בהתאם לתחומי העניין של המשתמש.

אפיון משתמש

על מנת לבצע התאמה אישית של אתר, על המערכת לבצע הבדלה בין משתמשים שונים או קבוצות של משתמשים. תהליך זה מכונה אפיון משתמש ומטרתו היא יצירת בסיס מידע המכיל את ההעדפות, מאפיינים, והפעילויות של המשתמשים. בתחומי הרשת ובעיקר במסחר האלקטרוני, התחום של אפיון משתמש מפותח באופן משמעותי מכיוון שטכנולוגיות אינטרנט מאפשרות לאסוף ביתר קלות מידע אודות משתמשים של אתר, ובמקרה של אתרי מסחר אלקטרוני מדובר בלקוחות פוטנציאליים.

פרופיל משתמש יכול להיות סטטי, כאשר המידע שנכלל בו משתנה לעיתים רחוקות או לא משתנה כלל (כגון מידע דמוגרפי), או דינמי כאשר נתוני פרופיל המשתמש משתנים לעיתים קרובות. המידע נאסף באופן מפורש, תוך שימוש בטפסי רישום ושאלונים מקוונים והתוצאה היא פרופיל משתמש סטטי, או מבלי ידיעת המשתמש, באמצעות תיעוד הרגלי הגלישה ו/או ההעדפות של כל משתמש, והתוצאה היא פרופיל משתמש דינמי. במקרה השני, קיימות שתי אפשרויות נוספות: התייחסות לכל משתמש כאל חלק של קבוצה ויצירה של פרופיל משתמש מעורב, או התייחסות לכל שינוי אצל משתמש בנפרד. כאשר מתייחסים למשתמשים כאל קבוצה, השיטה הנמצאת בשימוש היא יצירת אפיוני משתמשים מעורבים המבוססים על חוקים ודפוסים הלקוחים משימוש בטכניקות של אחזור מידע ברשת על יומנים של שרתי רשת. ניתן להתאים את האתר באופן הולם באמצעות שימוש במידע הזה.

בפרקים הבאים, נתאר מספר דרכים לאיסוף נתוני פרופיל משתמש עם ובלי ידיעת המשתמש. נעסוק בנושאי פרטיות העולים במהלך אפיון משתמש, וכן נציג סקירה כללית על כלים ואפליקציות זמינים לאפיון משתמשים.

איסוף נתונים

דרך לזיהוי בלעדי של מבקר המבצע סדרת פעולות היא שימוש בעוגיות (cookies).

W3C [WCA] מגדיר עוגיה כ"נתונים הנשלחים על ידי שרת רשת למשתמש רשת, נשמרים מקומית על ידי המשתמש ונשלחים חזרה לשרת בשל בקשות נוספות". במילים אחרות, עוגיה היא מסר HTTP פשוט המכיל שרשרת טקסט, והמשובץ לתוך הזיכרון של הדפדפן. נעשה בו שימוש לזיהוי בלעדי של משתמש במהלך פעילות רשת בתוך אתר והוא מכיל פרמטרים המאפשרים לשרת ה- HTML המרוחק לתעד את זהות המשתמש, ואילו פעולות הוא עושה באתר המרוחק.

באופן כללי, מידע אודות זהות המבקר נשמר, יחד עם מידע אודות סיסמאות. ניתן לכלול מידע נוסף, כגון פרטי כרטיס אשראי, במידה ונעשה בו שימוש במהלך עסקה, וכן פרטים אודות פעילות המבקר באתר, לדוגמא, באילו דפים ביקר, אילו רכישות נעשו, או אילו פרסומות נבחרו. לעיתים קרובות, עוגיות חושפות מידע מפורט יותר על הלקוח השמור בשרת הרשת.

דרך נוספת לזיהוי בלעדי של משתמשים באמצעות פעילות ברשת היא על ידי שימוש ב-identd, פרוטוקול זיהוי המתואר ב-RFC 1413 המספק דרך לקביעת הזהות של משתמש בחיבור TCP מסוים. בהנתן מספר TCP, מוחזרת שרשרת אותיות, המזהה את בעל החיבור (המשתמש) במערכת שרת הרשת.

לבסוף, ניתן לזהות את המשתמש תוך הנחה כי כל IP מתאים למשתמש יחיד. בחלק מהמקרים, כתובות IP ממופות לשמות תחומים (domains) הרשומים על שם אדם או חברה, וכך נאסף מידע ספציפי עוד יותר.

כפי שכבר הוזכר, מידע המשמש ליצירת פרופיל משתמש ניתן להשגה באופן מפורש באמצעות טפסי הרשמה מקוונים בהם מבוקש מידע אודות המבקר, כגון שם, גיל, מין, העדפות וכו'. המידע נשמר בבסיס נתונים, ובכל פעם שהמשתמש מתחבר לאתר, המידע מאוחזר ומעודכן בהתאם להתנהגות הניווט והרכישה של המבקר.

לכל הטכניקות של אפיון משתמש המוזכרות לעיל קיימים חסרונות מסוימים. קודם כל, במקרה שהמערכת תלויה בעוגיות לאיסוף מידע אודות המשתמש, קיימת אפשרות כי המשתמש כיבה את האפשרות של תמיכת הדפדפן שלו בעוגיה. בעיות נוספות שעלולות להיגרם תוך כדי השימוש בטכנולוגיית עוגיות הן העובדה שקובץ עוגיה נשמר מקומית במחשב של המשתמש, המשתמש עלול למחקו וכאשר יבקר פעם נוספת באתר יוערך כמבקר חדש. יתרה מזאת, במידה ולא קיימת אינפורמציה נוספת (כגון, זיהוי התחברות כלשהו), תחול בעיית זיהוי במידה ויותר ממשתמש יחיד גולש ברשת מאותו המחשב.

בעיה דומה מתרחשת כאשר משתמשים ב-identd, לאור העובדה שיש להגדיר את המשתמש באופן המאפשר העברת זיהויו בטקסט פשוט. בעיה פוטנציאלית בזיהוי משתמשים תוך שימוש בהפרדת כתובות IP, הנה שברוב המקרים הכתובת היא של ספק השירות (ה-ISP), והדבר אינו מספיק לציון המיקום של המשתמש. מאידך גיסא, כאשר אוספים מידע באמצעות טפסי רישום או שאלונים, משתמשים רבים מספקים מידע שקרי על עצמם ועל תחומי העניין שלהם והתוצאה הנה יצירת פרופיל מטעה.

נושאי פרטיות

הנושא החשוב ביותר בו אנו נתקלים בתהליך יצירת פרופיל משתמש הנו פגיעה בפרטיות. משתמשים רבים נמנעים ממסירת מידע אישי באופן בלתי מודע כפי שהוזכר קודם לכן, או באופן מפורש, בהיסוסם להיכנס לאתרים שמשתמשים בעוגיות (במידה והם מודעים לקיומן) או בהימנעותם מחשיפת נתונים אישיים בטפסי הרשמה. בשני המקרים המשתמש מאבד אנונימיות ומודע לכך שכל פעולותיו יתועדו וייעשה בהן שימוש, במקרים רבים ללא הסכמתו. בנוסף לכך, אפילו אם משתמש הסכים לספק לאתר מידע אישי, דרך טכנולוגיית עוגיה קיימת אפשרות שמידע יועבר בין אתרים, והתוצאה הינה חשיפה ללא רשות המשתמש. P3P – Platform for Privacy Preferences ( מצע להעדפות פרטיות) הוא המלצה [P3P] של W3C והוא מציע תשתית לפרטיות החלפת המידע. הסטנדרט הנ"ל מאפשר לאתרים לבטא את נוהלי הפרטיות שלהם בפורמט סטנדרטי שניתן לאחזור והבנה על ידי משתמשים. לכן, תהליך הקריאה של נוהלי פרטיות יהיה פשוט יותר עבור המשתמשים, מכיוון שמידע חשוב אודות אילו נתונים אוסף האתר עוברים אוטומטית למשתמש, והסתירות בין נוהלי האתר ובין העדפות המשתמש בנוגע לחשיפת פרטים אישיים יסומנו אוטומטית. עם זאת, P3P לא מספק שיטה להבטיח שאתרים אכן יפעלו בהתאם למדיניות המוצהרת שלהם.

כלים ויישומים

בפרק זה נציג כמה מהאתרים הפופולריים ביותר העושים שימוש בדרכים כגון מדריכי עץ החלטות, סינון תוך כדי שיתוף פעולה, ועוגיות במטרה לאפיין את המשתמשים וליצור דפי אתר מותאמים. כמו כן, ניתן סקירה קצרה אודות הכלים החשובים ביותר שניתן להשיג לביצוע אפיון משתמש. נספח טבלה א1 כולל סקירה כללית ואזכור מוצרים.

אתרים פופולריים כגון Yahoo! [YAH], Excite [EXC], Microsoft Network [MSN] מאפשרים למשתמשים לשנות את אתרי הבית על פי בחירתם את התכנים הזמינים, תוך שימוש במידע שהמשתמשים מספקים ולאחר מכן בעוגיות. בדרך זו, בכל עת שהמשתמש נכנס לאתר, הוא רואה דף המכיל מידע הקולע לתחומי העניין שלו.

קמעונאים כמו Dell [DEL] Apple Computer [APP] עושים שימוש בסינון המבוסס על חוקים, כדי לאפשר למשתמשים לשנות בקלות קונפיגורציות של מוצרים טרם הזמנתם. בנוגע למערכות של המלצה, הדוגמא הפופולרית ביותר היא Amazon.com

[AMA].

המערכת מנתחת את הרכישות שבוצעו ומפרסמת הצעות בדף ההמלצות המותאם של הקונה. משתמשים המבצעים רכישה בפעם הראשונה יכולים לדרג ספרים ולצפות ברשימות של ספרים שעשויים לעניין אותם. אותה גישה, המבוססת על דירוג משתמש, נמצאת בשימוש בחנויות רשת רבות, כגון CDNOW [CDN].

גישה מעניינת נוספת היא של Food.com [FOO]. המשתמשים אינם נדרשים למלא כל טופס על מנת להזמין מזון ממסעדה מסוימת הממוקמת בקרבת מקום. ההתאמה מתבצעת אוטומטית כאשר המשתמשים נותנים מידע הדרוש למשלוח או האיסוף של המזון, משום שנתוני המיקוד מספקים את המידע הדרוש למציאת מסעדות בקרבת מקום.

לאתרים מסחריים, לרבות מנועי חיפוש כגון Alta Vista [ALT] Lycos [LYC], יש קשרים עם חברות שיווק מסחריות כמו DoubleClick Inc [DCL]. האתרים הללו משתמשים בעוגיות כדי לנטר את פעילות המבקרים שלהם, והמידע שנאסף נשמר כפרופיל בבסיס הנתונים של DoubleClick. לאחר מכן עושה DoubleClick שימוש בנתוני הפרופיל כדי להחליט אילו פרסומות או שירותים יוצעו לכל לקוח כאשר הוא מבקר בכל אחד מהאתרים המזוהים עם DoubleClick. כמובן שהמידע נאסף ונשמר ללא ידיעת המשתמש ויתרה מזאת, ללא הסכמתו.

קיימות מספר מערכות ליצירת פרופיל משתמש. הן משתנות בהתאם לשיטת אפיון המשתמש שהן מנצלות. נכללות בהן:

  • Broadvision's One-To-One [BRO], כלי שיווק בטכנולוגיית קצה שעוצב על מנת לאפשר לאתרים לזהות לקוחות ולהציג מוצרים ושירותים רלוונטיים (בין הלקוחות Kodak Picture Network, ו-US West);
  • Net Perceptions' GroupLens [NPE], פתרון סינון שיתופי הדורש ממשתמשים אחרים לדרג תכנים באופן פעיל או סביל (בין הלקוחות Amazon.com ו-Musicmaker);
  • Open Sesame's Learn Sesame [OSE], מוצר המבוסס על עוגיות (בין הלקוחות Ericsson & Toronto Dominion Bank);
  • המוביל הראשון בתחום הסינון השיתופי Firefly Passport [MSF], פותח על ידי MIT Media Lab וכעת בבעלות Microsoft (בין הלקוחותYahoo, Ziff-Davis, Barnes & Noble);
  • Macromedia's LikeMinds Preference Server [MIC], עוד מערכת סינון שיתופית הבודקת התנהגות של משתמשים ומאתרת משתמשים נוספים בעלי התנהגות דומה במטרה לחזות או להמליץ על מוצר (בין הלקוחות Cinemax-HBO's Movie Matchmaker, Columbia House's Total E entertainment );
  • Neuromedia's NeuroStudio [NME], תוכנת סוכן-חכם (Intelligent-agent) המאפשרת לאחראי הרשת לספק למשתמשים אופציה של יצירת פריסה מותאמת של דפים, תוך שימוש בעוגיות או חיבור (log-in) של משתמש (בין הלקוחות Intel, Y2K Links Database);
  • Apple's WebObjects [APP], סדרה של כלי פיתוח המאפשרים לעצב נתונים באופן מותאם. (בין הלקוחות The Apple Store, Cybermeals ).
    [Dean 1998]

מסקנות

אפיון משתמש הוא תהליך של איסוף אינפורמציה אודות המאפיינים, ההעדפות, והפעילויות של מבקרים באתר. ניתן לבצע זאת באופן מפורש או ללא ידיעת המשתמש. איסוף מפורש של נתוני פרופיל משתמש מבוצע באמצעות טפסי הרשמה מקוונים, שאלונים מקוונים וכדומה. קיימות שיטות שונות לאיסוף של נתוני פרופיל ללא ידיעת המשתמש החל מהשימוש בעוגיות או טכנולוגיות דומות וכלה בניתוח הרגלי הגלישה של המשתמש הניתן לביצוע באמצעות טכניקות של אחזור אופן השימוש ברשת (web usage mining).

ניכר כי על מנת להתאים אישית אתר, נחוץ לבצע תהליך של אפיון משתמש. עם זאת, כל שיטה המיושמות למטרה זו הנה בעלת חסרונות מסוימים. הנושא החשוב ביותר אליו צריך להתייחס הנו הפרת הפרטיות של המשתמש. P3P הוא הסטנדרט המאפשר לאתרים לבטא את נוהלי הפרטיות שלהם בפורמט סטנדרטי הניתן לאחזור והבנה על ידי משתמשים. בדרך זו, תהליך הקריאה של מדיניות הפרטיות הופך פשוט יותר, אולם,

P3P לא מספק שיטה להבטיח שאתרים אכן יפעלו בהתאם למדיניות המוצהרת הזו.

המטרה של אחזור אופן ההשימוש ברשת הנה לאסוף אינפורמציה בנוגע להרגלי הגלישה של מבקרי אתר. אף על פי כן ניתן להתייחס אל תהליך זה כחלק מיצירת פרופיל משתמש; ועל כן ניתן להבחין כי קיימת חפיפה בין שני המודולים והם מהווים בסיס חשוב בתהליך ההתאמה האישית של הרשת.

ניתוח יומני רשת ואחזור שימוש ברשת

מטרת האחזור של השימוש ברשת הנה לחשוף ידע החבוי בקבצי היומן (Log) של השרת. שיטות של סטטיסטיקה ואחזור מידע המיושמות על נתוני יומן השימוש, מאפשרות לזהות דפוסים מעניינים של הרגלי גלישה של משתמשים, כגון קבוצות של משתמשים ודפים, וכן קורלציות אפשריות בין דפי אינטרנט וקבוצות משתמשים.

ניתן להתייחס לתהליך האחזור של נתוני השימוש ברשת כתהליך בעל שלושה שלבים, הכולל שלבים של הכנת נתונים, מציאת דפוס קבוע, וניתוח דפוס קבוע

[Srivastava et al. 2000]. בשלב הראשון, מעובדים נתוני יומן השימוש במטרה לזהות משתמשים, סטים של פעולות, תצוגות דפים, וכן הלאה. בשלב השני מיושמות שיטות סטטיסטיות ושיטות של אחזור מידע (כגון חוקי אסוציאציות, מציאת דפוס חוזר, קיבוץ, וסיווג) במטרה לגלות דפוסים מעניינים. הדפוסים החוזרים נשמרים במערכת ועוברים ניתוח נוסף בשלב השלישי של תהליך אחזור נתוני השימוש ברשת.

תיאור השדות הכלולים ברישום לוגי של נתוני השימוש ברשת בא לאחר סדרת הגדרות של נתוני רשת מופשטים, כגון אתר אינטרנט, סדרת פעולות משתמש, תצוגות דף, ורצף הקלקות. נדון בהמשך בנושאים טכניים הקשורים בסידור הנתונים. בנוסף נציג ניתוח מפורט יותר של הדרכים הנמצאות בשימוש בתהליך אחזור נתוני השימוש ברשת כולל ניתוח פשוט של יומן. לבסוף, ניתן סקירה קצרה אודות הכלים והאפליקציות המסחריים הקיימים בשוק המתמחים בניתוח יומני שימוש או אחזור נתוני שימוש ברשת.

יומני רשת

כל כניסה לדף אינטרנט נרשמת ביומן הגישה של השרת המארח אותו. הערכים של קובץ היומן מורכבים משדות בפורמט קבוע. השדות של יומן רשת בפורמט שכיח הם:

Remotehost rfc931 authuser date "request" status bytes

כאשר remotehost הוא שם המארח המרוחק (או מספר IP אם שם מארח ה-DNS לא זמין); rfc931, שם היומן המרוחק של המשתמש; authuser, השם בו הזדהה המשתמש, (האפשרות זמינה כאשר משתמשים בדפים המוגנים על ידי סיסמה); date, תאריך וזמן הבקשה; "request", שורת הבקשה בדיוק כמו שהגיע מהלקוח (הקובץ, השם, והשיטה לאחזור); status, קוד סטטוס ה-HTTP שחזר אל הלקוח, מציין האם הקובץ אוחזר בהצלחה ואם לא, אילו הודעות שגיאה התקבלו; ו-bytes, כמות התוכן במסמכים שעברו. בשדה לא מוגדר יוצב סימן מינוס (-).

לאחרונה הציגה [W3Clog] W3C פורמט משופר של קבצי יומן של שרתים, המכונה פורמט "מורחב" של קבצי יומן. חלק מהמניע להצגתו היה הצורך לספק תמיכה בתהליך איסוף הנתונים עבור ניתוח דמוגרפי וסיכומי יומן. הפורמט מאפשר להקליט קבצי יומן מותאמים בפורמט הניתן לקריאה על ידי כלי ניתוח גנריים. ההרחבה העיקרית שהוספה לפורמט הנפוץ של היומן היא הוספה של מספר שדות. החשובים ביניהם הם: מפנה (referrer), שהוא ה-URL הקודם אותו ביקר הלקוח, סוכן_משתמש (user_agent), שהיא התוכנה בה משתמש הלקוח ועוגיה (cookie), במידה והאתר הנדון עושה שימוש בעוגיות.

באופן כללי, פורמט מורחב של יומן מורכב מרשימת תחיליות כגון

c (Client), s (Server), r (Remote), cs (Client to Server), sc (Server to Client), sr (Server to Remote server), rs (Remote server to Server ),
x (application – specific identifier)

ורשימה של מזהים כגון date, time, ip, dns, bytes, cached, status, הערות (מוחזרות על קוד סטטוס), method, uri, uri-stem, ו-uri-query. באמצעות השימוש בחלק מהתחיליות והמזהים הנזכרים לעיל, ניתן לשמור מידע נוסף כגון כתובות ה-IP של הפונה, או מילות מפתח בהן נעשה שימוש במנועי חיפוש.

הפשטה של נתוני רשת

בתחומי האינטרנט, נזכרות מספר הפשטות, בנוגע לשימוש ברשת, תוכן, ומבנה. ה-Web Characterization Activity של W3C פרסם נוסח הקובע סמנטיקה מדויקת של רעיונות כמו אתר אינטרנט, משתמש, סדרת פעולות משתמש, סדרת פעולות של שרת, תצוגות דף, ורצף הקלקות.

אתר אינטרנט מוגדר כאוסף של דפים מקושרים, הכוללים דף מארח, ומתקיימים במיקום יחיד ברשת. משתמש בהקשר של הרשת, הנו אדם הנכנס לקבצים דרך שרת, באמצעות דפדפן. סדרת פעולות של משתמש מוגדר כסדרה מוגבלת של הקלקות משתמש בתוך שרת אחד או יותר. סדרת פעולות של שרת מוגדר כאוסף של הקלקות משתמש בתוך שרת יחיד במהלך סדרת פעולות של משתמש. קרוי גם בשם ביקור. תצוגת דף מוגדרת כתצוגה הויזואלית של דף אינטרנט בסביבה ספציפית בנקודת זמן מסוימת. במילים אחרות, תצוגת דף מכילה מספר פריטים, כגון מסגרות, טקסט, גרפיקה וכיתוב המרכיבים דף אינטרנט בודד. רצף הקלקות הוא סדרה רציפה של בקשות לתצוגות דף, המיוצרת על ידי משתמש בודד.

עיבוד נתונים מקדים

קיימים מספר נושאים טכניים חשובים שצריך לקחת בחשבון במהלך השלב הזה בהקשר של תהליך ההתאמה האישית של הרשת, מכיוון שיש צורך להכין ולבצע עיבוד מקדים של נתוני

יומן הרשת על מנת לעשות בהם שימוש בשלבים הבאים של התהליך. תיאור נרחב של שיטות ההכנה והעיבוד המקדים של נתונים ניתן למצוא ב- [Cooley et al.1999a] . בהמשך, אנו מספקים סקירה קצרה אודות השיטות החשובות ביותר.

הנושא הראשון בשלב העיבוד המקדים הוא הכנת הנתונים. בהתאם לאפליקציה, היומנים של נתוני הרשת ינוקו מערכים הקשורים לדפים שהחזירו הודעת שגיאה או גישות של קבצי גרפיקה. במקרים מסוימים המידע הנ"ל יוכל להועיל, אולם במקרים אחרים יש לנקות את הנתונים הללו מקבצי היומן. יתר על כן, ניתן לסנן פעילות של סורק רשת (crawler), מכיוון שהערכים הללו אינם מספקים מידע שימושי אודות שימושי האתר. בעיה נוספת שיש לפתור היא זיכרונות מטמון (caching). גישה לדפי מטמון אינה מתועדת ביומן, ועל כן המידע אובד. הזיכרון תלוי מאד בטכנולוגיה בה משתמש הלקוח ולכן הטיפול בנושא לא פשוט. היבט שימושי נוסף הוא לבצע זיהוי של תצוגת דף, תוך קביעה אילו קבצים תורמים לתצוגה של דף בודד. שוב ההחלטה תלויה ביישום.

החשוב ביותר הוא נושא זיהוי המשתמש. קיימות מספר דרכים לזיהוי מבקרים בודדים. הפיתרון המובן מאליו הוא להניח כי כל כתובת IP מזוהה עם משתמש אחד בלבד. אף על פי כן, דרך זו אינה מהימנה, מכיוון שלדוגמה, משתמש יכול להיכנס לרשת ממספר מחשבים, או שמשתמשים רבים עובדים עם כתובת IP זהה (אם נעשה שימוש בשרת פרוקסי). עוד ניתן להניח, שכניסות רציפות ממארח זהה בפער זמנים מסוים מבוצעות על ידי אותו משתמש. גישות נכונות יותר לזיהוי ייחודי של מבקרים הן השימוש בשיטות כמו עוגיות וכדומה או הדרישה לרישום משתמש. עם זאת, בעיה פוטנציאלית עלולה תהיות היעדר רצון של המשתמשים לחשוף מידע אישי. בהנחה שהמשתמש זוהה, הצעד הבא הוא לבצע זיהוי של סדרת פעולות, על ידי חלוקת רצף ההקלקות של המשתמש לסטים של פעולות. הפתרון השכיח במצב הזה הוא להציב מגבלת זמן מינימאלית ולהניח כי כניסות עוקבות במהלכה שייכות לסדרה אחת, או להציב מגבלת זמן מקסימאלית, כאשר שתי כניסות עוקבות החורגות ממנה שייכות לסדרות שונות.

ניתוח יומני רשת

כלי הניתוח של יומני הרשת (המכונים כלי ניתוח תנועה) מעבדים נתוני רשת גולמיים במטרה למצוא אינפורמציה סטטיסטית. המידע הנ"ל כולל סטטיסטיקה אודות פעילות האתר (כגון מספר ביקורים, ממוצע כניסות, כניסות מוצלחות/נכשלות/מנותבות מחדש/חבויות, ממוצע זמן צפייה, וממוצע אורך הנתיב שעבר באתר), אבחון סטטיסטי (כגון שגיאות שרת, ושגיאות "האתר לא נמצא"), סטטיסטיקת שרת (כגון דפים פופולאריים ביותר, דפי כניסה/יציאה, ודפי כניסה חד פעמית), סטטיסטיקת הפנייה (כגון אתרי ההפניה, מנועי החיפוש ומילות המפתח השכיחות ביותר), דמוגרפית משתמש (כגון אתרים גיאוגרפיים ראשיים, והארצות/הערים/הארגונים הפעילים ביותר), סטטיסטיקת לקוח (דפדפן המבקר, מערכת הפעלה, ועוגיות), וכן הלאה.

כלים מסוימים מבצעים ניתוח של רצף הקלקות, המתייחס לזיהוי הנתיב שעברו משתמשים בודדים באתר באמצעות קיבוץ של כניסות עוקבות ב-IP זהה, או כוללים ניתוח שיטתי של הודעות שגיאה, כגון איתור נקודות כניסה לא מאושרות או מציאת URL פסול שכיח ביותר. הסטטיסטיקות הללו הן בדרך כלל פלט של הדו"חות וניתן להציגן בתור תרשימים.

מנהלי רשת משתמשים במידע הנ"ל לשיפור ביצועי המערכת, לקידום משימת שינוי האתר, ולספק תמיכה להחלטות שיווקיות [Srivastava et al. 2000]. עם זאת, רוב המערכות המתקדמות לאחזור מידע ברשת מבצעות עיבוד נוסף של המידע על מנת לבצע הבחנות מורכבות יותר המשקפות ידע, תוך שימוש בטכניקות אחזור מידע כגון חוקי אסוציאציות וגילוי דפוס חוזר, קיבוץ, וסיווג. הטכניקות הללו מתוארות בהמשך.

אחזור אפיוני השימוש ברשת

שיטת ניתוח יומן השימוש נחשבת לפשוטה ביותר הנמצאת בשימוש בתהליך אחזור השימוש ברשת. המטרה של אחזור השימוש ברשת הנה להפעיל טכניקות של סטטיסטיקה ואחזור מידע על נתוני היומן שעברו עיבוד ראשוני, על מנת למצוא דפוסים שימושיים. כפי שהוזכר לעיל, ניתוח סטטיסטי היא השיטה הנפוצה והפשוטה ביותר שניתן להפעיל על נתונים שכאלה. שיטות מתקדמות יותר של אחזור מידע ואלגוריתמים מותאמים לשימוש בתחומי הרשת כוללים שיטות אסוציאציה, גילוי דפוסים חוזרים, קיבוץ, וסיווג.

שיטת אחזור חוקי אסוציאציות משמשת למציאת דפוסים המופיעים לעיתים קרובות, אסוציאציות, והתאמות בין סדרת פריטים. חוקי אסוציאציות משמשים לחשיפת התאמות בין דפים אליהם נעשתה גישה במהלך סדרת פעולות של שרת. החוקים הללו מצביעים על הקשר אפשרי בין דפים הנצפים ביחד לעיתים קרובות גם אם אין ביניהם חיבור ישיר, ויכולים לחשוף קשרים בין קבוצות של משתמשים בעלי תחומי עניין מסויימים. מלבד ניצול ההבחנות הללו למטרות עסקיות, ניתן להשתמש בהן כמדריך לבניה מחדש של אתרים, לדוגמא, הוספת קישורים לחיבור פנימי של אתרים הנצפים לעיתים קרובות יחד, או כדרך לשפר את ביצועי המערכת דרך הכנה מקדימה של נתוני הרשת.

גילוי דפוסים חוזרים הוא הרחבה של אחזור חוקי אסוציאציות בכך שהוא חושף דפוסים של התרחשות בו זמנית המשלבים את הרעיון של רצף זמנים. בתחומי הרשת דפוס שכזה יכול להיות דף או סדרה של דפים שנכנסו אליהם מיד לאחר סדרה נוספת של דפים. השימוש בגישה הזו, מביא לגילוי של נטיות משתמשים שכיחות, וניתן לחזות דפוסים של ביקורי משתמשים ברשת.

קיבוץ (Clustering) מבוצע על מנת לבצע איחוד של פריטים בעלי מאפיינים דומים. בהקשר של אחזור מידע ברשת, ניתן להבחין בשני מקרים, קיבוץ משתמשים וקיבוץ דפים. קיבוץ דפים מזהה קבוצות של דפים הנראים כבעלי הקשר רעיוני בעייני המשתמש. התוצאה של קיבוץ משתמשים היא קבוצות של משתמשים הנראים כבעלי הרגלי גלישה דומים. ידע שכזה שימושי בתחומי המסחר האלקטרוני לביצוע פילוח שווקים אולם עוזר גם כשהמטרה היאהתאמה אישית של אתר.

תהליך הסיווג ממפה נתונים למספר סוגים קבועים מראש. בתחומי הרשת הסוגים בדרך כלל מייצגים מאפיינים שונים של משתמשים והסיווג מבוצע תוך שימוש בתכונות קבועות המתארות את קטגוריית המשתמש. האלגוריתמים השכיחים ביותר של סיווג הם עצי החלטות, רשתות עצביות, וכן הלאה.

לאחר חשיפת דפוסים מנתוני השימוש, יש לבצע ניתוח נוסף. המתודולוגיה המדוייקת שיש ליישם תלויה בטכניקה שיושמה לפני כן. הדרכים הנפוצות ביותר לניתוח הדפוסים הן על ידי שימוש בשיטה של חקר בסיס הנתונים בו שמורות התוצאות, או על ידי טעינת התוצאות אל תוך קוביית מידע ואז ביצוע של פעולות OLAP. בנוסף, טכניקות ויזואליות מאפשרות לפרש ביתר קלות את התוצאות. ניתן לעשות שימוש בתוצאות הללו בהקשר עם מידע אודות תוכן ומבנה האתר על מנת למצוא מידע שימושי לביצוע שינויים באתר בהתאם לקורלציה בין קבוצות משתמשים ותכנים.

כלים ואפליקציות

ניתן להבחין שאחזור השימוש ברשת הוא כלי חזק עבור תאגידים המושקעים במגזר המסחר האלקטרוני. יישום שיטות של אחזור השימוש ברשת על נתונים אודות פעילות מקוונת של הלקוחות מאפשר להם לרכוש מודיעין עסקי באמצעות ידע נרחב בצורה של חוקים ודפוסים חוזרים של הרגלי גלישה ורכישה של הצרכנים [Buchner and Mulvenna 1998]. כך יכולות החברות להשיג פרופילים של צרכנים ונתוני פילוח שוק המספקים להם יתרון תחרותי. אפילו במקרה של ארגונים קטנים יותר או אנשים פרטיים, ניתוח יומן השימוש ברשת ואחזור נתוני השימוש ברשת יכולים לעזור בשיפור ביצועי המערכת, בזיהוי מבקרי האתרים, ואף בהתאמה של אתריהם והפיכתם ליעלים יותר ופשוטים לשימוש. משום כך, קיים מגוון גדול של מוצרי ניתוח רשת, החל מכלי ניתוח תנועה וכלה בפתרונות CRM (ניהול יחסי לקוחות – Customer Relationship Management) משולבים. החשובים ביותר מביניהם מוצגים כאן. נספח טבלה א2 כולל סקירה כללית ואזכורי מוצר.

ניתוח של יומן השימוש הנו הצעד הראשון בתהליך אחזור נתוני השימוש ברשת ומבוצע על ידי כל השיטות המסחריות הקיימות. מרבית הכלים הציבוריים והחופשיים הנם מנתחי יומנים/תנועה ופעילותם מוגבלת להפקה של דו"חות סטטיסטיים. אפליקציות ציבוריות הן למשל Analog [ANA], WebLogs [CAP], WebLog [AWS], Ststat [STS], Follow 2 [MNO], WUM [WUM]. כולם מספקים למשתמש הקצה סדרה של דו"חות סטטיסטיים, וחלקם, כגון WebLog ו-Follow 2, מאתרים סדרות של פעולות משתמש על ידי הצגה של מידע ספציפי אודות כל מבקר בנפרד. WUM הנה אפליקציה מתקדמת יותר, שכן מקורה בפרוייקט מחקר. ניתן לתארה כמאחזר רצף, והנה מתאימה גם למציאת דפוסים חוזרים שכן היא נתמכת על ידי שפה של אחזור מחקרי בשם MINT. בנוסף קיימים מוצרים ושירותים חופשיים, כגון WebTrends [WTR], Funnel Web [QUE], Net Tracker [NTR], Mach 5 Faststats Analyzer [MAH], Sawmill [SAW], SurfStats Log Analyzer [SUR], Happy Log [HAP], Webfeedback [LIE], WebLog Manager Pro [MON]. אחדים מהם כגון Happy Log ו-Webfeedback הם בעלי יכולות מוגבלות, ומספקים דו"חות רק עבור סטטיסטיקה כללית וסטטיסטיקת שרת. שאר המוצרים מציעים פעולות מתקדמות יותר, אולם, הם אינם עושים שימוש בטכניקות של אחזור נתונים (מלבד מספר חברות המציעות בנוסף מערכות ושירותים בטכנולוגיית קצה. המוצרים הללו מיועדים לאנשים פרטיים או לתאגידים קטנים, המעוניינים בפתרון זול לאיתור וניתוח התנועה באתר שלהם (בדרך כלל).

תכונות מורכבות יותר מוצעות בפתרונות משולבים, שבדרך כלל מספקים מספר אלגוריתמים לאחזור מידע וכן שירותי אחסון נתונים, פלט לדו"חות, טבלאות, ותרשימים או אפילו מספקים המלצות בשפה טבעית. רובם הם חלקים של מוצרי CRM משולבים המאפשרים לחברה לאסוף מודיעין עסקי על ידי שילוב הידע שאוחזר מיומני רשת עם מידע אודות הלקוחות שנאסף ממקורות אחרים כגון אינפורמצית רישום, נתוני הפעלה (CRM ו-ERP), נתונים דמוגרפיים, וכדומה. המערכות הללו הנן חבילת פתרונות המותקנת על ידי החברה, או שרתי יישום חיצוניים (Application Service Providers, ASPs). האחרון הוא מגזר ההולך ונעשה פופולרי מכיוון ש-ASPs מציעים זמני יישום מהירים יותר ומחיר נמוך יותר מפתרונות התוכנה הרלוונטיים. ASPs בדרך כלל אוספים את נתוני הלקוח דרך דפדפן המשתמש. מערכות התוכנה המוכרות ביותר הן של Accrue [ACC], Elytics [ELY], E.piphany [EPI], Lumio [LUM], NCR [NCR], NetGenesis [NGE], Net Perceptions [NPE], Quest [QUE], Sane solutions [SAN], SAS [SAS], WebTrends [WTR]; מצד שני Coremetrics [COR], IBM Global Services [IGS], Personify [PER], WebSideStory [WSS], WebTrends מציעים שירותי ניתוח רשת חיצוניים. בנוסף מבצעים המוצרים/שרותים הללו ניתוח של אירועי מסחר אלקטרוני כגון מוצרים שנקנו או שיעור הקלקות על פרסומת המספקים אינדיקטורים לביצועים החשובים ביותר לאנשי השיווק של חברה. רובם כוללים מנועי OLAP.

ספקי תוכנה-פיתרונות CRM משולבים:Accrue's HitList מתמקדת בשווקי הביניים באמצעות ההעברה של מערכות ניטור מתוחכמות ו- Insight 5 פונה לאתרים גדולים ומורכבים יותר, ומאפשרים לחברות לנטר מסעי פרסום שיווקיים, לשמור על הלקוחות, ולקבוע שיעורי דפדוף-קנייה.

תוכנת Elytics משלבת נתונים מיומן הרשת עם נתונים מצידו של הלקוח ומצליבה אותם עם נתוני משתמש כגון מידות מסך, שפה מועדפת, וכן הלאה, ובכך יוצרת מערכת מעורבת המשלבת את היתרונות של מערכות התוכנה וה-ASPs.

E.piphany's Enterprise Insight מכילה כלים לניתוח יומני רשת ויומני שרתים מסחריים. בנוסף ניתן לשתף באמצעותו נתונים ממנוע ההתאמה האישית של E.piphany ולשלב מידע אודות מבקרי האתר עם נתוני לקוחות ממערכות הפעלה אחרות. ניתן להשתמש ב-Enterprise Insight לבד או כרכיב האנליטי של מערכת ה-E.5.

מעטפת המוצר של Lumio's Re:cognition מספקת את מסגרת ה-IT הדרושה לשיפור היעילות של עסקים אלקטרוניים באמצעות מוצרים משלימים התומכים באיסוף נתוני התנהגות, ניתוח נתונים, יצירת שימור ידע אודות נתונים וידע, פריסת ידע בזמן אמת, ומדידה של מדדים חשובים של ביצועים כדי לנטר ללא הרף את איכות האינטראקציה עם לקוחות.

כל ששת המוצרים במעטפת ה-Re:cognition, דהינו, Re:collect, Re:store, Re:search, Re:order, Re:action, Re:view הנם תואמים לסטנדרד.

NCR's E-Business Teradata @ctive Warehouse מכיל שרותים הממירים נתונים של יומני רשת, נתוני רישום, נתונים דמוגרפיים, ונתוני הפעלה. בנוסף הוא מספק כלי OLAP ותוכנת דיווח אנכית. כמו כן, ניתן להשתמש בו כקצה אחורי למנועי התאמה אישית.

NetGenesis's E-Metrics Solution Suite מספקת סדרה של אינדיקטורים לביצועים עיסקיים, כגון מועד התרחשות, תדירות, ערך כספי, ומשך המאפשרים לחברות להעריך את האתר שלהן. השילוב של נתוני לקוח, נתונים פיננסיים, ונתוני אתר מכונה E-Metrics וניתן להעברה באמצעות דו"חות המופקים על ידי תוכנת הדיווח InfraLens. ניתן להתאים את הדיווח לכל משתמש בנפרד.

Net Perceptions's E-commerce Analyst בוחן את דפוסי המבקר כדי למצוא קורלציות בין לקוחות ומוצרים. התהליך כולו מורכב מארבע רוטינות, כלומר, הכנת נתונים, שינוי צורת נתונים, אחזור נתונים, וניתוח, המאפשרות ניצול יעיל של הצלבת מכירות.

מוצרי Funnel Web, באספקת Quest, מאפשרים ליצור רצף של פעולות הלקוחות מיומני השימוש של השרת ולהפיק דו"חות המכילים מידע אודות המשתמש והתנהגותו. התוכנה תומכת במגון שפות ומאפשרת לבצע התאמה אישית של הדוחות.

Sane Solutions's NetTracker , הינו כלי חזק לניתוחי רשת. המהדורות המתמקדות בשווקים הנמוכים והבינוניים מאפשרות שמירה של נתונים מפורטים במקום סיכומי נתונים שמוצרים רלוונטיים אחרים מספקים. מהדורת הקצה שלו מאפשרת לשלב בין נתוני יומן רשת ונתוני פעילות ממערכות CRM ו-ERP.

SAS היא ספקית של סדרת כלים ואפליקציות המאפשרים לבצע CRM אנליטי, ניהול אישי, אחסון נתונים, ואחזור מידע. פתרון ניתוח הרשת שלו הוא WebHound, המבצע ניתוח של רצף הקלקות באמצעות אינפורמציה מיומני רשת. Engage Profile Server יוצר פרופילים אנונימיים של מבקרים, ומאפשר לבצע התאמה אישית של שירותים. E-Discovery הנו פתרון CRM משולב. הוא מאפשר להצליב נתונים של רצף הקלקות עם רכישות, שירות לקוחות, נתונים דמוגרפיים, ונתונים פסיכוגרפיים אודות לקוחות החברה.

WebTrends היה אחד מהספקים הראשונים של מנתחי רשת זולים ופופולריים, עם תוכנת WebTrends Log Analyzer, אפליקציה המנתחת אתרים של שרת אחד. המוצר המתוחכם יותר שלהם הוא Commerce Trends, פלטפורמה המחלקת את נתוני יומן הרשת לרצפי פעולות, מטעינה אותם לתוך בסיס נתונים, ומאפשרת ליצור דוחות סטנדרטיים או מותאמים. WebTrends מציעה את פתרונות התוכנה שלה כפתרונות המתארחים ב-WebTrends Live ASP Service שלה.

ASPs: המוצר Coremetrics's eLuminate הנו שירות המקבל נתונים מ-JavaScript המשובץ בדפי אינטרנט באמצעות עוגיות לזיהוי מבקרים ומפיק דוחות אודות האפקטיביות של מסע פירסום ומאמצי השיווק של חברה.

Surfaid Analytics, שרות הניתוח של הרשת באספקת IBM מתמקד באספקת יכולות OLAP ואחזור נתונים בנוסף לדוחות מובנים.

המערכת מסננת נתוני יומן ויוצרת רצפי פעולות על ידי בנייה מחדש של הנתיב שעשה המשתמש דרך האתר באמצעות שילוב אינפורמציה כגון כתובת ה-IP של המשתמש, סמני זמן (timestamps), מחרוזות של גורמי משתמש, ועוגיות. הנתונים הללו נשמרים ב"קובייה" יחסית ותוכנת הקיבוץ של IBM מזהה מקטעי משתמש.

Central של Personify הוא מודל ASP המספק את אותם שירותים כמו Profit Platform, התוכנה שמספק Personify לניתוחי רשת. כך הוא מאפשר סינון ושילוב של יומני רשת, שרתים מסחריים, רישום, ועוד נתונים לתוך בסיס נתונים של מאפיינים המשמשים לאחר מכן ליצירת דוחות סטנדרטיים ופעולות OLAP.

תוכנת WebSideStory הייתה אחת מתוכנות ה-ASP האנליטיות הראשונות. פתרון ה-HitBox שלה מכיל קוד המשובץ בדפי הרשת של הלקוח ושולח נתונים לשרתים שלהם העוברים עיבוד נוסף. בהתאם למהדורה השירותים כוללים החל מסטטיסטיקת רשת פשוטה ועד ניתוח סטטיסטי מעמיק ותכונות מורחבות.

מסקנות

אחזור נתוני השימוש ברשת הנו תהליך החלת שיטות סטטיסטיות ושיטות של אחזור מידע על יומן השימוש ברשת במטרה למצוא דפוסים שימושיים הנוגעים להרגלי הגלישה של משתמשים, קבוצות של משתמשים ודפים, וכן התאמות אפשריות בין דפי אינטרנט וקבוצות משתמשים.

ניתן להשתמש בחוקים ובדפוסים שהתגלו לשיפור ביצועי המערכת או לביצוע שינויים באתר. ניתן לשלב את המידע מיומני הרשת עם נתוני לקוחות שנאספו ממערכות CRM ו-ERP, על מנת לאסוף מודיעין עסקי.

יש להתחשב במספר נושאים, כולל ההחלטות שיש לבצע במהלך סינון ועיבוד נתונים, זיהוי של משתמש וסדרת פעולות, וזיהוי תצוגת דף אינטרנט. נושא חשוב נוסף הוא בחירת שיטות אחזור המידע שיש ליישם.

לאחרונה נעשה שימוש באחזור השימוש ברשת בשילוב עם טכנולוגיות נוספות, כגון אפיון משתמש ובחלק מהמקרים עם אחזור תוכן, במטרה לספק תצוגה מאוחדת יותר של נתוני השימוש באתר, וכן להגביר את האפקטיביות של ההתאמה האישית.

יוזמות מחקריות

מספר רב של פרוייקטים מחקריים עוסקים לאחרונה באחזור נתוני השימוש ברשת וההתאמה האישית של הרשת. מרבית המאמצים מתמקדים במציאת דפוסים וחוקים שימושיים באמצעות טכניקות של אחזור מידע על מנת להבין את הרגלי הגלישה של המשתמשים, כך שאנשים יוכלו לבצע החלטות בנוגע לשינויי מבנה או התאמות אחרות של האתר. במקרים מסוימים, מנוע הצעות מסייע למשתמש לנווט דרך האתר. מערכות מתקדמות ופונקציונאליות יותר, מציגות את הרעיון של אתרי אינטרנט מסתגלים ומספקות דרכים לשינוי דינמי של מבנה האתר. כל מאמצי המחקר משלבים לפחות שתי שיטות התאמה אישית מהמוזכרות לעיל, דהיינו אפיון משתמש, שיטות של אחזור נתוני שימוש, ניהול תכנים, ושיטות פרסום. בהמשך נתאר בקצרה את מאמצי המחקר החשובים ביותר בתחומי אחזור נתונים והתאמה אישית.

בנספח ג' (טבלה ) מוצגת סקירה כללית אודות יוזמות מחקריות אלה.

אחד מהניסיונות הראשונים לנצל את המידע שניתן להשיג על ידי חקירת ניווטו של מבקר באתר אינטרנט [Lieberman 1995] הסתיימה ביצירת Letizia , סוכן משתמש ( client side agent ) המנטר את פעולת הדפדוף של המשתמש ומחפש הצעות לדפי אינטרנט "מעניינים". הסוכן סוקר את הדפים השכנים באמצעות חיפוש המורחב על ידי אלמנטים מסייעים המצביעים על תחומי עניין של המשתמש הלקוחים מהרגלי הגלישה שלו, ומייצר רשימת הצעות.

עבודתו של [Yan et al 1996] מציגה גישה לסיווג אוטומטי של מבקרי אתר בהתאם לדפוסי הכניסות שלהם. הגישה המוצעת מכילה שני מודולים: מודול לא מקוון המבצע ניתוח קבוצה על יומני הרשת ומודול מקוון השואף ליצירת קישור דינמי. כל משתמש מסווג לקבוצה אחת בהתאם לדפוסי הגלישה שלו. המחברים יישמו את המודול הלא מקוון (Analog) ותיארו בקצרה את דרכי הפעולה של המודול המקוון.

WebWatcher הנה אחת מהשיטות הפופולריות ביותר עוד מהימים הראשונים של אחזור נתוני השימוש ברשת [Joachims et al. 1997]. הרעיון הוא ליצור גורם שהוא מורה-דרך המספק למשתמש רמזי ניווט באמצעות אוסף נתון של פריטי רשת, המבוסס על הידע שלו אודות תחומי העניין של המשתמש, מיקומו והרלוונטיות של פרטים שונים במיקום, וכן האינטראקציה של משתמשים אחרים עם אותו אוסף בעבר. המערכת מתחילה באפיון המשתמש, ורוכשת מידע אודות תחומי העניין שלו. בכל פעם שהמשתמש מבקש דף, המידע מועבר דרך שרת פרוקסי (proxy) על מנת לאתר בקלות את סדרת הפעולות שעושה המשתמש באתר וכל הקישורים שעשויים לעניין אותו מודגשים. אסטרטגית הייעוץ משתנה בהתאם למשוב שמתקבל מהסיורים הקודמים. Personal WebWatcher [Mladenic 1999] הנה מערכת דומה, הבנויה להתמחות במשתמש מסוים, ולבטא את צרכיו. המערכת עוקבת אחר כתובות האתרים אותם ביקש אך ורק המשתמש הספציפי הזה ומדגישה קישורים מעניינים ללא התערבות מצד המשתמש, כפי שעושה WebWatcher המבקש מילות מפתח ואת דעתו של המשתמש.

[Chen et al. 1996] מציג את רעיון "העברת האזכור המקסימלית" (maximal forward reference) במטרה לאפיין את התנהגות המשתמש לצורך אחזור דפוסי הגלישה. העבודה מתבססת על איתור נתיבים חוזרים ומציאת חוקי אסוציאציות. העברת האזכור המקסימלית פירושה סדרת דפים שהמשתמש מבקש עד הדף האחרון לפני נסיגה אחורנית. פרוייקט ה-SpeedTracer [Wu et al.1998] בנוי על העבודה המוצעת על ידי [ Chen et al. 1996] SpeedTracer עושה שימוש בדף המפנה וב-URL של הדף המבוקש כצעד במסע הגלישה ובונה מחדש את שבילי הגלישה של המשתמש לזיהוי של סדרת הפעולות. כל סדרת פעולות שזוהתה ממופה לפי פעולה ואז מבוצעות שיטות של אחזור מידע על מנת לחשוף את נתיבי הגלישה השכיחים ביותר ואת קבוצות הדפים אותן מבקרים בתדירות הגבוהה ביותר.

[Zaiance et al. 1998] מאמצים גישה שונה. המחברים משלבים את טכניקות ה-OLAP ואחזור המידע וקוביית מידע רב-ממדית, על מנת לחשוף ידע אינטראקטיבי ללא ידיעת המשתמש. מערכת ה-WebLogMiner שלהם מסננת את הנתונים שמכיל יומן הרשת, ולאחר מכן הופכת אותם לבסיס נתונים יחסי. בשלב הבא נבנית קוביית מידע, כאשר כל ממד מייצג שדה והערכים האפשריים מתוארים על ידי תכונות. אז נעשה שימוש בטכנולוגיית OLAP בשילוב טכניקות של אחזור מידע על מנת לבצע חיזוי, סיווג, וניתוח סדרות-זמן של נתוני יומן הרשת.[ Huang et al. 2001] גם מציע שימוש במודל קובייה המזהה באופן מפורש סדרה של פעולות גישה לרשת, שומר על סדר המרכיבים של סדרת הפעולות ועושה שימוש בתכונות רבות על מנת לתאר את הדפים שבוקרו. [Borges Levene & 1999] יוצרים מודל "דיקדוקי" כאשר המחרוזות שייוצרו בסבירות גבוהה תואמות לנתיבים המועדפים על המשתמש. Shahabi et al] 1997] מציע לעשות שימוש בסוכן לקוח הלוכד את הרגליו לצורך יצירת פרופיל. המערכת שלהם יוצרת קבוצות משתמשים בעלי תחומי עניין דומים.

[2000Joshi et al., Krishnapuram et al. 2001 ; Nasraoui et al. 2000] מציג את רעיון חוסר הוודאות בתהליך אחזור המידע, על ידי חשיפת קבוצות של אפיוני סטים של פעולות משתמשים באמצעות אלגוריתמים חזקים. לפי הגישה שלהם, ניתן לשייך משתמש או דף אינטרנט ליותר מקבוצה אחת. לאחר העיבוד המקדים של נתוני היומן, הם יוצרים מטריצת שוני בה משתמשים האלגוריתמים המעורפלים שהוצגו במטרה לקבץ סטים אופייניים של פעולות משתמש. כדי להשיג זאת, הם מציגים אמצעי מדידה המתחשבים בקישורים פרטניים וכן במבנה האתר.

[Cooley et al. b1999 Servastava et al. 2000] הגדירו את אחזור השימוש ברשת כתהליך של שלושה שלבים, הכולל עיבוד מקדים, חשיפת דפוסים קבועים, וניתוח הדפוסים. מערכת האב-טיפוס שלהם, WebSIFT, מבצעת בתחילה סינון מושכל ועיבוד מקדים על מנת לזהות משתמשים, סטים של פעולות רשת, וכן מבצעת עיבוד מקדים של תוכן ומבנה [Cooley et al. 1999]. חשיפת דפוס קבוע מבוצע באמצעות אלגוריתמים כלליים של סטטיסטיקה ושיטות אחזור מידע כגון חוקי אסוציאציות, ניתוח דפוסים חוזרים, קיבוץ, וסיווג. התוצאות עוברות ניתוח באמצעות שיטת תשאול ידע פשוטה, כלי ויזואליזאציה, או מסנן המידע, המשתמשים בנתוני התוכן והמבנה שעברו עיבוד מקדים על מנת לסנן אוטומטית את תוצאות האלגוריתמים של חשיפת הידע.

[Masseglia et al. a,b1999] עושה שימוש בשיטות של אחזור מידע כגון חוקי אסוציאציות וחשיפת דפוסים חוזרים על גבי קבצי היומן של הרשת ולאחר מכן משתמש בהם להתאמה דינמית של ארגון הקישורים (היפרטקסט) המופיעים באתר. הם מתייחסים אל אחזור השימוש ברשת כתהליך של שני שלבים, הכולל את שלב העיבוד המקדים שבו כל הנתונים הלא רלוונטיים מוסרים והערכים של קבצי היומן מקובצים בהתאם לשיקולי זמן, ושלב האחזור בו מיושמות שיטות של אחזור מידע. מערכת האב-טיפוס, WebTool, מספקת גם שפת תשאול ויזואלית על מנת לשפר את תהליך האחזור. מחולל קישורים דינמיים עושה שימוש בחוקים הנובעים מדפוס התנהגות החוזר על עצמו או חוקי אסוציאציות, ובכל פעם שדפוס הגלישה של מבקר מתאים לחוק מסוים, ארגון הטקסט מותאם באופן דינמי.

[Buchner & Mulvenna 1998] מציגים תהליך של חשיפת ידע המשמש לחשיפת מודיעין עסקי מנתוני הרשת. הם מציעים סביבה המשלבת אחזור אנליטי מקוון, וכן גישות של אחזור נתוני השימוש ברשת וכוללים מומחיות שיווקית. למען מטרה זו, מוגדרת קוביית מידע גנרית. במאמר נוסף מציג [Buchner et al. 1999] את אלגוריתם אחזור המידע MiDAS המשמש לחשיפת דפוסים חוזרים מתוך קבצי יומן הרשת, במטרה לגלות שימוש במודיעין עיסקי לשינוי מבנה האתר.

[Spiliopoulou et al. Spiliopoulou Faulstich 1998 ] עיצבו את MINT, שפת אחזור נוספת ליישום של WUM, מערכת אחזור המשכית המבצעת אפיון, גילוי, וויזואליזציה של דפוסי גלישה מעניינים. יומן הרשת עובר עיבוד ראשוני ונשמרת "תמונה מצטברת" של היומן. בשלב הכנת הנתונים, מלבד סינון והשלמה של נתוני היומן, מבוצע זיהוי הסטים של פעולות משתמש באמצעות שיטות הקצבת זמן (timeout). הנתיב בו נע כל משתמש מכונה "שביל" ("trail"). מכיוון שמשתמשים רבים נכנסים לאותם דפים בסדר דומה (ויוצרים שבילים דומים), נבנה "עץ צירופים" ("aggregate tree") על ידי שילוב שבילים בעלי קידומת זהה. עץ זה מכונה "יומן נצבר" ("aggregated log") וממנו ניתן להוציא דפוסי גלישה רלוונטיים באמצעות MINT. השפה תומכת באפיון של קריטריונים של תכונות סטטיסטיות, מבניות, וטקסטואליות.

[Berendt 2000,2001] יישם את STRATDYN, מודול נוסף המרחיב את יכולות ה-WUM על ידי זיהוי ההבדלים בין דפוסי הגלישה השונים וניצול הסמנטיקה של האתר בויזואליזציה של התוצאות. הדפים או השבילים אליהם נעשתה גישה מתומצתים, מכיוון שההתייחסות אל דפי האינטרנט היא כאל מקרים בודדים של קונספט רחב יותר, בהתבסס על תכני הדף, או בסוג השירות המבוקש. שיטת "חספוס מבוסס מרווחים" ("interval-based coarsening") מיושמת לאחזור רמות שונות של הפשטת שימושי רשת באמצעות סטרטוגרמות (stratograms) ליצירת ויזואליזציה של התוצאות.

[Coenen et al. 2000] מציע מסגרת לאתרים מותאמים עצמאית, תוך התחשבות במבנה האתר. המחברים מדגישים את ההבדל בין שינויים אסטרטגיים, המתייחסים להתאמות המשפיעות באופן חזק על המבנה המקורי של האתר, ושינויים טקטיים, המתייחסים להתאמות שלא משנות את מבנה האתר. הגישה המוצעת מבוססת על העובדה שהשיטות המיושמות בתהליך אחזור השימוש מייצרות המלצות הכוללות קישורים שאינם קיימים במבנה המקורי של האתר, והתוצאה עשויה להיות שונה מגישת מעצב האתר. על כן, הם הציעו כי כל התאמה אסטרטגית המבוססת על חשיפת סטים של פרטים, רצף, וקבוצות המופיעים לעיתים קרובות, תעשה באופן לא מקוון ומבנה האתר יעבור שינוי. מאידך גיסא, בנושא ההתאמות הטקטיות, הם מציעים אלגוריתם ליצירת קישורים ללא השפעה על מבנה האתר.

[Perkowitz ו- Etzioni1998 , 1999, 2000] היו הראשונים להגדיר את הרעיון של אתרים המתאימים עצמם כאתרים המשפרים את הארגון והתצוגה שלהם באופן אוטומטי למחצה על ידי למידה מדפוסי הגישה של המבקרים [Perkowitz ו-Etzioni 1997].

המערכת שהם מציגים מתאימה את האתר באופן אוטומטי למחצה, ומאפשרת לבצע שינויים שאינם משמעותיים בלבד. על כן, כלום לא נמחק או מוחלף; במקום זאת, נוספים לאתר דפי אינדקס חדשים המכילים אוסף של קישורים לדפים קרובים שכרגע לא מקושרים לאתר. המחברים מציעים את PageGather, אלגוריתם המשתמש בשיטת קיבוץ על מנת לחשוף דפי אינטרנט שבוקרו באותה עת ולשייכם לקבוצה אחת. במאמר חדש יותר [Perkowitz Etzioni 2000], מחליפים הם את אלגוריתם אחזור הקבוצות הסטטיסטי PageGather ב-IndexFinder, הממזג אינפורמציה סטטיסטית ולוגית על מנת ליצור דפי אינדקס. במאמר המאוחר יותר, הם מנסים לחשוף סטים של קישורים עקביים ואינטגרטיביים שניתן להציגם בפני מנהלי רשת אנושיים כמועמדים לדפי אינדקס. ההבדל הוא שמידע מופק גם מהמבנה והתוכן של אתר. מכאן, ש-IndexFinder משלב את הדפוסים הסטטיסטיים שנאספו מקובץ היומן עם התיאורים הלוגיים של תכני האתרים במטרה ליצור דפי אינדקס.

[Cingil et al. 2000] מתאר ארכיטקטורה המספקת תצוגה רחבה יותר של התאמה אישית, באמצעות סטנדרטים שונים של W3C. הם מתארים כיצד ניתן לעשות שימוש בסטנדרטים כגון XML, RDF, ו-P3P ליצירת אפליקציות של התאמה אישית. בארכיטקטורה הנ"ל, נוצר "סוכן משתמש" ("user agent") שהוא יומן המכיל את היסטוריית הגלישה של המשתמש. הגורם נמצא באתר המשתמש ואוסף מידע אודות המשתמש דרך רצף הקלקות. האינפורמציה נשמרת בקובץ XML, ויוצרת פרופיל משתמש המשקף את תחומי העניין וההעדפות שלו. הפרטיות נשמרת באמצעות P3P. בצד של השרת מורץ מודל סטטיסטי על אפיוני משתמש המבצע התאמה בין מבקרים בעלי תחומי עניין וההעדפות דומים כך שהתוכן או המוצרים הסבירים ביותר יומלצו למשתמש בהתבסס על קווי הדמיון הללו. פרופיל המשתמש מנוצל לחשיפת מקורות אינטרנט שעשויים ליצור עניין אצל המשתמש וכן שניתן להפיק מהם מידע אישי. כאשר המידע הנוסף (metadata) של המקורות מבוטאים ב-RDF, יהיה זה קל הרבה יותר לחשוף את מקורות הרשת התואמים לפרופיל המשתמש. עד אז, תוויות מידע נוסף (metadata tags) של HTML משמשים במערכת המוצעת.

WebPersonalizer הנה המערכת המתקדמת ביותר, והיא מוצעת על ידי

[Mobasher et al. 1999, 2000].המערכת מספקת מסגרת לאחזור קבצי יומן על מנת לחשוף מידע המשמש לחלוקת המלצות למשתמשים נוכחיים על בסיס דמיון בשיטת הניווט שלהם למשתמשים קודמים. המערכת משתמשת בנתוני שימוש אנונימיים אותם מספקים יומנים ורשימות קישורים של אתר. לאחר איסוף המידע וביצוע עיבוד מקדים (המרת נתוני השימוש, התוכן, והמבנה הקיימים במקורות מידע שונים לנתונים אבסטרקטיים שונים), מיושמות טכניקות אחזור כגון חוקי אסוציאציות, חשיפת דפוס חוזר, קיבוץ, וסיווג, במטרה לאתר דפוסי שימוש מעניינים. התוצאות משמשות ליצירת פרופיל שימוש מעורב, במטרה ליצור חוקי החלטה. מנוע ההמלצה משווה את פעילות המשתמש לפרופיל הנ"ל ומספק רשימה של קישורי טקסט מומלצים.

מסגרת זו הורחבה לאחרונה [Mobasher et al. b,c2000] והיא מאגדת אפיוני תוכן בתהליך ההמלצה כדרך לשיפור האפקטיביות של פעולות ההתאמה האישית.

אפיוני שימוש ותוכן מיוצגים כאוספים משוקללים של דפים נצפים. אפיוני התוכן מייצגים דרכים שונות בהן ניתן לשייך דפים בעלי תוכן דומה לקבוצה אחת. המטרה הכוללת היא יצירת תצוגה אחידה לאפיוני התוכן והשימוש על מנת לשלבם ביתר קלות. המערכת מחולקת לשני מודולים: לא מקוון, המורכב מהכנת נתונים ומשימות אחזור ספציפיות, והמרכיב המקוון, שהוא מנוע המלצה בזמן-אמת.

מסקנות

התאמה אישית של רשת הנו תהליך ההתאמה של תוכן ומבנה האתר לצרכים הספציפיים והאישיים של כל משתמש, מבלי שהמשתמש יבקש זאת מפורשות. ניתן להשיג זאת על ידי ניצול הרגלי הגלישה של המשתמש, הנחשפים תוך עיבוד יומני השימוש, וכן עיבוד המאפיינים ותחומי העניין של המשתמש. ניתן לבצע עיבוד נוסף של האינפורמציה בהקשר לתוכן האתר, ובכך לשפר את ביצועי המערכת, לשמור על הלקוחות, ו/או לשפר את השינויים באתר.

התהליך הכללי של התאמה אישית מכיל חמישה רכיבים, דהיינו: אפיון משתמש, ניתוח יומן הרשת ואחזור נתוני השימוש, רכישת מידע, ניהול תוכן, ופרסום באתר.

אפיון משתמש הנו תהליך איסוף מידע ספציפי על כל מבקר באופן מרומז, באמצעות המידע הנמצא ביומני הרשת או באמצעות טכנולוגיות כגון עוגיות, או באופן מפורש, באמצעות טפסי הרשמה, שאלונים וכדומה. המידע יכול להיות דמוגרפי, אישי או אפילו אינפורמציה הנוגעת להרגלי הגלישה של המשתמש. עם זאת, שיטות רבות של אפיון משתמש מעוררות בעיות פרטיות בנוגע לחשיפת נתונים אישיים של המשתמש, ועל כן הן לא מומלצות. מכיוון שנראה כי אפיון משתמש הנו הכרחי בתהליך ההתאמה האישית, קיים צורך למצוא דרכים חוקיות ומדויקות יותר לאיסוף מידע. P3P הנו סטנדרט עולה המומלץ על ידי W3C המספק מנגנון טכני המאפשר למשתמשים להיות מודעים למדיניות הפרטיות לפני שסיפקו מידע אישי ומאפשר להם לשלוט בחשיפת מידע אישי אודות עצמם.

המרכיב המרכזי במערכת ההתאמה האישית של הרשת הוא מאחזר השימוש. ניתוח היומן ואחזור השימוש הוא תהליך עיבוד המידע שנשמר ביומני השרת של הרשת באמצעות שיטות סטטיסטיות ושיטות של אחזור נתונים כגון קיבוץ, חשיפת חוקי אסוציאציות, סיווג, וחשיפת דפוס חוזר, במטרה לחשוף דפוסים שימושיים שיעברו עיבוד נוסף. הדפוסים משתנים בהתאם לשיטה ולנתונים שהוזנו, ויכולים להיות קבוצות של משתמשים או דפים, דפוסי שימוש, והתאמות בין קבוצות של משתמשים ודפים. ניתן לשמור את הדפוסים הנ"ל בבסיסי נתונים או בקוביית מידע עליהם יופעלו שיטות מחקר או פעולות OLAP בשילוב עם טכניקות ויזואליזציה. השלב החשוב ביותר בתהליך אחזור השימוש הוא סינון המידע והעיבוד המקדים. בשלב זה, יש לנקות או לשפר את נתוני היומן, ולבצע זיהוי של סדרת פעולות המשתמש ותצוגת דף האינטרנט.

לאחרונה, צבר תחום ההתאמה האישית של הרשת תנופה אדירה לא רק בתחום המחקרי, בו צוותי מחקר רבים התייחסו לבעיה מנקודות מבט שונות, אולם גם בתחום המסחרי, בו קיים מבחר של כלים ואפליקציות המתייחסים למודול אחד או יותר של תהליך ההתאמה האישית. חברות מצפות לנצל את המידע הנמצא ביומני השרת לחשיפת האינטראקציה בין מבקרי האתר והמוצרים הנמכרים דרכו. באמצעות המידע הנ"ל, יוכלו לשפר את האתר במטרה למכור יותר ולשמור על הלקוח. מלבד אחזור השימוש, שיטות של אפיון משתמש גם הן מיושמות במטרה לגבש פרופיל משתמש מושלם. לאחרונה נעשה מאמץ לאגד תכני רשת בתהליך ההמלצה, במטרה לשפר את יעילות תהליך ההתאמה האישית. עם זאת, עוד לא הוצע פתרון המשלב ביעילות שיטות המיושמות באפיון משתמש, אחזור שימוש, רכש תכנים, וניהול וכן פרסום ברשת.

נספח א' – ראשי תיבות וקיצורים

  • ASP Application Service Provider
  • CRM Customer Relationship Manager
  • ERP Enterprise Resource Planning
  • HTML Hypertext Markup Language
  • HTTP Hypertext Transport Protocol
  • IP Internet Protocol
  • ISP Internet Service Provider
  • OLAP OnLine Analytical Processing
  • P3P Platform for Privacy Preferences
  • RDF Resource Description Framework
  • URL Uniform Resource Locator
  • W3C World Wide Web Consortium
  • XML eXtensible Markup Language

נספח ב' – קישורים

נספח ג' – כלים ויישומים

טבלה א1. כלי אפיון משתמש
ספק שם המוצר סינון תוך כדי שיתוף פעולה התאמת דף עוגיות רישום משתמש
BroadVision One-To-One *
Macromedia LikeMinds *
Microsoft Firefly Passport * *
NetPerceptions Group Lens *
Neuromedia NeuroStudio * * *
OpenSesame Learn Sesame * *
טבלה א2. מנתחי יומן ומאחזרי שימוש ברשת
ספק ומוצר מקור נתונים ASP תוכנה פתרון CRM שלם
Analog
Analog
שרת (יומן רשת) * (תוכנת מעבד יומן חופשית)
Accrue
HitList, Insight 5
שרת (יומן רשת) *
Coremetricts
Eluminate
לקוח *
Elytics
Analysis Suite
לקוח, שרת, מערכות של יוזמות אחרות * (בן-כלאים, משלב טכנולוגיית ASP)
E.piphany
Enterprise Insight, E.5
שרת (יומן רשת), מידע תפעולי (ERP) *
Follow
Follow 2
שרת (יומן רשת) * (תוכנת מעבד יומן חופשית)
IBM Global Services
Surfaid Analytics
לקוח, שרת *
Lumio
Re: cognition suite
שרת *
NCR Corporation
E-business Teradata @ctive Warehouse
שרת, (יומן רשת), נתוני רישום, מידע תפעולי (CRM, ERP) וכד' *
NetGenesis
5 E-Metrics Solutions
שרת (יומן רשת, Packet sniffers, server plug-ins) *
NetPerceptions
E-commerce Analyst
שרת (יומן רשת) *
Personify
Profit Platform (s/w), Central (ASP)
שרת (יומן רשת), נתוני שרת מסחרי, נתוני רישום * *
Quest
Funnel Web
שרת (יומן רשת) *
Sane solutions
NetTracker
שרת (יומן רשת) *
SAS
WebHound, e-Discovery, Engage ProfileServer
שרת (יומן רשת), מידע תפעולי, נתונים דמוגרפיים *
WebSideStory
HitBox
לקוח (דפדפן) *
WebTrends
Log Analyzer, Commerce Trends, Web Trends Live (ASP
שרת (יומן רשת), לקוח (פתרון ASP) * * * (מוצר קצה)
טבלה א3. יוזמות מחקריות
שם הפרוייקט מקור נתונים אפיון משתמש אחזור שימוש ברשת ניהול תוכן שיטת פרסום
Letizia לקוח * (*)
WebWatcher פרוקסי * * (*)
Analog שרת * * (מוצע)
SpeedTracer שרת *
WebLogMiner שרת *
Borges and Levene שרת *
Shahabi et al לקוח * *
Joshi et al שרת * *
WebSIFT שרת * (*)
WebTool שרת * * (מוצע)
Buchner et al. שרת * * *
WUM שרת *
STRATDYN שרת * *
Coenen et al שרת * * (מוצע)
Adaptive Web שרת * * *
Cingil et al. לקוח * * * (מוצע)
WebPersonalizer שרת * * *
Mobasher et al. שרת * * * *

References

  1. BERENDT, B. 2000. Web usage mining, site semantics, and the support of navigation. In Proceedings of the Workshop WEBKDD'2000 Web Mining for E-Commerce-Challenges and Opportunities, Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Boston, August).
  2. BERENDT, B. 2001. Understanding Web usage at different levels of abstraction: Coarsening and visualizing sequences. In Proceedings of the Workshop WEBKDD2001 Mining Log Data Across All Customer TouchPoints, Seventh ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (San Francisco, August).
  3. BORGES, J .AND LEVENE, M.1999. Data mining of user navigation patterns. In Web Usage Analysis and User Profiling, Lecture Notes in Computer Science, vol.1836, Springer-Verlag New York, 92-111.
  4. BUCHNER, A .AND MULVENNA, M.D.1998. Discovering Internet marketing intelligence through on line analytical Web usage mining. SIGMOD Rec. 27, 4, 54-61.
  5. BUCHNER, A. G., BAUMGARTEN, M., ANAND, S. S., MULVENNA, M. D., AND HUGHES, J. G. 1999. Navigation pattern discovery from Internet data. In Proceedings of the Web Usage Analysis and User Profiling Workshop (WEBKDD'99), Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (San Diego, August), 25-30.
  6. CHEN, M. S., PARK, J. S., AND YU, P. S. 1996. Data mining for path traversal patterns in a web environment. In Proceedings of the Sixteenth International Conference on Distributed Computing Systems (May), 385-392.
  7. CINGIL, I., DOGAC, A., AND AZGIN, A.2000. A broader approach to personalization. Commun. ACM, 43,8 (August), 136-141.
  8. COENEN, F., SWINNEN, G., VANHOOF, K., AND WETS, G.2000. A framework for self adaptive web-sites: Tactical versus strategic changes. In proceedings of WEBKDD'2000 Web Mining for E-Commerce-Challenges and Opportunities, Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Boston, August).
  9. COOLEY, R., MOBASHER, B., AND SRIVASTAVA, J. 1999a. Data preparation for mining world wide web browsing patterns. Knowl. Inf. Syst., 1, 1 (Feb.).
  10. COOLEY, R., TAN, P.-N., AND SRIVASTAVA, J. 1999b. WebSIFT: The web site information filter system. In Proceedings of the Web Usage Analysis and User Profiling Workshop (WEBKDD'99), Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (San Diego, August).
  11. DEAN, R. 1998. Personalizing your web site.
  12. HUANG, Z., NG, J., CHEUNG, D. W., NG, M. K., AND CHING, W.-K.2001. A cube model for web access sessions and cluster analysis. In Proceedings of the Mining Log Data Across All Customer Touch-Points Workshop (WEBKDD'01), Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (San Francisco, August).
  13. JOACHIMS, T., FREITAG, D., AND MITCHELL, T. 1997. WebWatcher: A tour guide for the world wide web. In Proceedings of IJCAI97 (August).
  14. JOSHI, A., JOSHI, K., AND KRISHNAPURAM, R.2000. On mining web access logs. In Proceedings of the 2000 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 63-69.
  15. KRISHNAPURAM, R., JOSHI, A., NASRAOUI, O., AND YI, L. 2001. Low-complexity fuzzy relational clustering algorithms for web mining, IEEE Trans. Fuzzy Syst. 9, 4, 596-607.
  16. LIEBERMAN, H. 1995. Letizia: An agent that assists web browsing. In Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence (Montreal).
  17. MASSEGLIA, F., PONCELET, P., AND CICCHETTI, R. 1999a. WebTool: An integrated framework for data mining. In Proceedings of the Ninth International Conference on Database and Expert Systems Applications (DEXA'99) (Florence, Italy, August),892-901.
  18. MASSEGLIA, F., PONCELET, P., AND TEISSEIRE, M. 1999b. Using data mining techniques on web access logs to dynamically improve hypertext structure. In ACM SigWeb Lett., 8, 3 (Oct.) 13-19.
  19. MASSEGLIA, F., PONCELET, P., AND TEISSEIRE, M.2000. Web usage mining: How to efficiently manage new transactions and new customers. In Proceedings of the Fourth European Conference on Principles of Data Mining and Knowledge Discovery (PKDD'00) (Lyon, France, Sept.).
  20. MLADENIC, D. 1999. Machine learning used by personal webwatcher. In Proceedings Of ACAI-99 Workshop on Machine Learning and Intelligent Agents (Chania, Greece, July).
  21. MOBASHER, B., COOLEY, R., AND SRIVASTAVA, J. 1999. Creating adaptive web sites through usage-based clustering of URLs. In Proceedings of the 1999 IEEE Knowledge and Data Engineering Exchange Workshop (KDEX'99)(Nov.).
  22. MOBASHER, B., COOLEY, R., AND SRIVASTAVA, J. 2000a. Automatic personalization based on web usage mining. Commun. ACM, 43 8 (August), 142-151.
  23. MOBASHER, B., DAI, H., LUO, T., SUNG, Y., AND ZHU, J. 2000b. Discovery of aggregate usage profiles for web personalization. In Proceedings of the Web Mining for E-Commerce Workshop (WEBKDD'2000), Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Boston, August).
  24. MOBASHER, B., DAI, H., LUO, T., SUNG, Y., AND ZHU, J. 2000c. Integrating web usage and content mining for more effective personalization. In Proceedings of the International Conference on E-Commerce and Web Technologies (ECWeb2000). (Greenwich, UK, Sept.).
  25. MULVENNA, M. D., ANAND, S. S., AND BUCHNER, A. G. 2000. Personalization on the net using web mining. Commun. ACM, 43, 8 (August), 123-125.
  26. NASRAOUI, O., FRIGUI, H., KRISHNAPURAM, R., AND JOSHI, A. 2000.Extracting web user profiles using relational competitive fuzzy clustering. Int. J. Arti. Intell. Tools 9, 4. P3P.
  27. P3P Platform for Privacy Preferences Project.
  28. PERKOWITZ, M. AND ETZIONI, O. 1997. Adaptive web sites: An AI challenge. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (Nagoya, Japan).
  29. PERKOWITZ, M. AND ETZIONI, O. 1998. Adaptive web sites: Automatically synthesizing web pages. In Proceedings of the Fifteenth National Conference on Artificial Intelligence (Madison, WI, July).
  30. PERKOWITZ, M. AND ETZIONI, O. 1999. Adaptive web sites: Conceptual cluster mining. In Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence (IJCAI99) (Stockholm).
  31. PERKOWITZ, M. AND ETZIONI, O. 2000a. Towards adaptive web sites: Conceptual framework and case study. In Artif. Intell. 118, 1-2, 245-275.
  32. PERKOWITZ, M. AND ETZIONI, O. 2000b. Adaptive web sites. Commun. ACM, 43, 8 (August), 152-158.
  33. RFC Identification Protocol.
  34. SHAHABI, C., ZARKESH, A. M., ADIBI, J., AND SHAH, V. 1997. Knowledge discovery for users web-page navigation. In Workshop on Research Issues in Data Engineering (Birmingham, UK).
  35. SPILIOPOULOU, M. 2000. Web usage mining for web site evaluation. Commun. ACM 43, 8 (August), 127-134.
  36. SPILIOPOULOU, M. AND FAULSTICH, L. C. 1998. WUM: A web utilization miner. In Proceedings of the International Workshop on the Web and Databases (Valencia, March).
  37. SPILIOPOULOU, M., FAULSTICH, L. C., AND WILKLER, K. 1999. A data miner analyzing the navigational behavior of web users. In Proceedings of the Workshop on Machine Learning in User Modelling of the ACAI99 (Chania, Greece, July).
  38. SRIVASTAVA, J., COOLEY, R., DESHPANDE, M., AND TAN, P.-N. 2000. Web usage mining: Discovery and applications of usage patterns from web data. SIGKDD Explorations 1, 2 (Jan.), 12-23.
  39. W3CLOG. Extended log file format.
  40. WCA. Web characterization terminology & definitions. 1999/05/WCA-terms/.
  41. WU, K.-L., YU, P. S., AND BALLMAN, A. 1998. SpeedTracer: A web usage mining and analysis tool. IBM Syst. J. 37, 1.
  42. YAN, T. W., JACOBSEN, M., GARCIA-MOLLINA, H., AND DAYAL, U. 1996. From user access patterns to dynamic hypertext linking. In Fifth International World Wide Web Conference (WWW5) (Paris).
  43. ZAIANE, O.R., XIN, M., AND HAN, J. 1998. Discovering web access patterns and trends by applying OLAP and data mining technology on web logs. In Proceedings of Advances in Digital Libraries Conference (ADL'98) (Santa Barbara, CA, April).

אודות מגדליני איירינקי ומיכליס וזירגיאניס

Magdalini Eirinaki was born in Athens, Greece. Her background studies include a Degree in Informatics (University of Piraeus, Greece) and an MSc in Advanced Computing (Imperial College, London/UK). Her research interests include Web mining, Web content management and Web personalization. She has published to international refereed journals and conferences (ACM TOIT, SIGKDD). She is currently a PhD candidate in the Dept. of Informatics of Athens University of Economics and Business.

Michalis Vazirgiannis was born in Athens, Greece. He acquired a Ph.D. degree in 1994 (Dept. of Informatics, University of Athens, Greece). Since then he has conducted research in several research labs (DBLab – N.T.U. Athens, GMD-IPSI – Germany, Fern-Universitaet – Germany, VERSO – INRIA/Paris). He is currently the head of the DB-NET research group at the Athens University of Economics and Business (http://www.db-net.aueb.gr). His research work ranges from Data Mining and Global Computing to WWW & Databases and has published international books and more than fifty papers in international referred journals and conference proceedings. Since 2001 he holds an Assistant Professor position in "Database Systems & Multimedia" in the Dept. of Informatics of Athens University of Economics and Business.

ACM Transactions on Internet Technology ,Vol.3, No.1, February 2003, Pages1–27
Copyright ©2003 Association for Computing Machinery, Inc. Translated with permission.

This research work was partially supported by the IST-2000-31077/I-Know UMine R&D Project funded by the European Union