מבט לעתיד : כיצד יתפתחו אונטולוגיות לרשת הסמנטית?

הנרי קים | 06.05.2001

לדברי טים ברנרס-לי, הרשת תתפתח לקראת רשת סֶמַנטית (Semantic Web). "עד היום, הרשת התפתחה הכי מהר כאמצעי להעברת מסמכים לאנשים ולא כמידע שניתן לטפל בו באופן אוטומטי. על-ידי העשרת עמודי הרשת בנתונים המכוונים למחשבים, ועל-ידי הוספת מסמכים המיועדים בלעדית למחשבים, נהפוך את הרשת לרשת סֶמַנטית."

המחשבים ימצאו את משמעות הנתונים הסֶמַנטיים באמצעות התחברות לקישורי-על (hyperlinks) להגדרות של מונחי מפתח וכללים לחשיבה הגיונית עליהן. התשתית שתקום כתוצאה מכך תדרבן את התפתחותם של שירותי רשת ממוחשבים כגון 'סוכנים' רב-תפקודיים" [2].

אבל, מה קורה אם אין מספיק אנשים המייצרים מידע הניתן לעיבוד ממוחשב, או שהמידע אינו מיוצג באופן מספיק עשיר, או שאינו קיים בכמויות שדי בהן להפוך שירותים כאלה למעשיים? "המידע" המסתמן כצוואר הבקבוק בתהליך אימוץ הרשת הסֶמַנטית איננו נתונים; אין הוא המספר "7" או המלה "חתול". אלה הם הכללים והמשמעויות שיש להגדירם באופן מדוייק מספיק כך שמכונות, ולא בני אדם איטיים ומועדים לטעויות, יוכלו לפרש ולעבד את המידע הזה במהירות; זהו מידע מן הסוג "שנת שבתון מתרחשת אחת לשבע שנים", או "חתולים וכלבים הם [ממשפחת ה]יונקים".

אונטולוגיה מורכבת מאוצר מלים מייצג ובו הגדרות מדוייקות למשמעויות המונחים הכלולים באוצר מלים זה בתוספת מערך כללים פורמליים המגבילים את הפרשנות ואת השימוש הנכון במונחים אלה

ברשת הסֶמַנטית צפוי כי אונטולוגיות משדה הבינה המלאכותית הן שישמשו לקידוד מידע זה [2]. לפיכך, עתיד הרשת הסֶמַנטית קשור בעתידן של אונטולוגיות ברשת הסֶמַנטית. על מנת לחזות את עתידן של אונטולוגיות אלו, נתבונן בתולדותיו של משהו דומה. בניגוד למודלים לקידוד מידע ברשת, למה שלא נחזור הרבה אחורה ונבדוק מודלים ששימשו לקידוד מידע כתוב על נייר? מטרת מאמר זה לבחון את התפתחותן של מערכות מבוססות-נייר, להסביר התפתחות זו באמצעות מודל רעיוני של התפתחות מערכות, ליישם את המודל למערכות מבוססות-רשת המקבילות למערכות מבוססות-נייר, ולבסוף להשליך מתוך מה שהתרחש במערכות מבוססות-נייר על התחזית לגבי האופן שבו יתפתחו, אם בכלל, אונטולוגיות שיהפכו את חזון הרשת הסֶמַנטית של טים ברנרס-לי לאפשרי.

התפתחות הטפסים העסקיים

בשימושים פשוטים של ניירת (כגון מזכרים) ו-HTML, המחַבר אחראי לכתיבה, והקורא אחראי לפרשנות ועיבוד. הפצת ניירת מחייבת תשתית פיסית המתאפשרת באופן מכני, והמסומלת באמצעות מכבש הדפוס; הפצת HTML מחייבת תשתית וירטואלית המתאפשרת באופן אלקטרוני, והמסומלת באמצעות האינטרנט.

בכל צורת הפצה של מידע, יכולת העיבוד של המוח האנושי קטנה יחסית לגודל הבעיות המחייבות עיבוד לצורך קבלת פתרון אובייקטיבי. סיימון [9] מכנה זאת "הגיון מוגבל"
(bounded rationality). פוקס [5] קובע כי הגיון מוגבל מאלץ בני אדם או מעבדים לחפש טכניקות להפחתת המורכבות של המידע, המטלה, והתיאום. את המודל של פוקס להתפתחות מבנים ארגוניים שתכליתם הפחתת מורכבות אפשר ליישם לצורך הסברת התפתחותן של מערכות טיפול במידע מבוסס-נייר.

המידע מורכב מדי כאשר הוא דורש יותר עיבוד ממה שזמין לצורך ניתוחו והבנתו כראוי [5]. מורכבות זו מופחתת באמצעות השמטות והפשטות. כאשר יש צורך לבחון מספר מסמכים פשוטים, הטלת הפרשנות והעיבוד שלהם על הקורא היא משימה מעייפת מדי, בעיקר כאשר הם כתובים גרוע, או מכילים מידע מיותר או לוקה בחסר. אסטרטגיה של השמטה מאלצת את המחבר להגיש רק מערכי מידע הנחוצים לעיבוד. אסטרטגיה של הפשטה מאפשרת לבצע הפשטה של מערכי מידע מתוך מסמך יחיד, כך שאפשר יהיה לבצע את העיבוד על מערך מסויים ולא על כל המסמך. במסמכי נייר, אסטרטגיה זו מתבצעת באמצעות טפסים עסקיים, המשרטטים את מבנה המסמך ומפרידים בינו לבין תוכנו.

לדברי בארנט [1], הטופס העסקי הראשון היה מכתב נוסחה למתן מחילה על חטאים, שפיתח גוטנברג בשנת 1454. מה שהיה בעבר בתחום אחריותו של מחבר מסמכי נייר פשוטים, פורק לעיצוב טפסים, ולהזנת נתונים לתוך טפסים. מעצבי הטפסים לא היו בדרך-כלל מי שהזינו את הנתונים לתוכם, ולכן הם פיתחו נוהלי עבודה מתוקננים לשימוש פקידי הזנת הנתונים.

כאשר היקף הפעולות הנחוצות לביצוע מטלה נעשה גדול מדי, יש צורך להפחית את מורכבות המטלה [5] על-ידי חלוקת עבודה. מה שהיה בעבר בתחום אחריותו של הקורא במסמך נייר פשוט, פורק למטלות של עיבוד טפסים וביצוע מטלות. עיצוב הטפסים והמטלות היה מרכזי, ובוצע על-ידי אנשי מקצוע; הזנת הנתונים וביצוע המטלות היו מבוזרים ובוצעו על-ידי פקידים. חידושים טכנולוגיים (בשנים 1890-1930) [1] אִפשרו לשכלל את חלוקת העבודה; מכונות ספירה לכרטיסים מנוקבים וקופות רושמות זירזו את העיבוד, ומערכות הדפסה וניירות העתקה ביטלו שלבים מיותרים בביצוע מטלות.

אחת הדרכים להכוונת חלוקת העבודה להפחתת המורכבות שבתיאום מטלות שונות היא פירוק כמעט מוחלט של המערכת לגורמיה (near decomposability)
[10]. בניית יחידות שבתוכן מתבצעות המטלות באופן שהאינטראקציה המתחייבת בין היחידות היא מזערית. אסטרטגיות להפחתת מורכבות התיאום מושתתות על עקרון זה [5]. אחת האסטרטגיות היא העסקת קבלני משנה (contracting). לעתים המידע והמטלות הדרושים להשגת תוצאה מורכבים מכדי שיחידה ארגונית אחד תוכל לטפל בשניהם. יחידה זו יכולה לבחור להתקשר עם יחידה "כמעט-פריקה" (near decomposable), שהיא הקבלן, הנוטל אחריות לניהול המורכבות בתמורה למחיר חוזה הקבלנות ובכפוף לתנאי החוזה. עסקים רבים השתמשו במיקור חוץ (outsourcing) ומסרו עבודות של עיצוב והפקת טפסים לבתי דפוס ייעודיים כגון Moore Business Forms (השם הנוכחי Moore Corp.), משום שהפקת טפסים בהיקף גדול היתה יקרה מדי. מערכות סְדָר דפוס משרדיות זולות (בסביבות 1950) שינו מצב זה. בעסקים רבים הוקמה יחידה כמעט-פריקה – מחלקת מערכות ארגוניות (שהחליפה בדרך-כלל את מחלקת הטפסים) – המצויידת במערכות סְדָר ומאויישת במעצבי טפסים ומטלות. כך נוצרה חטיבה תפקודית ייעודית חדשה, שאת לידתה ניתן להסביר באופן הבא: בניית מערך פנים-ארגוני המתמקד בתפקודים או במוצרים – בהתאם למאפייני הבעיות שבפניהם ניצב הארגון – מפחיתה גם את מורכבות התיאום.

החידושים האלקטרומכניים המשמעותיים האחרונים (1960-1970) היו צילום מסמכים אלקטרוסטטי וצילום קסרוגרפי, שאפשרו שכפול זול, באיכות גבוהה ובכמויות גדולות. ככל שמכונות הצילום הפכו זמינות מחוץ למחלקת המערכות הארגוניות, צמצמו משתמשי הטפסים את תלותם במחלקה זו על-ידי ביצוע צילומים באופן עצמאי, וגם הפקת טפסים "בלתי-רשמיים" (bootleg) שעברו עיבוד והתאמה לצרכים. השימוש במשאבים רופפים כדי להקטין תלות בביצוע משימות היא אסטרטגיה שלישית להפחתת מורכבות התיאום. אלא שטפסים בלתי-רשמיים כאלה גם מכניסים אי-ודאות:

"הקלות שבה ניתן לשכפל טפסים הביאה לשפע של טפסים בלתי-רשמיים – טפסים שניתן להפיק אותם מחוץ לשליטת מחלקת הטפסים … אינני טוען שאסור לעולם לצלם טפסים או שקיומם של טפסים בלתי-רשמיים אסור בכל הנסיבות: לפעמים עלות השליטה פשוט אינה שווה את המאמץ. אבל העלות האמיתית טמונה בעיבוד הפקידותי, ומתוך הנסיון שלי בטיפול בטפסים במשך כמעט שלושים שנה, מצאתי מעט מאוד מעצבי טפסים בלתי-רשמיים שהביאו בחשבון שיקולים הנוגעים ליעילות העיבוד." [1]

לדוגמה, פקיד עיבוד נתונים לא יכול לעבד טופס בלתי-רשמי המכיל לכאורה את המידע הנחוץ, אם הטופס מנוסח באופן שאינו חד-משמעי; או, מערכת שפותחה לעיבוד מספר מסויים של טפסים מלאים, לא יכלה להתמודד עם כמויות נוספות של טפסים שצילמו המשתמשים. אי-ודאות הנגרמת כתוצאה מהכנסת טפסים בלתי-רשמיים לתוך מערכת יעילה לעיבוד טפסים, מובילה להפסדי יעילות.

עם הופעתו של עיבוד נתונים ממוחשב בהיקף נרחב, הפכו המערכות שהתבססו עד אז על טפסים עסקיים מבוססי נייר למערכות המטפלות בנתונים דיגיטליים; מחלקות המערכות הארגוניות שבהן ישבו מעצבי טפסים ותהליכים פינו את מקומן למחלקות ניהול מערכות מידע (MIS) שבהן ישבו מנתחי מסדי נתונים ומערכות. אחת המטרות של הנדסת תהליכים מחדש (process reengineering) (בשנות התשעים) היתה לעצב מחדש מערכות ממוחשבות שהתפתחו בהדרגה מתוך מערכות מבוססות טפסים, ולפיכך היו עדיין מושתתות על מגבלות מכניות וידניות מסויימות האופייניות לשימוש בטפסים, שלא היו עוד רלבנטיות.

ההשלכות על התפתחות אונטולוגיות לרשת הסֶמַנטית

אילו הבינו המהנדסים מחדש כיצד הוביל אימוץ החידושים הטכנולוגיים לשינויים במערכות מבוססות הטפסים של הארגון, היו יכולים לזהות באופן שיטתי את הרכיבים המתאימים ביותר לעיצוב מחדש מבין רכיבי המערכת שהתפתחה, והם אותם רכיבים אשר פותחו לצורך מימוש חידושים שעבר זמנם. זאת ועוד, אילו היו יכולים להסביר את השינויים שהוכנסו במערכות מבוססות טפסים באמצעות מודל כגון זה של פוקס, כי אז היו אולי יכולים לבסס תחזיות לגבי האופן שבו יתפתחו המערכות המעוצבות מחדש שלהם כאשר יאומצו בהדרגה חידושים עתידיים פורצי-דרך. על פי גישה זו, האם בראשית שנות התשעים, מומחה להנדסה מחדש של תהליכים עסקיים בעל כושר נבואי, היה יכול לעצב מערכת ניהול מלאי גמישה, לא בהכרח בעלת יעילות מיטבית, שניתן לשלבה במערכות המלאי של הלקוחות באמצעות האינטרנט? גישה זו ננקטת כאן כדי לנבא כיצד עשויות להתפתח אונטולוגיות לרשת הסֶמַנטית.

XML לעומת אונטולוגיות

XML ואונטולוגיות הם שני כלים לייצוג מפורש של מידע, המיושמים באופן שהקורא יפרש נתונים משותפים בדיוק כפי שהתכוון להם מחבר הנתונים. שימוש ב-XML לרשת מקביל לשימוש בטפסים עסקיים, מאחר שמבנה המידע המיוצג ב-DTDs מותווה מתוך התוכן המיוצג כנתוני XML.

ההגדרה של אונטולוגיה המשמשת למאמר זה היא שאונטולוגיה "מורכבת מאוצר מלים מייצג ובו הגדרות מדוייקות למשמעויות המונחים הכלולים באוצר מלים זה בתוספת מערך כללים פורמליים המגבילים את הפרשנות ואת השימוש הנכון במונחים אלה" [3]. זוהי הגדרה מגבילה הרבה יותר מזו המבוססת על "המכנה המשותף הנמוך ביותר". "אונטולוגיה יכולה ללבוש מגוון צורות, אבל היא תמיד כוללת אוצר מלים של מונחים, ופירוט כלשהו לגבי משמעותם" [7]. לצורכי הרשת הסֶמַנטית, חובה לבטא את האונטולוגיה בשפה פורמלית כך שכל ביטוי נתון באונטולוגיה ניתן לפרשנות ולעיבוד חד-משמעיים על-ידי מכונה. מודלים לתִקשוּר אוצר מלים ומבנה לבני אדם, כגון הטקסונומיה של מערכת Yahoo! [8] – "אונטולוגיות קלות" – ורוב צורות התרשימים המקובלים, מבוטאים באופן הרבה פחות מדי פורמלי מכדי שניתן יהיה לעבד סֶמַנטיקה במכונה אוטומטית. השימוש באונטולוגיה לרשת הסֶמַנטית מקביל איפוא לשימוש בטפסים עסקיים על סמך נוהלי עבודה מתוקננים, שכן מבנה המידע מיוצג כשיטת מינוח; הכללים המסדירים את הפרשנות הנכונה של המבנה מיוצגים כהגדרות ואילוצים פורמליים (סֶמַנטיים, או של משמעות); והתוכן מיוצג כמונחים אונטולוגיים בסיסיים (foo(7)).

הבנה משותפת על קהילה – מידע המצוי בידי חבריה – מיושמת תמיד בפתרון בעיות בקהילה זו. את המינוח המשמש את חברי הקהילה אפשר לקודד כ-DTDs של הקהילה. גם באונטולוגיות, כ"ייצוגים מפורשים של הבנה משותפת" [6], אפשר להשתמש לקידוד הסֶמַנטיקה של המינוח. לדוגמה, כשמשתמשים ב-XML, חייבים להניח שהמחבר והקורא של <foo>7</foo> שותפים לאותה הבנה מה פירוש "foo". בשימוש באונטולוגיה אין צורך להניח הנחה כזו, משום שאפשר להגדיר את "foo" באופן מפורש. בהשוואת הדרכים לקידוד הבנה משותפת באמצעות הרשת הסֶמַנטית, מן הראוי להכיר בעובדה ש-XML היא טכנולוגיה בשלה בהרבה מאונטולוגיות במונחים של גודל קהילת המשתמשים, זמינוּת כלי תמיכה, ומעשיותם של מודלים עסקיים הנשענים על הטכנולוגיה. לפיכך, אפשר לאמץ אונטולוגיות במצבים שבהם היכולת לייצג סֶמַנטיקה חשובה מספיק כדי לגבור על יתרונות הבשלות של XML. מהם המאפיינים של מצבים כאלה?

במערכות מבוססות טפסים, אימוץ החידושים וזניחת טכנולוגיות קיימות נועדו להפחית את מורכבות המידע, המטלות והתיאום. אם מוסכם כי טפסים מקבילים במקרה זה ל-XML/אונטולוגיות, וכי XML היא טכנולוגיה הרבה יותר בשלה מאונטולוגיות לרשת הסֶמַנטית, אבל פחות חדשנית, הרי שיש הגיון בקביעה הבאה: אימוץ אונטולוגיות יתרחש במצבים שבהם מושגת הפחתה גדולה יותר של מורכבות או של אי-ודאות באמצעות אונטולוגיה, ופחות באמצעות XML. באופן ספציפי, זה יתרחש כאשר השימוש בסֶמַנטיקה מפחית מורכבות או חוסר ודאות. אם כן, את היתרונות והחסרונות לשימוש ב-XML לעומת אונטולוגיה יש לנתח ראשית במונחי שלושת העקרונות של הפחתת מורכבות:

הגיון מוגבל: השימוש ב-XML מורכב פחות משום שאין בו ייצוג לסֶמַנטיקה. בעוד שרבים מסוגלים לזהות ולסווג מונחים, רק מעטים יכולים לבטא באופן שיטתי את המשמעויות של מונחים אלה, או לייצג אותם בשפה פורמלית. אבל בשימוש ב-XML קיימת אי-ודאות מוגברת בשאלה אם מידע חיוני לצורך פרשנות הנתונים המשותפת אינו מיוצג. במצבים שבהם סביר להניח שניתן ליישם הבנה משותפת באופן מובלע (לדוגמה, באמצעות ההנחה שכולם קיבלו הכשרה אחידה) או באופן פורמלי (באמצעות ההנחה שהם פונים לספרי הדרכה למשתמשים), יש פחות חשיבות לחוסר הוודאות הנובע מהשמטות.

חלוקת עבודה: בשימוש ב-XML יש הגדרה ברורה יותר של תחומי האחריות. עיצוב מטלות DTD ושיתוף נתונים מתבצע על-ידי אנשי מקצוע; הזנת נתונים ושיתוף נתונים מתבצעים על-ידי מחשבים עם מעט התערבות ידנית. לעומת זאת, יתכן שלא ניתן בכלל למחשב, או אפילו ליישם כישורים פקידותיים, בהזנת נתונים לצורך שימוש באונטולוגיה, משום שלפעמים מזינים למערכת הגדרות וכללים שניסוחם מצריך כישורים החורגים מכישורים פקידותיים בלבד. לפיכך, מטלות של טיפול בנתוני XML הן יעילות יותר בדרך כלל. אבל בשיתוף נתונים ממוחשב, מערכת מבוססת XML תהיה פגיעה יותר לנתונים שאי אפשר לפרשם כהלכה מאשר מערכת מבוססת אונטולוגיה, שמסוגלת ליישם סֶמַנטיקה לצורך פרשנות.

כמעט-פְּריקוּת: כאשר האינטראקציות בין יחידות כמעט-פריק?ת הן מזעריות, המסקנה המתחייבת היא שבתוך היחידה עצמה מתקיימות אינטראקציות רבות מאוד. יחידה כזו יכולה איפוא להתארגן להפחתת המורכבות של האינטראקציות, על סמך העקרונות של הגיון מוגבל וחלוקת עבודה. כל עוד ניתן להתייחס ליחידה כאל כמעט-פריקה, ההגיון המוגבל וחלוקת העבודה מספקים סיבות לכך שהשימוש ב-XML מפחית מורכבות. אבל אם לא ניתן להניח כמעט-פריקוּת, שימוש באונטולוגיה מגדיל את הסבירות לכך ששיתוף נתונים עדיין יהיה אפשרי.

להלן סיכום ההשוואה בין XML לעומת אונטולוגיות: יחידה היא כמעט-פריקה לצורך שיתוף נתונים אם סביר להניח שניתן ליישם הבנה משותפת באופן מובלע או פורמלי כדי לפרש את הנתונים במסגרת אותה יחידה (קהילה). בתוך יחידה כמעט-פריקה, חשוב להפחית את המורכבות שבשיתוף הנתונים. אם לא ניתן להניח כמעט-פריקות, יתכן שיש צורך בהפחתת אי הוודאות שבשיתוף הנתונים על-ידי הגדרה מפורשת ופורמלית של סֶמַנטיקה באונטולוגיות. פרט למקרים שבהם הפחתת אי הוודאות חשובה יותר מהפחתת המורכבות לצורך השימוש ברשת הסֶמַנטית, הרי ש-XML יהווה מצע עדיף, או לפחות יותר מוכח, לשיתוף נתונים, מאשר אונטולוגיות.

זה משקף את קביעתו של פוקס כי ככל שהארגון בונה את עצמו להפחתת מורכבויות, כך הוא גם מתמודד עם אי-ודאות גוברת.[5]

שימוש ב-XML להפחתת מורכבות

איור 1 מציג מודלים לקידוד הבנה משותפת. מודלים אלה משקפים מבנים המיועדים להפחתת מורכבות התיאום. במודל הקבלנות, אפשר לראות את הרשת העסקית כיחידה כמעט-פריקה, שכן יש שיתוף גדול בנתונים בין החברות ומערכי השירות שלה, שהם כמעט-פריקים במידה גדולה בהרבה. בהתאם לניתוח המשווה בין XML לאונטולוגיות, שימוש ב-XML לשיתוף נתונים בתוך הרשת הוא איפוא הולם. דוגמה למודל זה היא חברת Convist, מעין בורסה מקוונת לתעשיית הרכב, המשתמשת במערכת xCBL המבוססת XML של Commerce One. במודל המוקד התפקודי, החברה כולה קרובה יותר לכמעט-פריקוּת מאשר המחלקות והתפקודים השונים שבה, ולכן שימוש ב-XML בתוך החברה הוא בהחלט במקום. לדוגמה, WebMethods מספקת כלים מבוססים XML המאפשרים לחברות לבצע שילוב נתונים.

איור 1: יחדיות כמעט פריקות לשיתוף נתוננים: התאמה ל-XML

איור 1: יחדיות כמעט פריקות לשיתוף נתוננים: התאמה ל-XML

שימוש באונטולוגיות להפחחת אי-ודאות

מכונות הצילום שימשו כמשאבים רופפים, אשר החלישו את תלותו של המשתמש בטפסים במעצב הטפסים, מה שהוביל לכך שמשתמשים לקחו לעצמם אחריות עיצובית על טפסים שונים. התוצאה המקבילה בתחום שיתוף נתונים היא נטילת האחריות לחלק משילוב הנתונים של החברה בידי מחלקות או ישויות אחרות בתוך החברה. להלן תיאור של מודל משאבים רופפים מסוג זה.

איור 2: יחידות כמעט פריקות לשיתוף נתונים: התאמה לאונטולוגיה

איור 2: יחידות כמעט פריקות לשיתוף נתונים: התאמה לאונטולוגיה

במודל זה, ההקבלה למכונת הצילום היא כלי למידול נתונים. באמצעות הכלי, עובדי ידע – ולא אנשי מקצוע ייעודיים למידול נתונים – המיישמים הבנה משותפת לצורך עבודתם, הם גם אלה המקודדים אותה. ההבנה המשותפת המקודדת משמשת לתרגום נתונים והכנתם לשימוש בידי ישות חיצונית. טפסים בלתי-רשמיים המופקים באמצעות מכונות צילום מכניסים למערכת אי-ודאות משום שהמטלות לא עוצבו כדי לטפל בהם. באותו אופן, הכלי למידול נתונים מקנה לעובדי הידע את היכולת לקודד הבנה משותפת ייחודית להם, באופן היוצר נתונים שמצריכים פרשנות ייחודית בלתי-צפויה או שלא נחזתה מראש, על-ידי ישות אחרת. אחת הדרכים להכרה בכך שאי-ודאות היא בלתי-נמנעת, היא לא להתחייב על האופן שבו יפורשו הנתונים מישות אחת, וזו משמעות הסימן "?" המופיע במודל (ראו איור 2).

במודל זה, לא ניתן לדעת מראש אם ישות אחת, וישות אחרת האמורה להשתתף בנתוניה, כלולות במסגרת של יחידה כמעט-פריקה. הפחתת המורכבות שמציע השימוש בכלי למידול הנתונים מתקזזת על-ידי אי-הוודאות שבהפקת נתונים שלא ניתן לפרשם במקרה של שימוש ב-XML. בניגוד לכך, עובדי ידע יכולים לייצג במפורש סֶמַנטיקה לצורך פרשנות, ולהכניס פחות אי-ודאות אם הם משתמשים באונטולוגיות. לכן, התחזית היא שאונטולוגיות לרשת הסֶמַנטית יזכו לאימוץ נרחב אם יהיו בנמצא כלים לפיתוח אונטולוגיות שיאפשרו שימוש מעשי בידיהם של עובדי ידע, ולאו דווקא של אונטולוגים (אנשי מקצוע שייעודם מידול אונטולוגיות).

הכלי יוערך על-פי שיקולים כגון קלות השימוש והיכולת לבטא מושגים עשירים ללא מומחיות בייצוג ידע מורכב. עם זאת, שיקולים אלה לא יהיו המכריעים באימוץ אונטולוגיות. באיור 2, ההגיון שבהגדרת ישות מסויימת כיחידה כמעט-פריקה אינו כדי לקודד הבנה משותפת. אם כך היה, האונטולוגים היו המקודדים. ההגיון בכך הוא שצורכי העסק מתמלאים באמצעות עובדי ידע בעלי כישורים מועילים. עקרון ידוע בניהול ידע (KM) הוא שאנשים לא יתרמו לבסיס הידע אם הדבר גוזל יותר מדי זמן ומאמץ על חשבון עבודתם [4]. כלים רבים לניהול ידע (Intraspects הוא דוגמה אחת) עוצבו על-פי עקרון זה. המידע המיועד לשיתוף מקודד כתוצר לוואי של עבודת העובדים המשתמשים בכלי למטלות כגון עיבוד דואל החיוני לעבודתם.

ג'ספר ואוסקולד [7] מסווגים יישומים אונטולוגיים כחיבור "ניטרלי", או נטול-מחַבֵּר (neutral authoring), אונטולוגיה כמִפרט, גישה משותפת למידע, וחיפוש מבוסס-אונטולוגיה. רק במקרה של אונטולוגיה כמִפרט – אונטולוגיות פרטיות (domain ontologies) הנוצרות ומשמשות כבסיס להגדרת מִפרטי תוכנה ולפיתוח תוכנות – מפתחים את האונטולוגיה במהלך ביצועה של עבודה אחרת, דהיינו פיתוח תוכנה, ומייצרים אותה כמוצר-לוואי. לפיכך התחזית היא שצפוי אימוץ נרחב של אונטולוגיות, כאשר האונטולוגיה שפותחה על-ידי עובד הידע משמשת את העובד בלי קשר לשאלה אם היא משמשת דווקא לשיתוף נתונים. לכן, יתכן שבהתחלה יהיה אימוץ נרחב של אונטולוגיות לפיתוח מפרטי תוכנה. אפשר לטעון שאונטולוגיות "קלילות" לצורך חיפוש מבוסס אונטולוגיה כבר מצויות בשימוש נרחב. אבל אונטולוגיות אלו אינן עונות להגדרה של אונטולוגיה המשמשת למאמר זה, משום שלא סביר שמכונות יוכלו לפרש את הייצוגים שבאונטולוגיות אלו באופן אוטומטי.

אונטולוגיה לפיתוח מִפרט תוכנה מועילה אפילו אם היא זוכה ליישום חד-פעמי, למשל בפרוייקט תוכנה גדול [7]. בשביל ראשוני הכותבים של יישומי הרשת, הסקרנות האינטלקטואלית היתה סיבה מפתה מספיק לפַתח אתרי רשת שרוב האנשים לא ידעו עליהם דבר. פיתוח אונטולוגיה מבודדת לצורך מִפרט תוכנה, ללא תיאום עם מאמצים אחרים דמויי-אונטולוגיה, כגון גישה מבוזרת, היא דרך להבאת אונטולוגיות מעשיות אל הרשת הסֶמַנטית. קשה להניח הנחות מבוססות על אופן השימוש באונטולוגיות אלו על-ידי אחרים, לכן יש לעצב אותן בדגש על גמישות וסתגלנות, מבלי להתחייב יותר מדי על צורת השימוש. לכן, התחזית היא: השלב הראשון בהתפתחות הרשת הסֶמַנטית יהיה כנראה פיתוח אונטולוגיות מבוזרות, סתגלניות, לכתיבת מפרטי תוכנה.

סיכום

מאמר זה מנסה לחזות את עתידן של אונטולוגיות לרשת הסֶמַנטית (מבוססות רשת, המקבילות לשימוש בטפסים עסקיים בצירוף נוהלי עבודה מתוקננים) באמצעות ניתוח ההיסטוריה של הטפסים העסקיים שהתבססו על נייר. החידושים בתחום הטפסים אומצו כדי להפחית את מורכבות המידע, המטלות והתיאומים. אבל לאחד מהחידושים הללו, מכונת הצילום, היה תוצר-לוואי בדמות אי-הוודאות הגוברת שנלוותה לעיבוד טפסים. בהערכת הסיכויים לאימוץ אפשרי של שני פתרונות מתחרים המהווים הקבלה לטפסים בתחום הרשת הסֶמַנטית – נטען כאן כי כל עוד הצורך הדחוף הוא הפחתת מורכבות, הרי שהשימוש ב-XML עדיף על השימוש באונטולוגיות. כמו כן נאמר כי החידוש שבכלי מידול נתונים המאפשרים לעובדי הידע לקודד מידע ייחודי להם ולצפות לשיתוף במידע זה, יגדיל את אי הוודאות בשיתוף בנתונים. כשזה יקרה, סביר שהשימוש באונטולוגיות יועדף על פני השימוש ב-XML לצורך קידוד מידע. תחזיות אלו מאשרות את מה שכמה בקרב קהיליית האונטולוגיות חושדים כי יקרה, ושמות דגש על:

עיצוב כלי לפיתוח אונטולוגיות שיוכח כמועיל ושימושי לעובד ידע, אשר אינו מומחה לייצוג ידע.

פיתוח אונטולוגיות מבוזרות וסתגלניות, שיש להן ערך לעצמן ומעבר לעצמן, אבל כאלה שהפוטנציאל המלא שלהן יתממש רק אם ישמשו במצורף לאונטולוגיות אחרות בעתיד כדי לאפשר שיתוף נתונים. הערך המיידי לכך עשוי להיות השימוש באונטולוגיות למפרטי תוכנה.

יש לציין כאזהרה כי תחזיות אלו אינן מבוססות על מודל אנליטי או אמפירי קפדני. תחת זאת הן מושתתות על הקבלה ועל מודל רעיוני, ולפיכך נחוץ מחקר רב נוסף כדי לחזק את תקפותן. אף על פי כן הן התוצר הסביר של ניתוח שיטתי, וככאלו אני מקווה שיעוררו מחשבה ויניעו שאלות מחקריות קונקרטיות על הרשת הסֶמַנטית המצויה בראשית דרכה. איך פועל הכלי לפיתוח אונטולוגיות? איך נבנות אונטולוגיות מבוזרות וסתגלניות? כיצד הן מאורגנות לצורך שיתוף נתונים בעתיד? תרומתו העיקרית של מאמר זה היא שהוא מביא הסבר הגיוני לשאלה מדוע אלו יכולות להיות שאלות בוערות שיש להציג על מנת להבין כיצד יתפתחו האונטולוגיות והרשת הסֶמַנטית.

References

  1. Barnett, R. Managing Business Forms. Robert Barnett and Associates Pty Ltd., 1996
  2. Berners-Lee, T., Hendler, J., and Lassila, O. The semantic Web. Scientific American (May 2001).
  3. Campbell, A.E. and Shapiro, S.C. Ontological mediation: An overview. In Proceedings of the IJCAI Workshop on Basic Ontological Issues in Knowledge Sharing. AAAI Press, Menlo Park CA, 1995.
  4. Davenport, T.H. and Prusak, L. Working Knowledge: How Organizations Manage What They Know. Harvard Business School Press, Boston, MA., 1998.
  5. Fox, M.S. An organizational view of distributed systems. IEEE Trans. Syst. Man. Cybernetics 11, 1 (1981), 70–80.
  6. Gruber, T.R. Towards principles for the design of ontologies used for knowledge sharing., In Guarino and Poli, R., Eds. International Workshop on Formal Ontology. N. Padova, Italy, 1993.
  7. Jasper, R. and Uschold, M. A framework for understanding and classifying ontology applications. in IJCAI-99 Ontology Workshop. Stockholm, Sweden, July, 1999.
  8. Labrou, Y. and Finin, T. Yahoo! as an ontology—Using Yahoo! categories to describe documents. In Proceedings of the 8th International Conference on Information and Knowledge Management. Kansas City, MO, Nov. 1999, pp. 180–187.
  9. Simon, H.A. Models of Man. Wiley, New York, 1957.
  10. Simon, H.A. The architecture of complexity. In Proceedings of the American Philosophical Society 106, (1962), pp. 467–487.

אודות הנרי קים

הנרי מ' קים ([email protected]) הוא פרופסור למערכות מידע בבית-הספר לעסקים ע"ש שוליש באוניברסיטת יורק, טורונטו, קנדה. המאמר פורסם בעיתון Communication of the ACM, Vol 45, No. 2, February 2002.