כתב העת

היכרות עם Big Data: תשתית ושיקולי רשת

04.01.2014

תמצית מנהלים

סביר להניח כי כיום ה-(BD) Big Data הוא יוצר הבאז הגדול ביותר ב-IT (טכנולוגיית מידע). תוך שילוב עם וירטואליות ומחשוב ענן BD (cloud computing) הוא יכולת טכנולוגית שתאלץ את מרכזי המחשוב (Data Centers) להתפתח באופן משמעותי בחמש השנים הקרובות. בדומה לוירטואליות, תשתית ה- BD היא ייחודית ויכולה ליצור נסיקה ארכיטקטורית בדרך בה מקושרת ומנוהלת תשתית של מערכות, אחסון ותוכנה. שלא כמו פתרונות אנליטיים עסקיים קודמים, יכולת זמן האמת של פתרונות BD חדשים, יכול לספק אינטליגנציה עסקית קריטית שעשויה לשנות ולעצב את תהליך קבלת ההחלטות של תאגידים לעד. על כן, הדרך בה תשתית IT מקושרת ומופצת מבטיחה אנליזה קריטית וחדישה.

המאמר הנוכחי מספק סקירה כללית על ארכיטקטורות ²Hadoop מסורתיות המעוצבות בכדי להבטיח ניתוח מורחב ובעל ביצועים גבוהים של BD. הכוונה, אפוא, היא לספק בסיס הבנתי לארכיטקטים סקרנים של מרכזי המחשוב ולהיות נקודת פתיחה לפעולת יישום מעמיקה יותר. המאמר לא מספק רקע על הנושא, אך ישנם אזכורים בסוף המאמר שיספקו מידע נוסף בנוגע למסע הזה. המטרה האולטימטיבית היא להסמיך את ה-IT לקבל תשתית אשר יכולה לספק אינטליגנציה עסקית מיידית ומעמיקה לתהליך קבלת ההחלטות מהיר. כל מסע מתחיל בצעד ראשון, ומאמר זה הוא הצעד הראשון בכל הנוגע לזיהוי הערך של תהליך ה-BD.

הקדמה

מספר רב של חידושים טכנולוגיים דחפו את העלייה הדרמטית במידע ובאיסופו. עקב כך BD נעשה תחום עכשווי להשקעה אסטרטגית עבור ארגוני IT. לדוגמא, העלייה במספר המשתמשים בסלולר העלה את מצבור סטטיסטיקות המשתמשים של הארגונים – גיאוגרפי, סנסורי, יכולת ומידע – שעשוי לספק אינטליגנציה עסקית חזקה להפליא. בנוסף, השימוש הרב בסנסורים עבור כל דבר החל מדפוסי תנועה, התנהגות צריכה, וניהול מצאי בזמן אמת, הוא דוגמא עיקרית לעלייה המאסיבית של המידע. המידע הזה נאסף בזמן אמת ומספק הזדמנות ייחודית ורבת כוח במידה וניתן לנתח ולסנכרן את המידע במהירות. תקשורת בין מכונה למכונה (Machine-to-machine) הוא מקור נוסף של BD שלעיתים קרובות חומק מבעד לרדאר. העלייה של תעשיית ניהול ביטחון המידע (SIM) והבטחת מידע וניהול אירועים (SIEM) נמצאת בלב ליבו של איסוף, ניתוח ומתן תגובה אקטיבית לאירועי מידע מקבצי לוג של מכונות אקטיביות. בליבו של המגמה הזו נמצאת היכולת ללכוד, לנתח ולהגיב למידע ולמגמות במידע בזמן אמת.

למרות שברור כי טכנולוגיות חדשות וצורות תקשורת אישית חדשות דוחפות את מגמת ה-BD מעלה, יש להתחשב בכך שאוכלוסיית האינטרנט צמחה ב-6.5% משנת 2010 ל-2011 וכעת מייצגת למעלה משני מיליארד משתמשים. אמנם מספר זה גבוה מאוד, אך אל לנו לשכוח שחלק כבד מהעולם עדיין לא מחובר. ייתכן ולא יגיע היום שכל העולם יהיה מחובר, אך אלה אשר מחוברים- מחוברים יותר מאי פעם. אם בעבר מחשב שולחני ומחשב נייד היו עניין שבשגרה, כיום נכנסו לשוק גם הסמרטפונים והטאבלטים שמשכו את המהפכה מעלה והובילו לכך שבכל שנייה ושנייה מידע נוצר ברשת:

בשנת 2011 בלבד בני אדם יצרו למעלה מטריליון GB של מידע.
כמות המידע צפוי להכפיל את עצמו ב-50 עד שנת 2020.
בגוגל ישנם יותר משני מיליון הקשות חיפוש בכל דקה.
72 שעות של סרטוני וידאו מועלים ל-You Tube כל דקה.
ישנם 217 משתמשי אינטרנט נייד חדשים כל דקה.
משתמשי הטוויטר שולחים יותר ממאה אלף ציוצים כל דקה (יותר מ-140 מיליון ביום).
חברות, מותגים וארגונים מקבלים 34,000 לייקים ברשתות החברתיות כל דקה.

תאגיד המידע הבינלאומי (IDC-international data corporate) צופה כי טכנולוגיית ה-BD והשירותים יגיעו לגובה של 16.9$ מיליארד עד שנת 2015 עם צמיחה של 40% במהלך תקופת החיזוי. הטכנולוגיה והשירותים הללו כמובן ישפיעו ישירות על ספקי הטכנולוגיה של מסדי נתונים SQL, Hadoop ומערכות הקבצים של MapReduce, אך יתרה מכך הם ישפיעו על שרתים, אחסונים, ותשתיות רשת חדשות שיעוצבו ספציפית בכדי למנף ולייעל את פתרונות הניתוח החדשים.

מה זה Big Data?

המושג BD מתייחס לאיסוף ולניתוח של כל מאגר מידע משמעותי המכיל תובנות נסתרות או אינטליגנציה (מידע על המשתמש, מידע סנסורי, מידע על מכונות). כל עוד הוא מנותח באופן נכון, BD יכול להבטיח תובנות עסקיות חדשות, לפתוח שווקים חדשים, וליצור יתרונות תחרותיים. בהשוואה למידע המבני של יישומים עסקיים, BD (עפ"י IBM) מורכב משלושת התכונות הבאות:

מגוון- מתפרס מעבר למידע מובנה וכולל מידע חצי-מובנה או מידע לא מובנה מכל הסוגים, כמו טקסט, שמע, וידאו, קבצי LOG ועוד.
כמות- מגיע בגודל אחד: ענק. ארגונים מוצפים במידע, וצוברים בקלות כמויות אסטרונומיות.
מהירות- לעיתים יש לנתח את המידע במהירות בזמן שהוא זורם לארגון בכדי למקסם את ערך המידע העסקי.

מקרי השימוש ב-Big Data

ישנם מקרי שימוש (Case Studies) רבים ב-BD בכל תעשייה שניתן לחשוב עליה. ישנם עסקים שהשכילו לשלב את הטכנולוגיה בשלב מוקדם יותר מאשר אחרים. הוכח כי ארגונים המאמצים את הטכנולוגיה ייהנו מיתרונות רבים מהירים וחדשניים בכל הנוגע להסתגלות ולמציאת פתרונות.
תרחישי השימוש ב-BD כוללים בין היתר:

ספקי שירות פיננסי מאמצים את תשתית הניתוח של BD כדי לשפר את הניתוח של לקוחותיהם, אשר מסייע להם בקביעת הזכאות עבור הון נכסים, ביטוח, משכנתא ואשראי.
חברות תעופה ומשלוח משתמשות ב-BD בכדי לעקוב אחר צריכת הדלק ודפוסי התנועה בין הנתיבים שלהם בזמן אמת לשם חיסכון בעלויות והגברת היעילות.
טלקומוניקציה משתמשת ב-BD בכדי לנתח את התנהגות הצרכנים ודפוסי הביקוש עבור אחיזה יעילה יותר. הם גם מאחסנים ומנתחים את המידע הסנסורי הסביבתי בכדי לספק תובנות על חולשות התשתית ולספק אינטליגנציית ניהול סיכונים טובה יותר.
חברות מדיה ובידור משתמשות בתשתית ה-BD כדי לשפר את תהליך קבלת ההחלטות סביב מחזור החיים של הצרכן ושיפור תוכניות השיווק.

השימוש ב-BD מקיף וחולש על כלל החברות והתעשיות, לכן גם אם העסק שלך לא משתמש בתשתית זו תהיה בטוח שהמתחרים שלך עושים זאת. השאלה האמיתית היא כיצד תוביל לאופטימיזציה את הסביבה שלך כדי ליצור פתרונות מהירים ויעילים יותר שיקנו לך יתרון תחרותי על פני המתחרים שלך? מדוע עניין זה בהול כל כך? על פי McKinsey Global Institute (MGI), ניתוח סטים גדולים של מידע נעשה לכלי תכנון מרכזי. תחת האזהרה כי מדיניות עכשווית ותוכנות תמיכה חייבות להילקח בחשבון ויש ליישמן, BD ייעשה לכלי קריטי עבור פיתוח תוכניות ל:

מחקר ותכנון תחרותי
פרודוקטיביות עתידית וצמיחת המוצר
חדשנות של מוצרים ושירותים
שביעות רצון הלקוחות

טכנולוגיות ה-(Hadoop) – Big Data

הכוח המניע העומד מאחורי יישום ה-BD הוא התוכנה- גם התשתית וגם הניתוח. העומדת בראש התשתיות היא תוכנת ה-Hadoop. תוכנה זו היא למעשה תשתית ניהול מידע שהשימוש בה נעשה בכדי להפיץ, לקטלג, לנהל ולחקור מידע בין ענפי השרתים האופקיים הרבים והמורחבים. יאהו! יצרה אותו על בסיס יישום קוד-פתוח של תשתית שאילתת המידע (נוצר אצל גוגל) הנקראת MapReduce. תוכנת ה-Hadoop היא מסגרת עבודה אשר מעבדת, מאחסנת ומנתחת כמויות מידע מאסיביות של מידע מופץ ולא מובנה. כתת מערכת של אחסון קבצים, תוכנת ה-(HDFS) Hadoop Distributed File System עוצבה כדי להתמודד עם petabytes ועם exabytes של מידע מופץ בין ענפים רבים במקביל. תרשים 1 מציג סקירה של פריסת תוכנת ה-Hadoop בסביבת הניתוח של ה-BD.

מה המשמעות של Big Data עבור IT?

הכוח המניע את ה-BD נמתח משילובים של טכנולוגיות חדשניות, תוכנות בוגרות של קוד פתוח, חומרות מסחריות, רשתות חבריות הנמצאות בכל מקום והתפשטות המכשירים הסלולאריים. כל הנ"ל הוביל לעלייה של ה-BD וליצירת נקודת זינוק לאיסוף מידע בזמן אמת ולניתוח משימות שקריטי כל כך עבור חברות בימים אלו. אולם, בהתחשב בכך שהמידע והמבנים שונים במהותם, ניתן להסיק כי גם התשתית, הכלים, והארכיטקטורה התומכים בניתוח בזמן אמת שונים גם הם. כפתרון IT, ה-BD משקף את הצמיחה בתוכן ובמקורות המידע, יחד עם ההתפשטות של הטכנולוגיה על חיי היומיום שלנו. כאשר מעשינו מקושרים יותר ויותר ולעיתים תלויים ברשת- והמכשירים אליהם אנו מקושרים הם עצמם נשלטים על ידי שלל סנסורים- עלינו לצפות כי הזרם העכשווי ימשיך לצמוח. בתוך מרכזי המחשוב, כל ענף (שרתים, אחסון ויישומים) יוצר מספר עצום של קבצי לוג וזרמי מידע מבודדים שיכולים להיאסף ולעבור ניתוח. כאשר עלויות האחסון צונחות, העלויות של שמירה ומינוף אפילו של המידע הזניח ביותר נעשה עניין פעוט וחסר חשיבות.

הבנה של זרמי תנועת המידע

ב-20 השנים האחרונות, תשתית מרכזי המחשוב עוצבה באופן שמאבטח מידע, יישומים, ואבטחת הצרכן הסופי בכדי להגיע לגישה נוחה ורמת ביצועים גבוהה. המבנים הללו נעשו לדבר שבשגרה, ומנהלי הרשתות יכולים להניח כי גם צרכני היישומים הגדולים ביותר יכולים להיות מקור להאדרה, ביצוע ותצוגה. התשתית הזו נקראה לא פעם ארכיטקטורת שלוש השכבות (three-tier architecture). השימוש במחשוב, האחסון והרשת שבאה כדי לתמוך בארכיטקטורה, היא בעיקר אופטימאלית להעברת מידע ותשורת נלווית מעלה-מטה בין הצרכן הסופי ומסדי הנתונים (תנועה הנקראת צפון לדרום).

במהלך השנים האחרונות דפוסי המסלול הזה השתנו באופן דרמטי. השינויים הארכיטקטוניים הללו מייצגים למעשה את היישום המודרני ביותר של סביבת ה-BD. כאשר המידע נעשה יותר אופקי ומופץ דרך ענפי הרשת, התנועה בין השרת וענפי האחסון נעשתה גדולה הרבה יותר מאשר התנועה בין השרת למשתמש הסופי. המידע עצמו יכול להיות מיוצר על ידי השרתים, היישומים והאחסון בניגוד למקור חיצוני (מערכת קבצי LOG לדוגמא). תנועת הרשת מכונה-למכונה זו ושיתוף המידע נקרא ברוב המקרים תנועה מזרח-מערב. בנייה של מרכז מידע אופטימאלי בא לספק קישורים מהירים אופטימאליים עבור תנועה מזרחית-מערבית והוא קריטי בפיתוח של יישומי מידע בעלי ביצועים טובים וסקלאבילים.

תשתית מידע מורחבת

מאפיין ייחודי נוסף של Big Data, שלא כמו סטים גדולים של מידע שאוחסנו ונותחו בעבר, בעיקר דרך מחסני נתונים, BD נוצר מאלמנטים קטנים דיסקרטיים אשר ניתנים להרחבה עם תוספי זמן אמת ומודיפיקציות. הוא אינו עובד היטב בעיבוד תנועות אונליין (OLTP-online transaction processing) או עם כלי ניתוח SQL מסורתיים. ה-Big Data דורש מסדי נתונים שטוחים ומורחבים אופקית, לעיתים קרובות יחד עם כלי חיפוש הפועלים בזמן אמת עם נתונים ממשיים (בניגוד לסנאפשוטים מבוססי זמן) הטבלה הבאה משווה מידע מסורתי ל-BD:

הטבלה הבאה משווה מידע מסורתי ל-BD

מרכיבים	מידע מסורתי	Big Data
ארכיטקטורה	ממורכז	מופץ\ מפוזר
גודל המידע	Terabytes	Petabytes to exabytes
סוג המידע	מבני או תנועתי	לא מבני או חצי מבני
יחסי המידע	יחסים ידועים	מורכב\ יחסים לא ידועים
מודל המידע	סכמה קבועה	חסר סכמה

תעשיית עסקים קטנים שלמה הולכת ודוחפת את יישומי ה-BD. ישנן דרכים חדשות לתמיכה במסדי נתונים, חלקן משתמשות ב-SQL מסורתי לחיפושים (לרוב נקרא SQL חדש), וחלק שנטשו לגמרי את ה-SQL לטובת ספריות חיפוש חדשות (ברוב המקרים נקראות NoSQL). עסקים אחרים המנסים למנף את תשתית ה-SQL הגדולה שלהם החלו לנטוש את תשתיות מסדי הנתונים שלהם בכדי ליצור סביבה גמישה, מורחבת אופקית כדי למנף את הכלים והיכולות של ה-BD. תהליך זה הוסיף מורכבות ויצר נקודות החלטה שונות עבור ארגוני IT כאשר הם מתכננים את יישומי ה-BD שלהם. באותה נשימה, להשפעה של הביצועים הגבוהים ולניתוח מידע בזמן אמת יש השפעה מהותית על אספקטים רבים של טכנולוגיית מרכזי מחשוב וארכיטקטורות.

מקבץ ה-Hadoop

תוכנת ה-Hadoop אשר כוללת בחובה את מערכת הפצת הקבצים הידועה כ-(HDFS) Hadoop distributed file system ו-Mapreduce, היא טכנולוגית BD קריטית המספקת תשתית סקלאבילית של מערכת קבצים ומאפשרת לקו האופקי של המידע להגיע לחיפוש מהיר, גישה וניהול מידע. ברמתו הבסיסית, יישום ה-Hadoop יוצר ארבעה ענפים ייחודיים לשם קטלוג, מעקב וניהול מידע דרך התשתית: ענף המידע, ענף הלקוח, ענף השם, ומעקב העבודה. היכולות של ארבעת הסוגים הללו הן ברוב המקרים להלן:

ענף המידע– ענפי המידע הם המאגרים של המידע והם מורכבים מתשתיות קטנות יותר של מסדי נתונים המוצבות אופקית בין מקורות המחשוב ומאחסון דרך התשתית. למאגרים גדולים יותר של BD יהיו ענפי מידע רבים יותר. החשש הארכיטקטורי העיקרי הוא שלא כמו תשתיות מסורתיות של מסדי נתונים, לענפי המידע הללו אין כל דרישות הכרחיות למיקום של הלקוחות, ניתוחים ואינטליגנציות עסקיות אחרות.
לקוח– הלקוח מייצג את ממשק המשתמש ליישום ה-BD ומנוע החיפוש. הלקוח עשוי להיות שרת או מחשב שולחני בעל ממשק משתמש רגיל.
ענף השם– ענף השם הוא המקביל של כתובת הראוטר עבור יישום ה-BD. ענף זה משמר את האינדקס והמיקום של כל ענף מידע.
מעקב העבודה (job tracker)– ענף זה מייצג את מנגנון תוכנת מעקבי העבודה כדי להפיץ ולקבץ את תוצאות החיפוש בין מספר הענפים עבור ניתוח לקוח אולטימטיבי.

בתוך כל ענף מידע עשויים להימצא מספר עשרות של שרתים או אלמנטים של אחסון מידע ורובד של מתג המקשר בין כל אלמנט מידע והמקבץ הכללי של ה-Hadoop. תשתית ה-BD בכוונת תחילה מפרקת את המידע אל תוך ענפים אופקיים, שבאופן טבעי מוסיף שהייה (latencies) בין הענפים. עניין זה חשוב כיוון שלוקאליות וקפיצות רשת (network hops) מייצגים שהייה פוטנציאלית בארכיטקטורה.

לדוג', התרשים הבא מתאר תצוגה גרעינית של יישום Hadoop של BD מתוחכם יותר שמדגים ארכיטקטורה טיפוסית של ענפי מידע אינדיבידואלים במקבץ. מעקב העבודה נדרש בכדי לעקוב אחר חמשת הקפיצות הקשורות לכונן במתג 3 בכדי לאפשר גישה למידע בכונן במתג 8. הקפיצות האינדיבידואליות הללו מייצגות גם את השהייה (latencies) ואת צווארי הבקבוק הפוטנציאליים בביצועים.

התרשים הנ"ל מציג גם את כיוון הזרימה של תנועת הרשת בתשתית ה-BD. בדומה לשכיחות של סביבה מבוססת-ענן של העת האחרונה, BD יוצר יותר תנועה מזרחית-מערבית (שרת-שרת, שרת-אחסון) מאשר צפונית-דרומית (שרת-לקוח, שרת-החוצה). למה זה חשוב? המידע המופץ של ה-BD כיום וארכיטקטורת הענן יוצרת עומס עצום על קישור ענפים הרבה יותר מאשר על קישור לקוחות. לכל אינטראקציה של לקוח בודד, ישנן מאות או אלפי אינטראקציות של ענפי מידע. זה עומד בניגוד לארכיטקטורה שרווחה ב-20 השנים האחרונות. הארכיטקטורות הללו הניחו כי הלקוח, ולא התשתית התומכת, מספק את המעמסה הממוחשבת. עקב כך, מנהלי הרשתות צריכים לשקול מערכות מפיצות כמו Hadoop. תוכנת Hadoop יחד עם תשתיות מחשוב הענן פועלות כמקבץ ומתמודדות עם מאגרי מידע עצומים, המופצים על פני אינספור ענפים. המקבצים של Hadoop פועלים במקביל ובאופן רחב. למרות שתוכנה זו נחשבת לאגנוסטית לתשתית הרשת, היא מחייבת את הרשת בדרישות הבאות:

לוקאליות של המידע– אופרציית הפיזור והסידור של המידע בין ענפי ההפצה של Hadoop מריצה עבודות במקביל וגורמת לתנועה מזרחית-מערבית שעשויה לספוג השפעה נגדית עקב קישוריות רשת נמוכה. על הרשת לספק רוחב פס גבוה, שיהוי נמוך, וכל קישור (any-to-any) בין הענפים כדי להבטיח אופטימיזציה של התוכנה.

Scale-out– פריסות (deployments) עשויות להתחיל עם מקבץ קטן ואז להתרחב (scale out) לאורך זמן כאשר הלקוח מזהה הצלחה ואז מתעדף שינוי. ארכיטקטורת הרשת הבסיסית צריכה להתרחב באופן חלק עם מקבצי ה-Hadoop ולספק ביצועים ניתנים לחיזוי.

עלייה בתנועה מזרחית-מערבית– כמו שצוין לעיל, דפוסי התנועה נעים מ-1-1, 1-רבים, רבים-1, ורבים-רבים. הזרימות הללו נדרשות על ידי שילוב של שידור לזרימות של יעד בודד או ליעדים רבים בין ענפי התוכנה שרצים במקביל. זה דורש רוחב פס גבוה, תשתית שיהוי נמוכה לשם תקשורת יעילה בין ענפי התוכנה.

כתוצאה מכך, זה קריטי עבור ארכיטקטורת הרשת לתעדף לוקאליות, מורחבות אופקית של ביצועים, וקישוריות בין ענף שרת לענף שרת. בנוסף, השכיחות של השיהוי ברובד הקפיצות (hops) של הענפים היא הוכחה שארכיטקטורת רשת חדשה נדרשת עבור רמת ביצועים גבוהה.

מקורות נוספים

Defining Characteristics of QFabric by Pradeep sindhu
Understanding Big Data and the QFabric System: QFabric System Enables a High-Performance, Scalable Big Data Infrastructure with Simplicity
The Role of the Network Has Changed. Are You Ready?

הערות

המאמר נכתב על ידי חברת juniper והתפרסם באישורה.
Hadoop הוא פרויקט קוד פתוח של קרן התוכנה אפאצ'י המגדיר מסגרת תוכנה ליישום מבוזר המעבד כמויות גדולות של נתונים (Big Data). (מתוך ויקיפדיה)

תרבות דיגיטלית