חזרה לעמוד הקודם

Big Data בחינם – איפה אפשר למצוא נתונים חופשיים ברשת?

כולם מדברים לאחרונה על Big Data, אבל איפה אפשר למצוא המון נתונים (בחינם)? הרשימה הנוכחית מרכזת כמה אתרים מרכזיים שמאפשרים למצוא נתונים (או מאגרי נתונים). כמובן שהמאגר הראשון שאני אמליץ עליו יהיה מאגר STS, אבל מה עושים כאשר רוצים למצוא נתונים שאינם עוסקים באינטרנט בישראל?

The Data Hub

The Data Hub הינו מאגר מידע ברישיון פתוח (Open Database License) הנשען על קהילת משתמשים המעדכנים את המאגר. במאגר אפשר למצוא הפנייה לסדרות חיצוניות כמו גם סדרות נתונים שחברי הקהילה אוספים או מעלים בעצמם. כיום נמצאים במאגר כ-4257 סדרות אותן ניתן לחפש על סמך מילות חיפוש ולסנן את התוצאות לפי תגיות, מבנה המידע, קטגוריות ועוד.

Datamob

אתר Datamob שם לו למטרה להציג בצורה פשוטה כיצד ניתן להשתמש במידע ציבורי. באתר ניתן למצוא (נכון לזמן כתיבת שורות אלו) 227 סדרו נתונים, 165 אפליקציות ו-66 מקורות נתונים. זהו אתר טוב למי שרוצה למצוא אפליקציות העושות שימוש בנתונים פתוחים או למי שלא מעוניין בהצגה הטכנית של המאגרים האחרים ברשימה הזאת.

Crunchbase

מאגר Crunchbase מרכז מידע חופשי אודות חברות טכנולוגיה, שירותים, סבבי גיוס, משקיעים ואנשים פרטיים. המאגר ניתן לעריכה ומתוחזק על ידי גולשים. מתאים בעיקר לחיפוש מידע עסקי (בערבון מוגבל כמובן).

DBpedia

אתר DBpedia הינו מאמץ קהילתי להוציא מידע מובנה מתוך ויקיפדיה ולבנות ממנו מאגרי נתונים. האתר מאפשר למשתמשים בו לחפש עובדות דרך ויקיפדיה בשפה חופשית (כמו למשל "מדענים צרפתיים שנולדו לאורך המאה ה-19").

Freebase

Freebase הוא עוד אתר קהילתי, אך במקרה זה במקום לאגור ולהפנות למסדי נתונים אתר זה שם לו למטרה ליצור אותם. המשתמשים באתר יכולים להוסיף ולערוך מאגרי נתונים ואלו מתפרסים על כמעט כל תחום אפשרי (מנתונים על אנשים מפורסמים ועד סוגי מערכות הפעלה למכשירים אלקטרוניים).

Infochimps

Infochimps היא קודם כל חברת BigData המספקת שירות ניתוח נתונים אך באתר החברה אפשר למצוא את ה- Data marketplace המאפשר לחפש מאגרי נתונים. את תוצאות הנתונים אפשר לסנן לפי עלות (חינם \ בתשלום), סוג המאגר (להורדה, ממשקי תכנות יישומים (API), לינק חיצוני) וסדר הצגה.

מחיפוש מידע לשימוש בו

אם כל המאגרים הללו כבר מוכרים לכם ומה שאתם מחפשים היא דרך להשתמש בכל הידע שלכם על מאגרי נתונים האתר האחרון ברשימה הזאת הוא בשבילכם. Kaggle בניגוד לאתרים הקודמים שסקרתי  עוסק בניתוח של נתונים על ידי תחרויות נושאות פרסים. באתר ניתן למצוא מגוון תחרויות העוסקות בניתוח והבנת נתונים.

לדוגמה, ארגון שמוצא עצמו עם מגוון עצום של נתונים (למשל הלשכה המרכזית לסטטיסטיקה בארה"ב) ורוצה להפיק מהם נתון משמעותי (למשל, "מהם המשתנים החוזים את אחוז ההיענות על שאלון הנשלח בדואר") פותח באתר תחרות. משתמשים המעוניינים להשתתף מקבלים בסיס נתונים אמתי שיסייע להם לבנות פתרון מתאים לשאלה. במקרה של הלמ"ס האמריקאית המשתמש שיצליח להגיע לממוצע הטעות הנמוך ביותר יזכה ב-25,000$. ראוי להגיד כי התחרויות באתר אינן פשוטות וכי התחרות היא בין משתמשים בעלי ידע ויכולות מרובות למרות זאת התחרויות הללו הן מקום מצוין להתאמן וללמוד מאחרים.

מכירים את מאגרי נתונים פתוחים? ספרו לנו בתגובות

* תמונת הכותרת לקוחה מתוך DATABASE at Postmasters, March 2009, נוצרה על ידי  Michael Mandiberg ומוצגת כאן לאחר עריכה ותחת רישיוןCC BY-SA