ביג דאטה - Big Data - עולם גדול של נתונים
מאת: ענת ביילסקי

המושג Big Data (עולם גדול של נתונים) מעלה על המפה את ההצפה שיש לנו כיום בנתונים: הרבה מאגרים, מאגרים גדולים בהיקפם, הכוללים נתונים מובנים ושאינם מובנים.


מאגרי מידע הקרויים Big Data בעלי המאפיינים העיקריים הבאים:


היקפים גדולים של מידע (Volume) - כמויות הנתונים שמצטברים בארגון גדלים בקצב הולך וגדל (כך לדוגמא, נתונים על עיסקאות שבוצעו ואוחסנו במהלך השנים ישמשו לצורך ניתוח תבניות ומגמות בסחר במניות בבורסה). בנוסף, הגידול בהיקפי הנתונים נובע גם מהעובדה כי מתווספים מקורות נתונים נוספים למאגר המידע (כמו למשל, נתונים לא מובנים המגיעים מתוך הרשתות החברתיות). כל אלו מגדילים את כמות הנתונים שיש לנתחם.


גיוון הנתונים-(Variety) הנתונים כיום מגיעים בפורמטים שונים, נתונים מספריים מובנים במאגרי מידע מסורתיים, מידע לא מובנה הנוצר ממסמכים, מיילים, סרטוני וידאו, אתרים ורשתות חברתיות ועוד.

 

מורכבות (Complexity)– כפי שציינתי קודם, הנתונים מגיעים למאגר ממספר מקורות. לכן, יש צורך לבצע ניקוי והתאמה, של הנתונים בעיקר בדרך של זיהוי של תבניות וקשרים שונים אשר אינם ניתנים לחיזוי אנושי מראש.
לשם זיהוי תבניות מוכנסים לשימוש בתחום אלגוריתמים שהורחבו והותאמו לעבודה בכמויות ובקצבים הנדרשים.

 

מהירות קבלת הנתונים -(Velocity) עקב דרישת הלקוחות לקבלת תשובות מורכבות בזמן אמת (ככל שניתן). הנתונים זורמים במהירות רבה אל בסיס המידע ויש לטפל בהם בזמן המהיר ביותר. אופן ההתמודדות עם מהירות קבלת ועיבוד הנתונים הינה אתגר עבור רוב הארגונים. שכן ,נדרשים אמצעי האחסון מתקדמים התומכים בכמויות מידע גדולות המאפשרים גם כתיבה ושליפה מהירים מאוד.

http://whatis.techtarget.com/definition/3Vs

 

כך לדוגמא, על מנת לנסות ולאתר מידע מקדים על פעילויות טרור מתבצע  איסוף והצלבת נתונים משלל מקורות גלויים  כגון, מידע מהרשתות חברתיות כדוגמת פייסבוק וטוויטר. מידע מתוך מערכות כדוגמת רשומות כניסה ויציאה של משטרת הגבולות,  פעילות טלפונים סלולריים ועוד) . כל זאת לשם זיהוי תבניות וקשרים שיכולים להצביע על   אפשרות לביצוע פעילות טרור עתידית.

 

בין ה BI  הקלאסי שהכרנו ל BIG Data:
Big Data הינו תת עולם של עולם ה BI.

 

מערכות Big Data  הינן פוטנציאל לכריית נתונים. היכולת לזהות תבניות מעניינות וללמוד מהן על עולם התוכן מתאפשר בזכות ריבוי הנתונים.

 

במערכות BI  הקלאסיות מתבצע עיבוד על נתונים מובנים הקשורים לפעילות הארגון כאשר הניתוח מכיל הצלבות וחיתוכים  שונים של הנתונים על הפעילויות שבוצעו בעבר. לעומת זאת, כאשר אנחנו דנים ב Big Data ישולבו בניתוחים הנתונים דוחות מובנים יחד עם מידע לא מובנה (שנאסף למשל  באמצעות כלי ניטור ואיסוף מתקדמים- דוגמת ניתוח דפוסי גלישה באינטרנט).

 

ניתן לומר כי, פעמים רבות, המיקוד ב Big Data עובר מניתוח של שאלות על מה שהתרחש בעבר אל שאלות הקשורות בתחזיות ולכן יוצרות ערך ממשי של תובנות עבור הארגון לגבי הפעילות העתידית.

 

ובין Big Data לניהול ידע?
 
על כך במאמר נפרד. בתור התחלה בהחלט כדאי לקרוא את סיכום הספר להלן- http://www.kmrom.com/Site/Articles/ViewArticle.aspx?ArticleID=1951

 

מקורות המידע:

http://www.sas.com/en_us/insights/big-data/what-is-big-data.html

http://he.wikipedia.org/wiki/Big_Data

http://www.pc.co.il/editorial/179630/

http://searchcloudcomputing.techtarget.com/definition/big-data-Big-Data