המושג Big Data (עולם גדול של נתונים) מעלה על המפה את ההצפה שיש לנו כיום בנתונים: הרבה מאגרים, מאגרים גדולים בהיקפם, הכוללים נתונים מובנים ושאינם מובנים.
מאגרי מידע הקרויים Big Data בעלי המאפיינים העיקריים הבאים:
היקפים גדולים של מידע (Volume) - כמויות הנתונים שמצטברים בארגון גדלים בקצב הולך וגדל (כך לדוגמא, נתונים על עיסקאות שבוצעו ואוחסנו במהלך השנים ישמשו לצורך ניתוח תבניות ומגמות בסחר במניות בבורסה). בנוסף, הגידול בהיקפי הנתונים נובע גם מהעובדה כי מתווספים מקורות נתונים נוספים למאגר המידע (כמו למשל, נתונים לא מובנים המגיעים מתוך הרשתות החברתיות). כל אלו מגדילים את כמות הנתונים שיש לנתחם.
גיוון הנתונים-(Variety) הנתונים כיום מגיעים בפורמטים שונים, נתונים מספריים מובנים במאגרי מידע מסורתיים, מידע לא מובנה הנוצר ממסמכים, מיילים, סרטוני וידאו, אתרים ורשתות חברתיות ועוד.
מורכבות (Complexity)– כפי שציינתי קודם, הנתונים מגיעים למאגר ממספר מקורות. לכן, יש צורך לבצע ניקוי והתאמה, של הנתונים בעיקר בדרך של זיהוי של תבניות וקשרים שונים אשר אינם ניתנים לחיזוי אנושי מראש.
לשם זיהוי תבניות מוכנסים לשימוש בתחום אלגוריתמים שהורחבו והותאמו לעבודה בכמויות ובקצבים הנדרשים.
מהירות קבלת הנתונים -(Velocity) עקב דרישת הלקוחות לקבלת תשובות מורכבות בזמן אמת (ככל שניתן). הנתונים זורמים במהירות רבה אל בסיס המידע ויש לטפל בהם בזמן המהיר ביותר. אופן ההתמודדות עם מהירות קבלת ועיבוד הנתונים הינה אתגר עבור רוב הארגונים. שכן ,נדרשים אמצעי האחסון מתקדמים התומכים בכמויות מידע גדולות המאפשרים גם כתיבה ושליפה מהירים מאוד.