הספר, Everybody Lies: Big Data, new data and what the internet can tell us about who we really are, הינו ספר שנכתב בשנת 2017 על ידי Seth Stephens-Davidowitz (כן...בחור יהודי) אדם שהתמחה ב BIG DATA, עבד ב GOOGLE ובהחלט קידם את דרך מיצוי הנתונים. הספר מתאר, דרך מאות סיפורים ומחקרים שביצע, מה BIG DATA וכיצד ניתן להשיג ממנו תובנות.
מפת הספר:
הספר קל מאד לקריאה. המחקר "צבעוניים" ומקיפים את כל תחומי החיים. הידע מעניין גם מבחינת הנלמד מהמחקרים עצמם, וגם ברמת מתודות לעבודה עם BIG DATA. במילה אחת- מומלץ!
מהו BIG DATA?
BIG DATA מוגדרת כמות גדולה של תכנים, המחייבת גישות חדשות ויצירתיות לניתוח ולמידה מהם.
BIG DATA מתייחס לסוגי תכנים מגוונים, לרבות:
- נתונים כמותיים/מספרים, למשל אלו המופקים מאינסוף סנסורים שסביבנו
- טקסטים (וכאן נכנס ניהול ידע לתמונה- מ.ל.). באינטרנט, ולא רק
- תמונות
- CLICKS
- קישורים
- קבצי קול
- TYPOS
ועוד.
אנו רגילים לחשוב על BIG DATA ככזה הנמצא באינטרנט- ואכן האינטרנט מכיל אין סוף נתונים ועוד יותר מידע טקסטואלי, אך בהחלט BIG DATA מתייחס גם להררי מסמכים או נתונים היכולים להימצא בתוך הארגון, ולא רק לאלו הסובבים אותנו- בענן (למרות שאין ספק שהאינטרנט הוא מקור המידע המהפכני ביותר בתחום).
הרבה DATA זורם סביבנו. ביום ממוצע אנשים מייצרים 2.5 מיליון טריליון בתים של תוכן.
אך כמות ה BIG DATA מתעצמת לא רק בזכות המידע והנתונים החדשים הזורמים מסביבנו בכל רגע נתון, אלא גם בזכות תהליכי דיגיטציה ומחשוב שמבוצעים לטקסטים ונתונים אחרים מהעבר. דוגמה לכך היא פרויקט סריקת ספרים המהווה מקור עצום ללמידה.
והתכנים הללו יכולים ללמד אותנו גם על מה שקורה, אך גם על תחושות ותפיסות של האנשים.
מדע הנתונים (Data Science) עוסק בניתוח תכנים, זיהוי תבניות והסקה כיצד משתנה אחד משפיע על אחר.
למה חשוב לעסוק ב BIG DATA?
כי לעיתים אין לנו מספיק דגימות מידע בכלים אחרים;
כי לעיתים אנו מוטים ונותנים משקל יתר למה שאנחנו כבר מכירים;
ולעיתים, גם אם יש לנו דגימות אחרות, הן לאו דווקא אמינות דיין, מדויקות דיין או יכולות ללמד דיין.
חזרה
מקורות המידע
זה המקום לחזור לשם הספר...
שם הספר מלמד אותנו על מקורות מידע שנכון להסתמך עליהם, וכאלו שפחות. יש הבדל בין מה אנשים כותבים על עצמם ב FACEBOOK ויתר הרשתות החברתיות, לבין מקורות אחרים, דוגמת חיפושים שאנשים מבצעים ב GOOGLE או דוגמת סטטיסטיקת רכישות בנושא רלוונטי. ההבדלים האלו מלמדים שאנחנו מספרים על עצמנו מה שהיינו רוצים שיחשבו עלינו, ופחות מה שבאמת. קריטי לדעת להשתמש במקורות נכונים גם ב BIG DATA, כמו בכל מקום אחר. לא כל מה שגדול, בהכרח טוב.
גם סקרים, כך מסתבר, למרות שהיוו עד היום מקור מידע עיקרי, מתאימים למעט מאד מטרות. באותה דרך, כמו שבחנו את מהימנות האמירות ברשתות חברתיות, למדו כי גם כאן יש בעיה מהותית. אנשים אינם אומרים מספיק אמת בסקרים. גם בסקרים אנונימיים. לעיתים, אולי, כי רוצים להצטייר טוב בעיני האחרים; לדעת המחבר, לא פחות, כי רוצים להצטייר טוב בעיני עצמם.
חיפושים ב GOOGLE הם מקור מידע עצום, וברוב המקרים גם אמין. כאשר עושים שימוש בכלי זה, יש לעיתים לדייק את דרך הלמידה. למשל, הסתכלות על אזכור מועמדים לנשיאות לאו דווקא תלמד על המועמד המועדף, היות ורבים כנראה לומדים את הכתוב על שני מועמדים, ומשווים ביניהם. סדר הבחירה, לעומת זאת, מסתבר, כבעל מתאם ישיר עם ההעדפה. כלומר- ברישום שני שמות המועמדים, מסתבר שאנשים כותבים קודם את שמו של המועדף, וכך ניתן ללמוד לפי היקף חיפושים, מה יהיו אחוזי ההצבעה הצפויים לכל אחד.
חיפושים במאגרי ספרים סרוקים הינו מאגר עצום ומעניין בפני עצמו, שניתן ללמוד ממנו על התפתחות של מגמות בהיסטוריה (הספרותית ולא רק).
חיפושים ברשתות חברתיות ללמידת נתונים דמוגרפיים.
היקף המאגרים וגיוונם גבוה משניתן לשער, והיצירתיות של החוקרים היא מפתח לגידולו.
טיפ: כאשר מבצעים מחקרי BIG DATA כדאי להיות פתוחים וגמישים בהחלטה מה מקורות המידע, ומהם תכנים שיכולים להיות רלוונטיים ולהשפיע (למשל- מסתבר שגודל הלב של סוס חשוב לקביעת הצלחתו במרוצים).
חזרה
כוחו של ה BIG DATA
ל BIG DATA יתרונות בהשוואה למקורות מידע אחרים:
- מציע סוגים חדשים של תכנים למחקר שלא היינו חשופים להם קודם. מציע גם תכנים הקשורים למידע סמוי ולמחשבות שלנו, שכן מסתבר שאנשים נוטים לשפוך ליבם ולהתוודות בחלון החיפוש גם בחיפושים שברור שלא יסייעו בתשובה ישירה (האם הבת שלי יפה?)
דוגמה: נתוני פורנו.
- מציע מידע אמין, לעומת המידע שנשענו עליו קודם (מבוסס סקרים, מבוסס הנחות). דוגמה: נתוני חיפוש ב GOOGLE בכלל, ובנושאים רגישים כמו גזענות, בפרט.
כלים מבוססי אינטרנט, דוגמת NETFLIX למדו שנכון לבחון את מה שאנשים עושים ופחות את מה שאומרים.
- מאפשר להתמקד בתת אוכלוסיות ואפילו קטנות, מה שלא התאפשר בגלל ההיקף המוגבל (ברוב המקרים) בעבר. מיקוד שכזה מסייע ללמידה שלא יכולנו לבצע בעבר:
דוגמה: השוואה בין אוכלוסיות של ערים ושכונות שונות ולמידה מדויקת יותר על סמך המיקוד, המונע הכללת יתר ואי יכולת הסקה. הלמידה הממוקדת מאפשרת להתמודד עם סיבוכיות העולם והאנשים.
או: היקף אנשים החולמים על עגבניות, לעומת אלו החולמים על מלפפונים (ויש מכאן למידה- זה לא רק נתון בעלמא...).
- מאפשר לנו לבצע אינסוף ניסויים אקראיים ולהסתמך פחות על ניסויים מבוקרים. חשיבות ניסויים אלו, בלימוד סיבתיות והשפעה (ראו פרק מתודולוגיות להלן).
דוגמה: בחינת השפעת פרסומות טלוויזיה על היקף צריכת המוצרים המפורסמים.
חזרה
שימושים
BIG DATA יכול לסייע בלמידה בכל תחומי החיים.
הוא יכול לשמש:
- לאישוש או הפרכת תיאוריות מוכרות (ספוילר- תיאוריה אחת של פרויד מופרכת, אחרת מאוששת).
- לחיזוי מגמות או התרחשויות (למשל- מי יזכה בבחירות).
- לאיתור תת אוכלוסיות ויצירת קבוצות שייכות; לאיתור אנשים במצוקה והצעת סיוע.
- לסיוע בקבלת החלטות פחות מוטות והסתמכות על פתרונות שאכן נמצאו שעובדים.
- ללמידה והבנת העולם. לדוגמה: הבנה מה מטריד נשים בתקופת ההיריון, ואיך טרדה זו משתנה במקומות שונים בעולם.
שימו לב- כאשר מבקשים ללמוד, ניתן ללמוד על כל נושא. המחבר ממליץ, ויש בכך לא מעט היגיון, ללכת לרעות בשדות בהם המתודות הקיימות אינן מבוססות דיין. שם יש סיכוי שלא רק נגלה תובנות, אלא שתובנות אלו אכן תהיינה חדשניות ולא רק תאוששנה את מה שהיה ידוע ממילא.
מתודולוגיות מחקר
להלן מספר מתודולוגיות מחקר שמאפיינות ניתוח ולמידה מ BIG DATA והמלצות נלוות:
- מידע ממוקד: בעבודה עם BIG DATA יש לזכור שלא תמיד כדאי ונכון לעבוד עם כל הנתונים, כדי להסיק מסקנות וללמוד תובנות חדשות. אפשר פעמים רבות לעבוד עם דוגמיות חלקיות. עדיף לחתוך את המידע ולעבוד עם חלקו, כאשר הכמות מספקת והחלקיות נותנת בסיס מידע מדויק ומתאים יותר.
- ניתוח רגשי (sentiment text analysis): בעקבות מחקר תשתיתי בו מדענים מיפו עשרות אלפי מילים בשפה האנגלית כחיוביים או שליליים, ניתן לבצע אין סוף מחקרים הבוחנים רגשות של אנשים על סמך ניתוח הטקסטים. הנ"ל פותח בפני המחקר ענף שלא היה מוכר עד הגעת ה BIG DATA.
- חיפושי כפילים (doppelganger search): חיפושים בהם, כדי לחזות מה יקרה לאנשים, מחפשים אוכלוסיית "כפילים" בעלי מאפיינים זהים לשל האדם נשוא החיפוש, ובוחנים מה אירע להם. משמש לדוגמה לחיזוי הצלחות של שחקני BASEBALL מבוגרים יחסית לעשות COMEBACK; משמש לבחינת תרופות מותאמות אישית; הבסיס המוכר להצעות AMAZON ועוד. חיפושי כפילים מאפשרים אבחון וטיפול מותאמים אישית וממוקדים.
- ניתוחי סיבתיות: עיקרו של למידה עמוקה (AI) כיום הינו באיתור תבניות- המלמדות על התנהגות. לימוד זה חשוב, אך נעדר נסיבתיות, כלומר, לא מלמד על למה משהו גורם למשהו אחר, אלא רק מספר על כך ששני המרכיבים נצפו במשותף (אך יתכן ששניהם נובעים מגורם שלישי). היקף המידע במאגרי BIG DATA מאפשר לבצע ניסויי שטח אקראיים. ניסויים אלו, שמתבססים על המציאות, ולא על ניסויים מלאכותיים בהם אנשים מוכנסים למעבדה ומתבקשים להגיב לתרחיש, ולכן אמינים יותר. מעבר לכך הניסויים מרובים בסדר גודל ויותר לעומת ניסויים מתוכננים, וקבוצות הבקרה אף הן נסמכות על התכנים המצויים במאגרים ממילא. הניסויים הנקראים גם A/B Testing, מאפשרים לנתח השפעות ולכן ללמד על סיבתיות. GOOGLE עצמם משתמשים בניתוחים אלו מידי יום בכדי לכוון מיקומי כפתורים, גדלים, ואפילו גוונים, הכל כדי למקסם את הצריכה שלנו, וכמובן, את הרווח שלהם.
חזרה
מגבלות
יש להכיר כי ל BIG DATA יש גם מגבלות; הן לגבי מה שלא ניתן לעשות באמצעותו, והן לגבי מה שלא כדאי שייעשה.
להלן מספר מגבלות מרכזיות:
- קללת הממדים (the curse of dimensionality): שגיאה של זיהוי תופעה לא נכונה, שיכול לנבוע ממחסור בנתונים מספקים, או במקרה של BIG DATA עודף משתנים נבדקים בו זמנית. כאשר בוחנים יותר מידי משתנים בו זמנית, באופן אקראי, אחד מהם יקבל משמעות סטטיסטית אל מול האחרים.
דרכי התמודדות: ענווה, בדיקות חוזרות והקטנת היקף משתנים ואישוש התוצאות הקודמות.
- התייחסות יתר למה שניתן למדוד: לא תמיד יש זהות בין מה שניתן למדוד ומה שקל למדוד. אנו מודדים מה שבנמצא, ויכולים לתת לכך משקל יתר, ביחס לחשיבות המדד במציאות.
דרכי התמודדות: השלמת המחקר בראיונות, סקרים או כלי SMALL DATA אחרים הנסמכים על מדדים אחרים. הפעילו שיקול דעת, ואל תסתפקו בתוצאות שהתקבלו מה BIG DATA.
- אתיקה: ישנן שאלות אתיות לגבי השימוש ב BIG DATA. אם לדוגמה, אנשים בעלפי פרופיל מסוים הם בעלי סיכוי נמוך יותר להחזרת הלוואה, האם נכון שלא להלוות להם? חברות רבות נסמכות כיום בהחלטתן על BIG DATA להחלטות מסג שכזה, אך בהכללת היתר, הן יכולות לפגוע בפרט הקונקרטי.
דוגמה נוספת: אפליית מחירים- התאמת מחירים לתת אוכלוסיות, לפי ניתוח לגבי כמה הן מוכנות לשלם בעד המוצר/שירות.
- העצמת גופי הממשל: כוחן של הממשלות מועצם, בזכות ה BIG DATA. המידע שהן מחזיקות לגבי כל אזרח רב ביותר, לרבות מצלמות הקיימות כיום בכל מקום. יש להן יכולת לעשות בו שימוש ניכר, למשל מעצר של מי שהן חוזות שבעל פוטנציאל לבצע עבירה עתידית. יש בכך בעיות רבות, המתחילות בפגיעה בפרטיות, אך בהחלט לא מסתיימות רק בכך.
חזרה
סיכום
לסיכום, עולם המדע החברתי (social science) הנסמך על ה BIG DATA הופך למדע בפני עצמו. הספר הציג דוגמאות רבות למחקרים, אולם ברור שמהפכה דיגיטלית זו רק בראשיתה, ויש מאות רעיונות נוספים, אל א יתור מכך, שטרם עלו, נחקרו ומוצו. בכל תחומי החיים. ופכי שאמר Levitt אותו מצטט המחבר, שילוב של סקרנות, יצירתיות ונתונים, יכולים לשפר באופן דרמטי את הבנתנו על העולם.