אלגוריתמים
אלגוריתמים הם אוסף הוראות למחשב המנחות כיצד לטפל בנתונים. באופן טבעי הם יכולים להיות פשוטים מאד,
או מורכבים מאד, בהתאם לאופי המשימה ודרך מימושה.
משפחות שונות של אלגוריתמים מסייעות ללמידת מכונה לצרכים עסקיים שונים,
ולשלבים שונים בלמידה. קיימות כיום ספריות מוכנות הכוללות אלגוריתמים רבים,
וחשוב לדעת לבחור את המשפחות הנכונות לצורך,
ובתוכן את האלגוריתמים המיטביים. כתיבת הקוד בדרך כלל מתבצעת באחת מהשפות: R, Python, Java.
בלמידת מכונה, האלגוריתמים משפרים את ביצועיהם ככל שהם נחשפים ומטפלים ביותר נתונים.
בחירת האלגוריתם הנכון הינו תהליך שחלקו מובנה ומדעי, וחלקו פחות.
משפחות אלגוריתמים מרכזיים:
• באסיאניים (Bayesian): מסייעים לפצח איך נראה המודל,
ללא תלות במה שנראה על פני השטח. שימושיים במיוחד במציאות של חסר בנתונים.
• אשכולות (Clustering): הבנת אובייקטים על ידי שיוכם
לאשכולות שונים בהתאם לטיבם. שימושיים כאשר אין תיוג.
• עצי החלטה (Decision trees): אלגוריתמים המבנים תוצאות בדרך
היררכית של עצים, כאשר לכל עלה בעץ מוצמדת סבירות באחוזים לציון סיכויי מימושו.
שימושי כאשר למשל רוצים להחליט מה הסבירות של אוכלוסיות שונות לנהוג בדרך מסוימת.
• צמצום ממדיות (Dimensionality reduction): אלגוריתמים המסייעים
לצמצום עודף מידע, שאינו תורם למודל. שימושי למשל
ב IOT כאשר סנסורים רבים מפיקים מידע, ומספיק חלק מהמידע לניתוח נתוני ביצועים.
• מבוסס מופעים (instance based): התאמת נתונים חדשים בהתבסס על קרבה
לנתונים אחרים שעברו אימון. מתאים כאשר הנתונים עם שונות אקראית
או יש בהם חוסר חלקי. מסייע לזיהוי דפוסים ושימושי בתחומי הניתוח הביולוגי, כימי והתרופתי.
• רשתות נוירונים ולמידה מעמיקה (neural networks and deep learning):
חיקוי פעולת המוח, ברמה אחת או מספר רמות של רשתות נתונים המקושרות ביניהם.
בלמידה עמוקה- לפחות 3 רמות.
• רגרסיה ליניארית (linear regression): ניתוח סטטיסטי כדי ללמוד
על קשרים בין נתונים. נפוץ מאד בשימוש בלמידת מכונה.
זהירות: מחייב הקשר, למניעת תוצאות מטעות.
• רגולציה (regularization) למניעת התאמת
יתר: טכניקה לשינוי מודלים ומניעת בעיית התאמת יתר.
• למידת מכונה מבוססת חוקים עסקיים (rule based):
שימוש בחוקים עסקיים לתיאור התנהגות המכונה.
דוגמאות טיפוסיות:
א. חיזוי מגמות (למשל שינוי העדפות לקוח, שימור לקוחות):
classification statistical algorithms such as logistic regression and neural networks.
ב. זיהוי פנים (למשל באיתור דמויות במצלמות אבטחה): deep learning algorithms and neural network algorithms
. Image analytics לאינדוקס וחיפוש מול סדרת סרטים תוך סיווג לקטגוריות שונות של עצמים.
ג. חיזוי שבר (למשל לתחזוקה מניעתית): regression algorithms- מתאים מאד בגלל היקף התכנים
של הסנסורים השונים (IOT) וההתייחסות הרציפה אליהם ולזמן הנכון לתחזוקה.
בדרך דומה ניתן גם לנתח רשתות וקונפיגורציות מחשוב ולזהות דפוסים למדדי ביצועים טובים של הסביבה.
ד. זיהוי הונאות (Fraud): היות ומדובר במשימה מורכבת, משלב על פי רוב מספר סוגי אלגוריתמים
לרבות טכניקות ליניאריות ולמידה עמוקה מבוססת רשתות נוירונים. ההונאות השכיחות 20-80 תזוהינה
בדרך כלל על ידי כלים ליניאריים, בעוד ליתר, יופעלו כלי למידת המכונה האחרים.
הערה: יש כיום כלים מוכנים המסייעים בבחירה (לפחות חלקית) של האלגוריתמים המתאימים לשימוש.
חזרה