כריית ידע - Knowledge Discovery
מאת: דודי רוזנטל ROM Knowledgeware

הגידול המתמיד בפער שבין הקיבולת והיכולות של מערכות האחסון ואחזור הנתונים, לבין היכולת של המשתמשים לנתח בצורה מועילה את המידע ולפעול לפי מסקנות הניתוח, מונע פעמים רבות ניצול יעיל של גודש המידע שקיים בארגון. כיום, כאשר המידע הוא המשאב הקריטי ביותר בתחומי פעילות רבים וכמעט בכל ארגון נאגרות כמויות עצומות של מידע, גובר והולך הצורך בכלים חכמים שיאפשרו הפקת תועלת מרבית מן המידע הגולמי שנאגר. תהליך הזיקוק של הידע הרלוונטי מתוך הכמויות האדירות של הנתונים הקיימים, חיפוש של מגמות, של קשרים ושל תבניות בעלות עניין, נקרא בלשון מקצועית Data Mining - "כריית נתונים", שם המרמז על כך שמתוך הר עצום של נתונים מחלצים כמה גרגירי ידע.
כריית המידע מוגדרת כפעולה של חשיפת מידע, של ניבוי ושל מציאת קשרים סמויים מתוך מאגרי נתונים גדולים. כריית המידע מכונה לפעמים גם בשם "גילוי ידע בבסיסי נתונים" (Knowledge Discovery in Databases - KDD).

כריית מידע או כריית נתונים היא הפעלת אלגוריתם - ידני או ממוחשב - לצורך גילוי ידע הטמון בבסיסי נתונים ובתכנים רכים, והסקת מסקנות מהם. כריית המידע היא אלגוריה לפעולת הכרייה באדמה לצורך איתור אוצרות טבע.

מטרת הכרייה היא חקר וניתוח הנתונים והמידע, מסביבות שונות, באמצעים אוטומטיים ככל שניתן, לצורך גילויים של דפוסים. על המידע המופק להיות תקף, מחדש, שימושי ובעל משמעות כך שמקבלי ההחלטות בארגון יוכלו לשפר תהליכים קיימים, לאתר חולשות וחוזקות, ולאפשר החלטה מושכלת ביחס להמשך דרך הפעולה והאסטרטגיה הארגונית.
כריית המידע מאפשרת גילוי קשרי גומלין שלא היו ידועים מראש בתוך הארגון. ראוי לציין כי כריית המידע היא שלב אחד בתהליך יצירת הידע והבנתו. התוצר הסופי של התהליך כולו מהווה ידע שחשיבותו ראשונה במעלה, אם בתחום המודיעין העסקי ואם בתחומים ארגוניים רבים אחרים. הוא מאפשר שקיפות פנים ארגונית ורמת חשיפה גבוהה להנהלה הבכירה. ללא מידע קשה מאוד להגיע לידע.

דוחות כריית נתונים מסוגלים למצוא בנתונים דפוסים מעניינים שלא ניתן לגלות אותם באמצעות דוחות "רגילים". דוחות "רגילים" הם דוחות שמופקים ע"י מחולל דוחות, כמו המחולל שנמצא בתוכנות כגון Cognos, Business Objects וכד'. דוחות אלו מופקים ע"י חיתוך הנתונים, ע"י מיון וע"י הפעלה של פעולות אריתמטיות . דוחות אלו עונים על צרכים רבים של המשתמשים בתוכנה, אולם לא ניתן להפיק בדרך זו דוחות שעונים לשאלות הבאות: מה מאפיין לקוחות? מה מאפיין אצוות פגומות בתהליך יצור? וכד'. כדי להשיב לשאלות אלו יש צורך לבצע ניתוחים במסמכים על ידי כריית נתונים.

בתוך עולם כריית המידע קיים תחום כריית מידע מטקסטים, תחום הנקרא Text Mining. זהו התחום שמעניין אותנו כמנהלי ידע, שכן הנו בתחום אחריותנו. כריית מידע מטקסט מוגדרת כתהליכי ניתוח טקסט ואיפיון תבניות שפה לצורך מיצוי המידע הקיים בטקסטים. המידע המופק בתהליך זה יכול להיות שם מחבר, כותרת המאמר, תאריך פרסום המידע, אך גם: תוכן המאמר, זיהוי מגמות, קשרים בין יישויות ועוד. כמו כן יכול המידע המופק לשמש כבסיס ליצירת טקסונומיה ומיון מסמכים דומים לקטגוריות משותפות בעץ הנושאים ההיררכי. יעילות מיצוי המידע מהטקסט נמדדת במדדי כיסוי ודיוק.

תחום זה הוא אחד התחומים המתפתחים ביותר בכריית נתונים. הבעיה הפשוטה, ואולי גם הנפוצה ביותר שמטופלת בתחום היא קטגוריזציה של מסמכי טקסט. השיטה הבסיסית ביותר לנ"ל היא מציאת המילים והמושגים המאפיינים את המסמך הנבדק (מושגים שמופיעים במסמך יותר פעמים מ"המצופה") וקטלוג המסמך לקבוצת האפיון שלו ע"י שימוש במידע זה בטכנולוגיות מתחום ה TEXT MINING.

למרות שקטגוריזציה בלבד היא משימה מוגבלת למדי זוכה התחום לפריחה הן בגלל המגוון הגדול של השימושים הדורשים טיפל כזה (מנועי חיפוש, מערכות מודיעיניות ועוד) והן בגלל הכמות העצומה של המידע השמור כטקסט בעולם יחסית לכמות המידע השמור בטבלאות.

עם הצטברות המידע נוצר גם הצורך להעניק לו משמעות עבור הארגון, ולשכלל את יכולת האיסוף שלו, ניתוחו, והטמעתו. הרצון הוא להפוך מידע שהוא בגדר רחש סטטי כמעט - לידע. ידע המעניק יתרון תחרותי ויכולת שליטה בארגון פנימה. ידע המאפשר ראיית תמונה נכונה ועדכנית של השוק ומקנה את היכולת להגיב בזמן לשינויים המתרחשים בו.

טכנולוגיית ה- TEXT MINING עדיין בחיתוליה, ועם זאת, מגוון היכולות שהיא מעמידה לנו, מנהלי הידע, משמעותיות לצורך איסוף מדויק יותר של ידע שקיים כבר בארגונים.

ההערכה היא, שבעתיד הקרוב, עם התפתחותן של טכנולוגיות נוספות ניתן יהיה להרקיע לשחקים נוספים בתחום

הפיכת המידע הקיים במסמכים לנכס של כלל הארגון.