מהי מערכת זיהוי קולי?
מערכת זיהוי קולי הינה מערכת ממוחשבת המסוגלת לקלוט ולפענח דיבור אנושי, להבין ולבצע את הפקודות מדוברות. על מנת שהמערכת הממוחשבת תוכל לפענח את הדיבור האנושי יש להמיר תחילה את השמע האנלוגי לאות דיגיטלי, כדי שהמחשב יפענח את האות, נדרשת תשתית מקדימה. עליו להיות בעל מסד נתונים דיגיטלי של אוצר מילים, של מילים או הברות, ואמצעי מהיר להשוואת נתונים אלה עם האותות. דפוסי הדיבור מאוחסנים בכונן הקשיח ונטענים לזיכרון כאשר התוכנית מופעלת. כיום, מערכות אלו מופעלות באמצעות נתונים שנאספו בפלטפורמות שונות כדוגמת האינטרנט.
לאחרונה אני עדים להרחבת השימוש במערכות ה"עוזרים הדיגיטלים". דוגמאות לכוזרים שכאלו הינן Siri של אפל, Cortana של מיקרוסופט ו Alexa של אמזון המאפשרות בין היתר לענות על שאלות המשתמש, לנגן מוסיקה או לקרוא ספרי אודיו, ואפילו לשלוט על מכשירים אחרים בבית באמצעות טכנולוגית הבית החכם. כל זאת באמצעות שימוש בפקודות קוליות בלבד של המשתמש ומענה קולי של המערכת הממוחשבת.
ה"עוזרים הדיגיטליים" הולכים ומתפתחים עם השנים ככל שהאינטליגנציה המלאכותית מתפתחת יותר (ובמרכזם יישומי Deep Learning). לכן, ככל שעובר הזמן, עוזרים אלו יכולים להבין יותר ויותר את כוונות המשתמשים, הקשר המילים, מיקום המשתמשים והתנהגויותיהם; זאת תוך התבססות בין היתר על שאילתות קודמות שבוצעו על ידם ובמטרה לענות בצורה ממוקדת יותר על צרכיהם ובהתאמה לאפשר להם לנקוט פעולות מתאימות (לדוגמא, הזמנה של מוצר מסוים אוןליין לאחר ביצוע החיפוש).
שימוש במערכות זיהוי קולי לביצוע חיפושי מידע:
ישנו שוני רב בין חיפוש המתבצע באופן טקסטואלי לחיפוש המתבצע באופן קולי. בעוד שהחיפוש הטקסטואלי מתמקד במספר מילים מצומצם (בדרך כלל בין 2 ל-4 מילים) על מנת למקד את תוצאות החיפוש, כמות המילים המשמשות לחיפוש הקולי הינה רבה. המשתמש נוטה לשאול שאלה בשפה טבעית, המאופיינת במילות שאלות כדוגמת מי, איך, מה, היכן, למה ומתי ותוך ציפייה כי מנוע החיפוש יספק תשובה מדויקת בחזרה, גם אם הרחיב בשאלתו בשימוש במילות קישור או הסבר.
בחירת המילים בחיפוש הקולי מספקת מידע לגבי כוונת המשתמש (האם למשל הוא מחפש לרכוש מוצר ספציפי או עורך מחקר על נושא מסוים), כאשר המערכת בהתאמה יכולה לספק גם למפרסמים תובנות רבות יותר לגבי כוונת המשתמשים ולאפשר להם להציג מידע מותאם בחיפוש שבוצע.
למרות התפתחות הטכנולוגיה והצעדים המרשימים שכבר עשתה, עדיין מערכות לזיהוי קולי אינן מושלמות; המערכות יכולות לטעות בזיהוי של מילים הנשמעות דומות אבל כוונתן שונה, כאשר ישנם רעשי רקע רבים המקשים על קליטתם השאילתא על ידי המערכת, ועוד; עם זאת נראה כי גם על אתגרים אלו יינתן מענה בשנים הבאות.
על פי comscore בשנת 2020 50% מחיפושי המידע יתבצעו באופן קולי; ועל פי התחזית של גרטנר ב2018 צופים כי 30% מכל האינטראקציות עם המכשירים יהיו מבוססות קול. זאת לאור העובדה כי האנשים יכולים לדבר במהירות פי 4 מאשר יכולתם להקליד את הטקסט.
מצד המשתמש מערכות אלו משמשות כיום בעיקר את הצרכנים הפרטיים כאשר הן מאפשרות להם לבצע חיפושים על מידע כללי ומקומי כדוגמת, מסעדות, קניות, מזג אויר, חדשות וכו'. ומצד הגורמים העסקים נעשים מאמצים להתאים את הפרסומות והמידע השיווקי לחיפושים הקוליים המבוצעים.
אך נראה שלא ירחק היום בו יהיה ניתן להשתמש ב"עוזרים דיגיטליים" והחיפושים הקוליים גם עבור הארגונים עצמם והחיפושים המקצועיים. זאת, החל מתיאום הפגישות, חיפוש במאגרי המידע של הארגון, תיעוד הידע באמצעות העוזרים הדיגיטליים ועוד.
מעט סבלנות ואולי לא יותר מכך.
מקורות:
http://searchcrm.techtarget.com/definition/voice-recognition
https://www.campaignlive.co.uk/article/just-say-it-future-search-voice-personal-digital-assistants/1392459
https://startups.co.uk/tech-trends-2018-voice-recognition/