בסיווג המטרה היא לחלק (או למיין) את העצמים לקבוצות, אבל הפעם מחליטים מראש מיהן הקבוצות, וכיאה ללמידה מונחית, יש בהחלט משמעות למושג "תשובה נכונה". הקבוצות מוגדרות מראש באמצעות דוגמאות של עצמים ששיכים לכל קבוצה. קל להמחיש זאת באמצעות עולם החי. למשל, כולנו מבינים את המשמעות של שלש הקבוצות הבאות: "יונקים" (למשל כלב, חתול), "עופות" (למשל יונה, תרנגולת) ו"חרקים" (למשל זבוב, יתוש). אם יראו לנו תמונה של פיל, כנראה שנדע לשייך אותה לקבוצת ה"יונקים", ברווז נשייך לקבוצת ה"עופות", ותמונה של ג'וק (אחרי שנפסיק להיגעל), נשייך לקבוצת ה"חרקים". אם לעומת זאת יראו לנו תמונה של לטאה, תהיה לנו איתה בעיה. כי לטאה היא לא יונק, לא עוף ולא חרק (אם כי לאשתי למשל לא תהיה שום בעיה. מבחינתה לטאה נופלת לגמרי תחת ההגדרה ג'וק) .לכתבה המלאה

הרעיון הבסיסי הוא ללמוד בצורה מונחה מדוגמאות אמתיות שהתוצאה עבורן ידועה. נמחיש את תהליך הסיווג (וחלק מהקשיים בו) באמצעות דוגמא לגילוי הונאות ביטוח בתאונות דרכים. מטרתנו היא לבנות מודל שידע לסווג תביעות ביטוח חדשות לשתי קבוצות: תביעה רגילה (תמימה) ותביעה זדונית (הונאה). ראשית אנו צריכים לאסוף דוגמאות של תביעות ביטוח מהעבר שהיו תמימות ואמיתיות (ככל הידוע לחברה), אל מול דוגמאות לתביעות שהוכח שהן היו זדוניות. כבר כאן הדברים אינם תמיד פשוטים. למרות שלצערנו יש לא מעט מקרים של ניסיונות להונאת ביטוח, כדי לאמן מודל אנו זקוקים לתביעות שהוכח שהן זדוניות. כאלה יש פחות. מצד שני, גם תביעות תמימות לכאורה שכמותן יש הרבה, יכולות בפועל להיות הונאות שאף אחד לא עלה עליהן. כלומר, מצד אחד לא קל לאסוף דוגמאות זדוניות מוכחות, ומצד שני אין ודאות מלאה גם עבור הדוגמאות התמימות הרבות. למרות שיש דרכים שונות להתגבר על כך, זה מסבך את תהליך אימון מודל הסיווג. לכתבה המלאה

אנסה להמחיש חלק מהאתגרים בדרך למודל סיווג מוצלח, כדי שתוכלו להעריך את הקשיים שיעמדו בפניכם. ראשית, כדי לפתח מודל סיווג יש צורך בדוגמאות מתויגות עבור כל קבוצה אליה אנחנו רוצים לסווג. יש מקרים שאין בכך בעיה, אולם במקרים רבים מדובר באתגר לא קטן, מכמה סיבות. הזכרתי בפעם הקודמת את הקושי באיסוף דוגמאות לתביעות תמימות ותביעות זדוניות לצורך בנית מודל לאיתור הונאות ביטוח. לפעמים הקושי מתחיל עוד קודם, כי אין בנמצא מאגר מתויג (כלומר, עם תשובות נכונות). לדוגמא, אני רוצה לאמן מסווג שיזהה תקשורת זדונית שמקורה בהתקפת סייבר. כמו קודם, צריך להכין מאגרים של קטעי תקשורת זדוניים אל מול תמימים. אבל להבדיל מתביעות ביטוח שנבדקות ע"י אנשים שמקבלים החלטות, את הרוב המוחלט של תעבורת התקשורת עין אנוש לא שזפה. נדרש לבצע תהליך מלאכותי ארוך ומייגע וגם כאן אין כמובן ודאות לאיכות התיוג. גרוע מכך, לפעמים לא ניתן לעשות זאת כלל בשל הגנת פרטיות. לכתבה המלאה

מכיוון שבמהלך הקריירה שלי אני נפגש בעוד ועוד מודלי סיווג בעייתיים, אנסה להצביע על אתגרים נוספים שראוי לקחת אותם בחשבון לפני שיוצאים לדרך. נזכיר את האתגרים לסיווג מוצלח שכבר עסקתי בהם: ראשית, מומלץ לשקול האם הבעיה שלכם אכן מתאימה לטכניקת הסיווג. במידה וכן, נדרש להכין מראש דוגמות רבות ולנקוט משנה זהירות במהלך הבחירה של הדוגמות. מומלץ מאוד גם לבחור באופן נבון את המאפיינים (התכונות) לסיווג. נעסוק הפעם בעוד שני אתגרים הנוגעים למרחב הבעיה איתה אתם מתמודדים: מידת השונות של העצמים אותם אתם מעוניינים לסווג, ומידת החפיפה בין קבוצות הסיווג.. לכתבה המלאה

בפוסט קודם השארתי ב"אוויר" את האמירה שמודל לאיתור טרוריסטים יטעה בתדירות גבוהה, עד שלא נוכל להשתמש בו. ציינתי שכדי להסביר זאת צריך להבין קודם כיצד מודדים איכות של מודלים בעולם הביג-דאטה. הבטחתי להסביר, והבטחות - יש לקיים. מדידה של איכות רלוונטית לשיטות של למידה מונחית, בהן יש ציפייה בעקבות תהליך הלמידה לתוצאות מסוימות. זאת מכיוון שבשיטות של למידה בלתי-מונחית כדוגמת אישכול או גילוי אנומליות ניתן אמנם לקבוע האם הפעלת השיטה הועילה, אבל התוצאה בעיקרון סובייקטיבית. גם הפעם אתמקד בסיווג. לכתבה המלאה