בפוסט קודם השארתי ב"אוויר" את האמירה שמודל לאיתור טרוריסטים יטעה בתדירות גבוהה, עד שלא נוכל להשתמש בו. ציינתי שכדי להסביר זאת צריך להבין קודם כיצד מודדים איכות של מודלים בעולם הביג-דאטה. הבטחתי להסביר, והבטחות - יש לקיים. מדידה של איכות רלוונטית לשיטות של למידה מונחית, בהן יש ציפייה בעקבות תהליך הלמידה לתוצאות מסוימות. זאת מכיוון שבשיטות של למידה בלתי-מונחית כדוגמת אישכול או גילוי אנומליות ניתן אמנם לקבוע האם הפעלת השיטה הועילה, אבל התוצאה בעיקרון סובייקטיבית. גם הפעם אתמקד בסיווג. לכתבה המלאה

התקופה הדיגיטלית בה אנו חיים מאופיינת בשפע רב של נתונים. קל היום יותר מאי פעם לאסוף נתונים כמעט על כל דבר. יש לכך יתרונות רבים מאוד, לצד חסרונות בולטים, כגון אובדן הפרטיות והסכנה לניצול לרעה של ידע. זוהי בראש ובראשונה שאלה חברתית-מוסרית, שאולי אעסוק בה בעתיד. אולם הפעם אני רוצה להצביע על בעיה אחרת. חוסר הבנה של אופי הבעיה שלפנינו עלול להוביל לכישלון גורף, או לגרימת נזקים גדולים לעוסקים במלאכה, ולצערנו לעיתים גם לאחרים. אסביר למה הכוונה. לכתבה המלאה

דוגמה פשוטה זו ממחישה שלא כדאי להסתפק רק בתכונות המידיות שקל מאוד לחשוב עליהן, אלא תמיד מומלץ לחשוב על תכונות נוספות שעשויות לסייע. מומחה ביג-דאטה מנוסה ישאף להתחיל עם הרבה מאוד תכונות. יש שיטות טובות, כחלק מתהליך הלמידה, לצמצם ולהתמקד רק בתכונות שמסייעות למטרה. בד"כ אפשר גם ליצור תכונות חדשות על ידי כל מיני חישובים ותרגילים אחרים, שקצרה כאן היריעה מלהסביר. יש גם שיטות ביג-דאטה, למשל מלכת הכיתה החדשה שנקראת "למידה עמוקה", שמסוגלות להצביע לבד על תכונות שימושיות. גם כאן הדברים יותר מורכבים לכתבה המלאה