ברמה העקרונית, ניתן לנתח טקסטים בשתי גישות עיקריות: להתייחס אל האותיות, המילים, וסימני הפיסוק כאל נתונים "רגילים", או לנתח את הטקסטים בגישה של NLP - עיבוד שפה טבעית (Natural Language Processing). כמובן שניתן גם לשלב בין שתי הגישות. אני מניח שחלקכם זוכרים במעומעם את שיעורי הדקדוק (המשעממים, יש שיאמרו). אולי אתם זוכרים שלמילים יש שורש, משקל, בניין והטיות. הן יכולות להיות שמות עצם, פעלים, תארים וכדומה. למשפטים יש גם תחביר ומבדילים בין נושא, נשוא, מושא ועוד. אני מניח שהבנתם את הרעיון ולכן אעצור כאן, לפני שאני מאבד את כל שני הקוראים ששרדו את הפסקה הזאת. לכתבה המלאה

בפוסט הקודם ציינתי דוגמה אחת ליישום של ניתוח טקסטים לטובת "זיהוי מחבר". קיימים עוד שימושים רבים מאוד לניתוח טקסטים. בפוסט הזה אזכיר עוד כמה דוגמות ליישומים, מכיוון שכזכור מטרת הבלוג לנסות להמחיש לקוראים ולקוראות מה אפשר (או אי אפשר) לעשות באמצעות שיטות שונות לניתוח מידע. לכתבה המלאה