ברמה העקרונית, ניתן לנתח טקסטים בשתי גישות עיקריות: להתייחס אל האותיות, המילים, וסימני הפיסוק כאל נתונים "רגילים", או לנתח את הטקסטים בגישה של NLP - עיבוד שפה טבעית (Natural Language Processing). כמובן שניתן גם לשלב בין שתי הגישות. אני מניח שחלקכם זוכרים במעומעם את שיעורי הדקדוק (המשעממים, יש שיאמרו). אולי אתם זוכרים שלמילים יש שורש, משקל, בניין והטיות. הן יכולות להיות שמות עצם, פעלים, תארים וכדומה. למשפטים יש גם תחביר ומבדילים בין נושא, נשוא, מושא ועוד. אני מניח שהבנתם את הרעיון ולכן אעצור כאן, לפני שאני מאבד את כל שני הקוראים ששרדו את הפסקה הזאת. לכתבה המלאה