Neznámé slovo je v pojetí NovaMorf slovní tvar, který není součástí české zásoby a zároveň není zařazen mezi cizí slova (POS=F). Nelze tedy určit jeho slovní druh.
Kategorie a hodnoty neznámých slov jsou představeny v § 1.2. V § 2 jsou rozebrány vlastnosti této slovnědruhové kategorie: v § 2.1 výskyt neznámých slov, v § 2.2 pak jejich lemmatizace. Poslední § 3 kapitolu krátce uzavírá.
U cizích slov se určuje pouze hodnota kategorie slovní druh (POS=X) (neznámé), žádné další morfologické kategorie se neurčují.
Při ruční anotaci se neznámým může stát pouze takové slovo, které anotátor nezná a nemůže určit, neboť nedává smysl v žádném kontextu. Může to být například nějaká šifra nebo naprosto nesrozumitelný překlep. Takový tvar není uveden v morfologickém slovníku. Z neznámého slova se může stát známé (například cizí slovo, které má vysokou frekvenci v českých textech): v tomto případě je přidáno do slovníku a je mu přiřazen slovní druh odlišný od X.
Příklady neznámých slov (typicky překlepy nebo slova z cizích jazyků, která nejsou zařazena mezi cizí):
překep, jesm, vísledek…
Pokud je tvar nespisovný, ale v úzu častý, chápe se jako synonymní se standardním tvarem. Oba tvary budou rozlišeny globální mutací a zachyceny vícenásobným lemmatem. Takto se například zpracují nespisovné tvary protěžovat ři bizardní:
lemma(protěžovat) = lemma(protežovat) = {protežovat, protěžovat}
lemma(bizardní) = lemma(bizarní) = {bizarní, bizardní}
Pokud je tvar neznámé slovo (POS=X), může být homonymní s tvarem jiného slovního druhu. Například tvar li v některých kontextech jistě není spojka, ale součást neznámého (třeba svahilského) textu, a není tedy natolik frekventovaný, aby byl zařazen mezi cizí slova (POS=F). Obdrží tedy POS=X.
Je vhodné, aby po standardní morfologické analýze prošel každý text i modulem, který rozpozná cizojazyčné úseky a všem slovním tvarům v těchto úsecích přiřadí hodnotu POS=F (i kdyby tato slova dostala při analýze slovnědruhovou značku jinou než F nebo X, např. sekvence čtyř tvarů POS=X, POS=I, POS=X, POS=X bude přepsána na sekvenci POS=F, POS=F, POS=F, POS=F). Viz i kapitola Cizí slova # 08-11, § 2.2.
Lemma neznámého slovního tvaru je vždy totožné s tvarem samým.
V této kapitole jsme popsali značkování neznámých slov v českých textech, typicky překlepů, případně cizích slov, která však neznačkujeme jako cizí.