Slovní druh substantivum je v české mluvnické tradici vymezen z hlediska morfologického jako ohebný slovní druh s několika typy flexe v závislosti na jmenném rodu. Morfologicky jsou substantiva téměř důsledně ohebná s převahou substantivní flexe (pán, hrad, žena, svítání, Svitavy), v případě substantivizovaných adjektiv s flexí složenou (rozhodčí, pokojská, vodné, hovězí) (srov. Štícha a kol. 2018, s. 45, dále VAGSČ). Z gramatických kategorií vyjadřují substantiva jmenný rod (maskulina navíc podkategorii životnosti), číslo a pád. Rod a číslo jsou u substantiv kategorie inherentní, tj. hodnoty těchto morfologických kategorií prototypicky nezávisí na jiných slovech ve větě (srov. Mel'čuk 1996, s. 64). Jejich nositelem je každé substantivum. Pro substantiva je příznačná jednorodovost; pomineme-li kolísání, pak každé substantivum má v zásadě jeden gramatický rod (VAGSČ, ibid.).
Východiskem pro vlastní analýzu a rozhodnutí, zda určit jistý slovní tvar jako substantivum, jsou především gramatiky VAGSČ, Štícha a kol. 2013 (dále AGSČ), Karlík a kol. 1995 (dále PMČ) a současný morfologický slovník pražského systému. (https://wiki.korpus.cz/doku.php/seznamy:tagy, Hajič 2004).
Substantivní kategorie a jejich hodnoty jsou představeny v § 1.2.
Členění substantiv podle kategorie poddruh je věnován § 2.
V dalších oddílech je podrobně probráno přířazování hodnot kategorií jmenného rodu (§ 3), čísla (§ 4) a pádu (§ 5). Pozornost je věnována především zvláštnostem ve značkování těchto kategorií u některých substantiv, mj. homonymii/kolísání v rodě (§ 3.1), zvláštním případům (singularia a pluralia tantum, duál) ve značkování čísla (§ 4.1) a inherentní homonymii v souvislosti se značkováním pádu (§ 5.3).
Poté jsou v § 6 probrány morfologické kategorie zkratka (§ 6.1), negace (§ 6.2) a jsou zde představeny typické globální (§ 6.3) a flektivní (§ 6.4) mutace substantiv.
Lemmatizace substantiv včetně nestandardních typů je popsána v § 7.
V § 8 jsou popsány slovnědruhové přechody (transpozice), zejména substantivizace adjektiv (§ 8.1), příslovcí (§ 8.2) a zájmen (§ 8.3)
Propriím je věnován § 9.
Krátký § 10 popisuje značkování webových adres a emailů.
Kapitola je zakončena stručným závěrem (§ 11).
U substantiv (POS=N) jsou relevantní tyto kategorie: poddruh (SUB), zkratka (ABR), jmenný rod (GEN), číslo (NUM), pád (CAS), negace (NEG), typ agregátu (AGR), globální mutace (GMU) a flektivní mutace (FMU), viz Tabulka 1. V Tabulce 2 uvádíme členění substantiv podle kategorie SUB.
Tabulka 1. Seznam relevantních kategorií substantiv a jejich hodnot
#
kategorie
značka kategorie
hodnoty
viz
1
slovní druh
POS
N
2
poddruh
SUB
[VC0]
§ 2
5
zkratka
ABR
[+-]
§ 6.1
6
jmenný rod
GEN
[MIFN]
§ 3
7
číslo
NUM
[SP-]
§ 4
8
pád
CAS
[1234567-]
§ 5
11
negace
NEG
[NA]
§ 6.2
14
typ agregátu
AGR
[N-]
15
globální mutace
GMU
§ 6.3
16
flektivní mutace
FMU
§ 6.4
Tabulka 2. Poddruh substantiv (SUB)
SUB
vysvětlení
příklady
viz
V
deverbativní
věznění, pokrytí, sdělení
§ 2.1
C
číslovkový
pětka
§ 2.2
0
ostatní
jezevec, pyré, stráň
§ 2.3
[SUB=[VC0]]
U substantiv rozlišujeme tyto hodnoty kategorie poddruh:
V: deverbativní – substantiva typu věznění, pokrytí, sdělení, nepřizpůsobení
C: číslovkový – lexémy vyjadřující souvislost s číslovkami, např. pětka.
0: ostatní, např. jezevec, pyré, stráň.
[POS=N & SUB=V]
a. Základní vymezení
Hodnota [SUB=V] náleží deverbativním substantivům, která vyjadřují slovesný děj a jsou tvořena paradigmaticky od kmene minulého (tvaru shodného s trpným příčestím) sufixem -n-í/-t-í (chování, léčení, nepřizpůsobení, pokrytí, sdělení, těšení, uvědomení, uvědomění, věznění, volání...).
Tato substantiva se mohou chovat ve větě jinak než ostatní substantiva, a to v těchto (morfo)syntaktických ohledech:
(i) jedině s nimi se může pojit zvratné zájmeno se/si (štítění se práce, těšení se na večeři, osvojení si učiva), jsou-li odvozena od sloves reflexiv tantum typu se (štítění), reflexiv tantum typu si (osvojení), nebo možných reflexiv (přizpůsobení (se/si)); jde tu tedy o fakultativní dědění vidu od slovesa;
(ii) jedině ona se dají rozvíjet příslovci pravidelně odvozenými od adjektiv (zpívání falešně);
(iii) všechna a jedině ona zachovávají rozdíl gramatické kategorie vidu u fundujících sloves (snížení vs. snižování);
(iv) drtivá většina z nich dědí od sloves jejich valenční vlastnosti, samozřejmě za respektování systematických změn (např. akuzativní valence fundujících sloves je nahrazena genitivní u derivovaných deverbativních substantiv).
Ač deverbativní substantiva jistí autoři považují za slovesa pro jejich naprostou totožnost významovou (obsahovou) a pro paradigmatičnost, s níž se od slovesných základů derivují (Kopečný 1962a), syntakticky i morfologicky patří mezi substantiva, a proto je řadíme k nim, nikoli ke slovesům. K vyjádření jejich slovesného rázu stačí určení deverbativního poddruhu.
b. Lexikalizovaná deverbativní substantiva
V morfologickém popisu neodlišujeme lexikalizovaná deverbativní substantiva, která nevyjadřují slovesný děj, od substantiv deverbativních nelexikalizovaných. Kopečný (1962a) uvádí příklad Zabývali se vázáním ječmene – Ruplo mi lyžařské vázání. Podobně krmení zvířat – krmení pro zvířata či Podstatné bylo uvědomění si vlastních mezí – Husák měl veliké třídní uvědomění. Tyto a další lexémy s možným dvojím výkladem (gramatická × lexikální derivace): utkání, vedení, jednání, zařízení, umění, oddělení, představení, vystoupení, vydání… budou mít pouze [SUB=V].
Obecně platí: Má-li tedy deverbativní substantivum nelexikalizovaný význam, je značkováno jako SUB=V (ač může mít i význam lexikalizovaný). Desambiguovat homonymii mezi lexikalizovaným a nelexikalizovaným významem téhož lexému je nesmírně obtížné, a proto tak nebudeme činit. Průnik substantiv typu SUB=V a substantiv SUB=[0C] je tedy prázdný.
c. Problematické tvary
Za problematické tvary lze pokládat substantiva jako:
vězení, utrpení, koření, mání, strpení, osení, šírání… Jsou sice odvozena od sloves, ale tvořena nepravidelně (utrpění, strpění × utrpení, strpení) a vztah k motivujícímu slovesu není vztahem transpozice děje v substanci (vězet → vězení, mít/jmout → mání, osít → osení, šírat → šírání), popř. jde o homonyma s velmi nepravděpodobným výskytem (kořit → koření).
Tato substantiva mají pouze [SUB=0].[1]
d. Substantivní kompozita
Substantivní kompozita (čepobití, podsebití, krupobití, krveprolití, bezžití, znovuzrození, vinobraní, nanebevzetí, dík[uů]vzdání, rukoudání, zmrtvýchvstání, rychlobruslení, jasnozření, nitrozření, vnitrozření, znovuvzkříšení, zvelkoměšťáčtění, zmaloměšťáčtění, různočtení, galapředstavení, vzdoropředstavení, dobrodiní....)
za deverbativní nepokládáme, protože patrně neexistují kompozitní slovesa (*čepobít, *krupobít…, dobrodít, vinobrát); mají pouze [SUB=0].
e. Rozlišování deverbativních a ostatních substantiv
Při rozlišování deverbativních substantiv (SUB=V) a ostatních substantiv (SUB=[0C]) za hlavní problémy obecně pokládáme:
ručení za úplnost seznamů v případě otevřených skupin lemmat, která splňují do jisté míry kritéria, podle nichž se udělují hodnoty SUB, a která uvedené hodnoty SUB „verbální“ mít z nějakého důvodu nebudou;
kompozita derivovaná postupně, ta tvoří velkou problematickou skupinu. U některých z nich jde přitom o derivaci gramatickou (vstoupit na nebe → vstoupení na nebe → nanebevstoupení, být vzat na nebe → vzetí na nebe → nanebevzetí, prolít krev → prolití krve → krveprolití, vzdát dík(y) → vzdání dík[uů] → dík[uů]vzdání, přijmout se → přijetí sebe → sebepřijetí, sdílet se → sdílení sebe → sebesdílení), u některých o lexikalizaci (vinobraní, dobrodiní, podsebití).
f. Deverbativní substantiva podobná číslovkám
Lexémy podobné číslovkám vycházejícím z početního úkonu: typ zdvojnásobení, jsou substantiva se SUB=V; přítomnost číselného elementu se u nich nevyznačí (srov. kapitola Číslovky # 08-04, § 3.3.3).
[POS=N & SUB=C]
Za číslovková [POS=N & SUB=C] (srov. podrobný rozklad v kapitole Číslovky # 08-04, § 3.1.3) považujeme tato substantiva:
a. lexémy podobné číslovkám vztaženým k celku
např. desítka, jednička, kolikátka, pětka, stosedmnáctka, stovka, šestatřicítka, tisícovka [GEN=F];
b. lexémy typu desetitisíce, stamiliony, statisíce, jednotka
nikoli vyšší číslovky typu miliony;
c. lexém nula [GEN=F]
v kontextech, kde to není základní číslovka (nula je základní číslovka například v těchto kontextech: vedu jedna nula – denní teploty mínus čtyři až nula – nula celá čtyři procenta), včetně metaforických užití jména čísla: vyhráli s nulou – udrželi nulu – vychytal pět nul / první nulu – všichni jste úplné nuly – krevní skupina nula – dotisknou nuly (úprava bankovek k „řešení” inflace) – dokud jí Robert nebude moci říci, co jedničky, nuly a ixy znamenají; strmý průchod fáze nulou čili „místem s hodnotou 0“ – se dvěma nulami;
d. lexém málo
lexém málo pokládáme za číslovkové substantivum neutrum v singuláru [GEN=N & NUM=S] s úplným paradigmatem (tvary mála, málu, málem a kontexty typu to <málo> (co nám zbylo), je nás <málo>, protivníků bylo <málo>). Nicméně v kontextech s nesklonným málo (k <málo> lidem, díky <málo> výjimkám) je málo číslovkové adverbium ([POS=D & SUB=C]) (srov. kapitoly Adverbia # 08-06, § 4.4 a Číslovky # 08-04, § 3.1.3).
Podobně se značkuje nemálo: lemma(nemálo) = nemálo a [NEG=N];
e. zdrobněliny typu desetinka, osminka [GEN=F]
nikoli číslovky osmina, desetina;
f. lexémy typu prvňačka [GEN=F], prvňák [GEN=M], druhačka [GEN=F], druhák [GEN=M]
g. lexémy typu dvanácterák [GEN=M], čtyřčata, vícerčata [GEN=N]
h. lexémy typu dvaatřicetina jako označení not
osmina, šestnáctina, dvaatřicetina [GEN=F];
i. lexémy narozeninového typu zakončené na -átiny
lexémy narozeninového typu zakončené na -átiny (třicátiny, kolikátiny…) jsou číslovková substantiva pluralia tantum ([GEN=F & NUM=P]):
kolikátiny, půltiny, pětiny, šestiny,…, devatenáctiny, dvacátiny, pětadvacátiny, třicátiny, třiatřicátiny, pětatřicátiny, čtyřicátiny, pětačtyřicátiny, padesátiny, pětapadesátiny, šedesátiny, pětašedesátiny, sedmdesátiny, pětasedmdesátiny, osmdesátiny, pětaosmdesátiny, devadesátiny, pětadevadesátiny, setiny, stopětiny, stodesetiny. Lexémy na -tiny se často vyskytují v nesprávných podobách: dvacetiny, třicetiny…, které jsou homonymní s dílovými číslovkami [POS=C & SUB=h & DEI=U] (srov. kapitola Číslovky # 08-04, § 2, bod 7 a # 08-04, § 3.3.1(2));
j. lexém vícero [GEN=N & NUM=S]
[POS=N & SUB=0]
Za ostatní ([SUB=0]) (srov. opět podrobný rozklad v kapitole Číslovky # 08-04, § 3.1.3) považujeme tato substantiva:
a. Kontejnery: lexémy typu hromada, menšina, moře, spousta, většina...
S případy jako Bylo tam spoustu lidí., Měl spousta řečí. se zachází podle jejich morfologického, nikoli syntaktického charakteru, čili spoustu [CAS=4], spousta [CAS=1].
Ustrnulé tvary substantivního původu označující množství jako kapičku, kapku, trochu, trošku, trošičku, trošinku… Některé z nich jsou označkovány v současnosti jak jako příslovce (tag=Db.*), tak jako substantiva. Podobné (např. spoustu) pouze jako substantiva. Dosavadní desambiguace není zcela v pořádku. Návrh NovaMorf směřuje ke zjednodušení desambiguace, pro kterou neexistuje shoda, a k tomu, aby značkování slov různých slovních druhů, která plní funkci kvantifikátorů vyjadřujících neurčité kvantum, nezatěžovalo automatickou morfologickou analýzu problémy, které na rovinu morfologie striktně vzato nepatří. Tato slova budou značkována jako substantiva ([POS=N], například: moře, hafo, hromada, kupa, spousta, trocha, troška…), následující tvary jako příslovce ([POS=D]): kapičku, kapku, trochu, trošku, trošičku, trošinku… v případě, že jejich ustrnulé tvary rozvíjejí sloveso: dej mi <trochu> [POS=N] vody a já ti <trochu> [POS=D] pomůžu; Včera <trochu> [POS=D] pracoval).
Tvary rozvíjející substantivum se někdy skutečně chovají jako substantiva:
Zůstaly bez <trochy> [POS=N] vody, Nalej mi <trochu> [POS=N] vína,
jindy se deflektivizují: Některé úseky potoků v létě vysychají a tam, kde alespoň <trochu> [POS=D] vody zůstane, není dostatek kyslíku, takže ryby zpravidla uhynou. Krásné vlasy nejsou samozřejmostí a bez <trochu> [POS=D] námahy a pravidelné péče to prostě nepůjde…, takže fungují jako příslovce a musí se slovnědruhově desambiguovat. Tvary kapičku, kapku, trochu, trošku, trošičku, trošinku budou tedy mít v morfologickém slovníku dvě slovnědruhové interpretace ([POS=N] i [POS=D]). Na tato slova by měl být uživatel upozorněn a měl by být zveřejněn jejich seznam. Jedná se patrně o otevřenou množinu a slovník automatického morfologického analyzátoru zaznamená pouze výběr případů substantiv, která fungují jako kvantifikátory u jmen, ale ustrnulý tvar jména plní funkci měrového příslovečného doplnění sloves.
b. Lexém pár
Lexém pár pokládáme za substantivum [POS=N],
(i) je-li kvantifikovatelný/kvantifikovaný základní číslovkou: jeden <pár>, se dvěma <páry> hrdliček;
(ii) v užití s rozvíjejícím adjektivem nebo s adjektivále: manželský <pár>, pro lesbický <pár>, tančící <pár>, třetí <pár>, některý <pár>, žádný <pár>, ten <pár>(× těch <pár>!, kde je to příslovce);
(iii) jde-li zjevně o dvojici: Jak si <pár> kamsi vyjel inkognito., Zda se <páru> narodí miminko.
V ostatních případech, kdy se pár neskloňuje a je synonymní s číslovkou několik (Vzal s sebou <pár> konzerv., s <pár> lidmi), je pár příslovce [POS=D].
c. Lexémy procento, promile
Lexémy procento, promile založené na jinojazyčných číselných základech posuzujeme ve shodě s tradicí jako substantiva se [SUB=0], nikoli [SUB=C], protože nemají domácí základy číselných výrazů.
d. Lexémy jako tucet, mandel aj.
Lexémy jako tucet, mandel a jiné relikty historických způsobů počítání:
(i) nejrůznější nečíslovkové výrazy pro kvantum (jejich přehled viz Šimandl 2011 (dále KČG), s. 693–695: např. <hrnec> brambor, <lavina> útoků, další <litr> humoru);
(ii) přejatá ztvárnění číslic (myriáda, bis, ten), lexémy cizího původu vyjadřující kvantum: deka, deci…
e. Vysoké základní číslovky
Za substantiva nepokládáme vysoké základní číslovky milion, miliarda, bilion... atd., za které nevznikla domácí náhrada (srov. kapitola Číslovky # 08-04, § 2).
U substantiv rozlišujeme tyto hodnoty jmenného rodu:
1. M: maskulinum životné (chlapci, potkanům, předseda)
2. F: femininum (ženě, duši, píseň, radostem)
3. I: maskulinum neživotné (audity, lesů, vlaky)
4. N: neutrum (hovězího, Jestřebí, městem, moři, spropitným, stavení).
Uvedené hodnoty jsou uspořádané a tvoří hierarchii, která je relevantní pro stanovení jmenného rodu syntaktických adjektiv morfologicky závislých na koordinaci substantiv podle mluvnických pravidel. Každý substantivní tvar má přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou (srov. Vondráček 2013); je-li morfologicky rodově homonymní mezi substantivy, má hodnot více. Uveďme nyní příklady substantiv homonymních v rodě (srov. Petkevič 2014). Každý z rodů je popsán zvláštním paradigmatem, typicky paradigmatem maskulina neživotného a feminina.
(srov. AGSČ, s. 310)
Řada substantiv je homonymních v rodě či kolísá v rodě; existují přitom velmi odlišné typy.
Tato substantiva patří k různým jmenným rodům, což se projevuje odlišnými rodovými paradigmaty. Lemmata tvarů těchto substantiv jsou vždy jednoduchá (nejsou vícenásobná). Existují přitom různé typy homonymií:
a. Homonymie maskulinum životné – femininum
Sem spadají např. lexémy:
choť, naivka, paprika, rada, sršeň, šmudla; cestující, okolojdoucí, přeživší… [GEN=M | GEN=F]
Substantiva tohoto typu mohou být maskulina životná i feminina, přičemž jejich tvary se většinou liší v závislosti na rodu (Gpl choťů / chotí), ale nemusí (Nsg choť GEN=M | GEN=F). Ve slovníku budou obě plná paradigmata pro GEN=M i GEN=F. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum životné:
<Choť> [GEN=M] jdoucí do divadla...
b. Homonymie maskulinum životné – maskulinum neživotné
Sem spadají např. lexémy:
analyzátor (analyzátoři vs. analyzátory), balík (balíci vs. balíky), civil, člen, manažer, prostředník, předek, smrad, velikán, veterán... [GEN=M | GEN=I] (srov. Petkevič 2014, s. 63).
Substantiva tohoto typu mohou být maskulina životná i maskulina neživotná (typicky vyjadřují odlišný význam), přičemž jejich tvary se mohou lišit v závislosti na rodu (Asg prostředníka / prostředník), ale nemusí (Nsg prostředník / prostředník [GEN=M | GEN=I] ). Ve slovníku budou obě plná paradigmata pro GEN=M i GEN=I. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum životné:
Byl tam <prostředník> [GEN=M].
c. Homonymie femininum – maskulinum neživotné
Sem spadají např. lexémy:
esej, hřídel, kredenc, kyčel, líc, rez, smeč, sršeň, svízel
a také toponyma:
Želiv (v Želivi [GEN=F] / Želivu [GEN=I]), podobně Aš, Bubeneč, Olomouc. [GEN=F | GEN=I]
Substantiva tohoto typu mohou být feminina i maskulina neživotná, přičemž jejich tvary se většinou liší v závislosti na rodu (Gpl hřídelí / hřídelí), ale nemusí (Nsg hřídel GEN=F | GEN=I). Ve slovníku budou obě plná paradigmata pro GEN=F i GEN=I. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum:
Četl jsem vynikající <esej> [GEN=F] Josefa Šimandla.
Do této skupiny patří i lexémy lišící se v základním tvaru, např. brambora GEN=F vs. brambor GEN=I. V tomto případě se bude nehomonymní tvar bramborem a bramborou značkovat takto:
lemma(bramborem) = brambor [GEN=I]
lemma(bramborou) = brambora [GEN=F]
Homonymní tvar brambor se bude značkovat takto:
(i) lemma(brambor) = brambor [NUM=S & GEN=I & (CAS=1 | CAS=4)]
(ii) lemma(brambor) = brambora [NUM=P & GEN=F & CAS=2]
A homonymní tvar brambory se bude značkovat takto:
(iii) lemma(brambory) = brambor [NUM=P & GEN=I & (CAS=1 | CAS=4 | CAS=5 | CAS=7)]
(iv) lemma(brambory) = brambora [[NUM=S & GEN=F & CAS=2] | [NUM=P & GEN=F & CAS=2 | CAS=4 | CAS=5]]
I v tomto případě je lemma vždy jednoduché. Nepovažujeme za vhodné, aby rodově jednoznačný tvar, např. bramborou, měl jednoduché lemma a rodově nejednoznačný tvar, např. brambory, měl lemma vícenásobné (např. {brambora, brambor}). V zájmu konzistence vyjadřujeme tedy rodovou nejednoznačnost obdobně jako u ostatních typů rodové homomymie v této podkapitole. Od výše uvedených typů a. a b. se tento typ ovšem liší: odlišný rod tu nevyjadřuje odlišný význam.
d. Homonymie femininum – neutrum
Do této skupiny spadá např. lexém:
káně
Substantiva tohoto typu mohou být feminina i neutra, přičemž jejich tvary se většinou liší v závislosti na rodu (Gsg káně / káňete), ale nemusí (Nsg káně GEN=F | GEN=N). Ve slovníku budou obě plná paradigmata pro GEN=F i GEN=N. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum:
Viděl na obloze poletující <káně> [GEN=F & NUM=P & CAS=4], nikoli [GEN=N & NUM=S & CAS=4].
e. Homonymie maskulinum neživotné – neutrum
Sem spadá např. lexém:
datum
Substantiva tohoto typu mohou být maskulina neživotná (datum, datumu, datumu, datum, datumu, datumem, datumy, datumů…) i neutra (datum, data, datu, datum… data, dat…). Tvary odlišných paradigmat se většinou liší v závislosti na rodu (Gsg datumu / data), ale nemusí (Nsg datum GEN=I | GEN=N). Ve slovníku budou obě plná paradigmata pro GEN=I i GEN=N. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum neživotné:
Viděl <datum> [GEN=I] v kalendáři.
Mimoto existuje ještě plurale tantum data [GEN=N] (s významem údaje, např. počítačová data).
Do této skupiny zařazujeme lexémy, jejichž základní tvar x je jistého rodu, zatímco některé tvary, jež jsou lemmatizovány tvarem x, jsou rodu jiného.
U substantiv vykazujících tyto rodové anomálie a zvláštnosti by bylo vhodné zavést kategorii pro tyto rodové anomálie/přechody/výpůjčky, jakési GEN2, aby uživatel měl k dispozici informaci o této zvláštnosti. Hodnota této kategorie by byla uniformně přiřazena každému tvaru lexému a znamenala by, že část paradigmatu je jiného rodu, než je základní rod lexému. Například u substantiva maskulina neživotného fakt by GEN2 obsahovala údaj o přechodu mezi maskulinem neživotným a neutrem: I → N, neboť některé tvary jsou neutra, např. fakta. Podobně např. maskulinum neživotné oblak s Npl neutra oblaka. Lexémy typu bacil, buřt…, mikrob…, šlofík… jsou maskulina neživotná, ale některé tvary jsou životné: Dsg/Lsg bacilovi, Asg bacila, buřta, Npl bacilovi… V tomto případě by kategorie GEN2 obsahovala hodnotu: I → M.
Níže podrobněji rozebíráme jednotlivé typy:
a. Životné tvary neživotných maskulin: typ panáka, buřta
(srov. AGSČ, s. 301; Najbrtová 2013; Šulc 2001)
Neživotné maskulinum panák má tvar Asg panáka (podobně bacila, buřta, čouda, dupáka, forda, frťana, hobla, hřiba, klouzka, kouda, kozáčka, majzla, mikroba, mobila, šlofíka, šluka, taxíka…). Tento tvar je tvarem životného maskulina [GEN=M & NUM=S & CAS=4]. Gsg má podobu panáku nebo panáka (vždy neživotné maskulinum [GEN=I]) [GEN=I & NUM=S & CAS=2]. Tyto podoby Gsg jsou rozlišeny flektivní mutací -a/-u.
Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je jiného rodu (vypůjčený z jiného rodu): GEN2: I → M.
b. Životné tvary neživotných maskulin: typ panáci/panáky
Neživotné maskulinum panák má tvar Npl, Vpl panáci / panáky (podobně bacili / bacily, choroši / choroše, klouzci / klouzky, koníčci / koníčky, kostlivci / kostlivce, kozáci / kozáky, křemenáči / křemenáče, ledoborci / ledoborce, maskoti / maskoty, mikrobi / mikroby, medvídci / medvídky, ryzci / ryzce, slanečci / slanečky, sledi / sledě, sněhuláci / sněhuláky, strašáci / strašáky, uzenáči / uzenáče, zavináči / zavináče). Tvar panáci je tvarem životného maskulina [GEN=M], tvar křemenáči je tvarem životného maskulina [GEN=M], zato tvar křemenáče je tvarem neživotného maskulina [GEN=I].
K tomuto typu patří i životné tvary Npl a Vpl neživotných maskulin: dnové [GEN=M] (podobně (zelení) hájové, hrobové, národové, jazykové).
Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → M.
c. Typ činitel, ukazatel
Substantivum typu činitel (AGSČ, s. 301) jakožto maskulinum neživotné může mít v Npl, Vpl (vypůjčený) životný tvar: činitelé.2 Podobně ukazatel, ukazatelé.
Sem patří i neživotná substantiva užívaná životně: lexémy typu agent:
Líbily se mi ty <agenti> [GEN=M] a <pacienti> [GEN=M] v pojetí Funkčního generativního popisu.
Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → M.
d. Neutrové tvary neživotných maskulin
Paradigmata fakt a faktum jsou ve slovnících uváděna zvlášť podle rodu. V plurálu se používá skloňování podle obou rodů, ovšem v singuláru se neutrové paradigma faktum užívá jen velmi výjimečně. Proto řadíme singulárové tvary Nsg faktum, Gsg fakta pod zvláštní lemma faktum s [GEN=N], zatímco plurálové tvary neutra fakta, fakt řadíme k lemmatu fakt majícímu [GEN=I] (ostatní homonymní tvary faktu, faktem, faktům, faktech, fakty budou mít [GEN=I]).
Všechny tvary paradigmat fakt a faktum by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN: I → N.
Lexém oblak je v singuláru pouze maskulinum neživotné, v plurálu jsou vedle tvarů maskulina neživotného (Npl, Apl, Vpl oblaky, Gpl oblaků, Lpl oblacích) i tvary neutra (Npl, Apl, Vpl oblaka, Gpl oblak, Lpl oblakách); týmž tvarem pro oba rody je Dpl oblakům a Ipl oblaky.
Všechny tvary paradigmat oblak by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → N.
Lexém typu kníže (dále markrabě…) je v singuláru maskulinum životné (český kníže) i neutrum (české kníže), a patří tedy v singuláru k typu 3.1.1.e výše. V plurálu jsou všechny tvary neutrové: knížata, knížat…
Všechny tvary paradigmat kníže by měly mít informaci o tom, že v singuláru jsou dva variantní rody, v plurálu pouze neutrum: GEN2: I → N; lze tedy říci, že maskulinum životné v singuláru si vypůjčilo neutrum v plurálu.
Poznámka
Typ 3.1.1 se liší od typu 3.1.2 tím, že v základním tvaru, tj. Nsg, je substantivní tvar homonymní a rozvíjející syntaktické adjektivum v některých případech také, srov.:
velký[GEN=M] mikrob[GEN=M]; velký[GEN=I] mikrob[GEN=I];
velký[GEN=M] sršeň[GEN=M] vs. velká[GEN=F] sršeň[GEN=F]
velká[GEN=F] brambora[GEN=F] vs. velký[GEN=I] brambor[GEN=I
a. Mísení tvarů maskulina neživotného s femininními
U pomnožných toponym dochází často k mísení tvarů maskulina neživotného s femininními, a znejasňuje se tak jmenný rod lexému. V tomto případě navrhujeme pro toponymum pouze jediný rod podle Internetové jazykové příručky (http://prirucka.ujc.cas.cz):3
maskulina neživotná: Dolomity, Hradčany, Chocerady, Klatovy...
feminina: Chrastiny, Lurdy...
Variantnost tvarů se popisuje pouze flektivní mutací, a to i tehdy, je-li tvar typický pro jiný rod, než je rod lexému: např. lexém Dolomity je maskulinum neživotné, přičemž kupř. Gpl má dvě podoby: Dolomitů (tvar mask. neživ.) i Dolomit (tvar charakteristický pro feminina). Kongruentní tvary adjektiv se v rodě neliší (krásných Dolomit/Dolomitů), a proto budou všechny tvary, tj. krásných, Dolomit, Dolomitů [GEN=I]. Tvary Gpl Dolomit a Dolomitů se ve značkování liší jen flektivní mutací.
b. Pomnožná vs. singulárová toponyma
Některá toponyma se vyskytují jako
(i) pomnožná feminina / maskulina neživotná nebo
(ii) feminina v singuláru.
V tomto případě bude ve slovníku plné paradigma jak pro typ (i), tak pro typ (ii). Rodově homonymní tvary, tedy tvary v průniku obou paradigmat, se budou desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum a singulár:
Domažlice (FemPomn), Sušice (Fem i FemPomn)
Hostivice (Fem)
U pomnožných substantiv je vhodné zachycovat tuto anomálii (pomnožnost) zvláštní kategorií NUM2, viz § 4.1.3.
a. Typ dni/y
Tvary dni/y – tj. Npl, Apl, Vpl lexému den – jsou tvary neživotného maskulina [GEN=M & NUM=P & CAS=[145]]. Varianta -i/-y je rozlišena flektivní mutací -i / -y.
b. Typ léta
Předpokládáme existenci pomnožného lexému [GEN=I & NUM=P] (a tedy i příslušného lemmatu) léta jako neutrum plurálu. Oproti dosavadnímu značkování v korpusech nepředpokládáme morfologickou souvislost s lexémem rok v plurálu. Takže:
lemma(léta) = léta
c. Typ lidé
Lexém lidé chápeme jako pomnožné maskulinum životné [GEN=M & NUM=P]. Oproti dosavadnímu značkování nepředpokládáme morfologickou souvislost s lexémem člověk v plurálu. Takže:
lemma(lidé) = lidé
Singulárové tvary dítě, oko, ucho jsou neutra [GEN=N & NUM=S], plurálové tvary děti, oči, uši jsou feminina [GEN=F & NUM=P]; plurálové tvary ucha / oka (Gpl uch, ok) jsou neutra [GEN=N & NUM=P]. Singulárové i plurálové tvary mají totéž singulárové lemma:
lemma(dětí) = lemma(dítěti) = dítě
lemma(očím) = lemma(okem) = oko
lemma(uším) = lemma(uchu) = ucho
Na základě hierarchie uvedené v § 3 se určuje:
(i) jmenný rod minulého příčestí a trpného příčestí, je-li jeho podmětem koordinovaná struktura,
(ii) rod syntaktického adjektiva, které rozvíjí koordinovanou strukturu.
Příklady:
Traktor/Traktory a cihla/cihly <byly>[GEN=F] <dovezeny>[GEN=F].
Traktor/Traktory a mládě/mláďata <byly>[GEN=I] <dovezeny>[GEN=I].
Žena/Ženy a mládě/mláďata <odešly>[GEN=F].
Tele a sele se <pásly>[GEN=F].
Kamení, lísky a keře <rostly>[GEN=F] na zahradě.
Muž a stroj <byl>[GEN=M] jedna a táž osoba.
Traktor/Traktory a cihla/cihly, <které>[GEN=F] jsem viděl...
Traktor/Traktory a mládě/mláďata, <které>[GEN=I] stojí před námi...
Žena/Ženy a mládě/mláďata, <které>[GEN=F] jsou zde....
Tele a sele, <které>[GEN=F] se pasou před námi...
Kamení, lísky a keře, <které>[GEN=F] vidíme před sebou...
Muž a stroj, <které>[GEN=M] jsem zahlédl...
Předchází-li příčestí před podmětem tvořeným koordinovanou strukturou, pak je-li možná shoda s prvním členem, volíme rod prvního členu:
<Byly>[GEN=F] tam kozy a traktory.
<Byly>[GEN=I] tam traktory a kozy.
U substantiv rozlišujeme tyto hodnoty čísla:
S – singulár (poplatku, kniha)
P – plurál (pánové, ženám)
Každý substantivní tvar má v morfologickém slovníku přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou. Je-li tvar v čísle morfologicky homonymní, má hodnot více. Například:
muže:
lemma(muže) = muž & [NUM=S & CAS=[24]]
lemma(muže) = muž & [NUM=P & [CAS=4]]
pásem:
lemma(pásem) = pás & [NUM=S & [CAS=7]]
lemma(pásem) = pásmo & [NUM=P & [CAS=2]]
a. Singularia
Singularia, tj. jména látková, hromadná, abstrakta a unika, jsou v úzu typicky jen v singuláru (brav, drůbež, listí, nádobí, rostlinstvo, skot, větvoví, srov. VAGSČ, s. 48nn.), v morfologickém slovníku budou však i tvary plurálové; půjde o přegenerování (je to rozumné vzhledem ke kreativitě autorů textů). Plurálové podoby se v drtivé většině odstraní desambiguací, která ovšem – zvláště u typu listí, nádobí, větvoví – může být obtížná.
b. Pluralia tantum
Pluralia tantum (dveře, dvířka, jmeniny, kamna, spalničky, stanovy, trenýrky, zarděnky, srov. VAGSČ, s. 294nn.) mají ve svém paradigmatu jen plurálové tvary, v morfologickém slovníku tedy nebudou umělé podoby singulárové.
Příklady:
lemma(dveřím) = dveře
lemma(kamnech) = kamna
lemma(červánků) = červánky
lemma(moldánky) = moldánky
U lexémů typu dveře, kamna je situace jasná: singulárové tvary neexistují. Jinak ovšem existuje šedá zóna mezi pluralii tantum a lexémy s převahou plurálových tvarů (srov. Michalec a kol. 2016). Hranici bude často nesnadné určit, neboť např. i u zdánlivě jasných pluralií tantum (např. kalhoty) existují případy typu dámská kalhota. Je nutné se také vypořádat s homonymií typu maskáč / maskáče, šusťák / šusťáky, kde jde o různé lexémy, jejichž odlišnost se projevuje v čísle.
Pokud výrazně převažují plurálové formy, bude lemma plurálové. Minoritní singulárové formy budou mít plurálové lemma, např.
lemma(červánek) = červánky, lemma(kalhota) = kalhoty.
U pluralií tantum je vhodné zavést kategorii NUM2, jejíž hodnota bude upozorňovat na to, že daný tvar (ať už je sám v singuláru nebo v plurálu) je lemmatizován tvarem Npl, nikoli Nsg, což je zvláštnost
a. Základní vymezení
Duál substantivních tvarů očima, ušima, rukama, nohama (v plurálu vesměs feminina: [POS=N & SUB=0 & GEN=F & NUM=P & CAS=7]) a syntaktických adjektiv, jež se s nimi shodují nebo s nimi koreferují (<těma jejíma krásnýma očima>; ruce, <kterýma> jsem doplaval ke břehu) chápeme nikoli jako zvláštní hodnotu čísla nebo zvláštní kategorii, nýbrž jako duálovou flektivní mutaci (FMU):
pro opozici nohami / nohama (duál) / nohama (ob.čes.): FMU -ami / -ama (duál) / -ama (ob.čes.)
pro opozici očima (duál) / očima (ob.čes.): FMU -ima (duál) / -ima (ob.čes.)4
pro opozici rukama (duál) / rukama (ob.čes.): FMU -ama (duál) / -ama (ob.čes.)
pro opozici ušima (duál) / ušima (ob.čes.): FMU -ima (duál) / -ima (ob.čes.)
pro opozici syntaktických adjektiv, např. krásnými / krásnýma (duál) / krásnýma (ob.čes.): FMU -ami / -ama (duál) / -ama (ob.čes.).
Při desambiguaci tvarů končících na -ama se dává u výše uvedených čtyř substantiv a s nimi kongruentních syntaktických adjektiv přednost interpretaci duálové před obecněčeskou. U tvarů očima, rukama, ušima tak zůstane obecněčeská interpretace pouze potenciální, jedině u spojení typu pěti nohama bude mít nohama FMU -ama ob.čes.
U jiných substantiv duálová interpretace nebude, srov. s krásnýma (FMU ob.čes.) ženskýma (FMU -ama ob.čes.)
b. Lemmatizace
Lemmatizace je jasná:
lemma(nohami) = lemma(nohama) = noha
Podobně syntaktická adjektiva jejíma (POS=P), krásnýma (POS=A)…:
lemma(jejími) = lemma(jejíma) = její
lemma(krásnými) = lemma(krásnýma) = krásný
c. Poznámky
Třebaže tvary Gpl a Lpl kolenou, nohou, ramenou, rukou jsou duálové, neznačkují se duálovou mutací, neboť nevynucují duálovou shodu. Odlišnost tvarů Gpl: kolenou vs. kolen, nohou vs. noh, ramenou vs. ramen, rukou vs. ruk se vystihne zvláštní flektivní mutací. Podobně se zvláštní flektivní mutací vystihne i odlišnost tvarů Lpl: kolenou vs. kolenech vs. kolenách, nohou vs. nohách, ramenou vs. ramenech, rukou vs. rukách (viz Tabulka 4 níže).
Nutno však mít na paměti, že rozdíl např. mezi očí vs. ok a uší vs. uch je dán především rodem (např. uší [GEN=F], uch [GEN=N]).
Tvar prsama je pouze obecněčeský, nikoli duálový. Bude značkován jako flektivní mutace FMU -y/-ama (prsy / prsama).
(AGSČ, s. 356)
Některé z názvů měst a obcí mají pouze tvary singulárové, jiné pouze plurálové a některá kolísají mezi singulárem a plurálem. Názvy pouze plurálové budou mít pouze plurálové paradigma, ostatní paradigma plné, tj. singulárové i plurálové. Například:
Kaplice: do Kaplice vs. do Kaplic, v Kaplici vs. v Kaplicích.
U pluralií tantum je vhodné zavést kategorii NUM2, jejíž hodnota bude upozorňovat na to, že daný tvar (ať už je sám v singuláru nebo v plurálu) je lemmatizován tvarem Npl, nikoli Nsg, což je zvláštnost.
Viz též § 3.1.3.
U substantiv rozlišujeme tyto hodnoty pádu:
1 – nominativ (chlapec)
2 – genitiv (hradů)
3 – dativ (chlapcům, velkému)
4 – akuzativ (dívku)
5 – vokativ (člověče!)
6 – lokál (řešeních, nádherném)
7 – instrumentál (stavbami, některými)
Každý substantivní tvar má přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou; je-li tvar morfologicky homonymní mezi substantivy v pádě, má hodnot více.
Nesklonná substantiva chápeme jako ostatní substantiva: v morfologickém slovníku bude plné paradigma s příslušnými hodnotami kombinace rodu, čísla a pádu. V textu se budou hodnoty jednoznačně desambiguovat.
Příklady (srov. AGSČ, s. 299; VAGSČ, s. 375):
alibi [GEN=N], aranžmá [GEN=N], atašé [GEN=N], enfant (ve spojení hokejový <enfant> terrible) [GEN=M], dementi5 [GEN=N], enfant (ve spojení vyhlášená enfant terrible) [GEN=F], enfant (ve spojení svobodné <enfant> terrible) [GEN=N], finále [GEN=N], chargé (ve spojení íránský <chargé> d’affaires) [GEN=M], chargé (ve spojení česká <chargé> d’affaires) [GEN=F], image [GEN=[FIN]], interview [GEN=N], kari [GEN=N], khaki (barva) [GEN=[FIN]], komuniké [GEN=N], negližé [GEN=N], ragby [GEN=N], ragú [GEN=N], tabu [GEN=N], whisky [GEN=F].
Některá synonymní substantiva kolísají mezi různými deklinačními vzory v rámci téhož jmenného rodu: berla / berle, studna / studně… Tento případ řešíme různými lemmaty (berla vs. berle) a jednotlivé tvary vztahujeme při lemmatizaci k nim (lemma(berlám) = berla, lemma(berlím) = berle).
Pro případy inherentní homonymie (nikoli případy pouze obtížně desambiguovatelné) se nevyužívá staršího konceptu sdružené hodnoty (proměnné) a tyto případy se řeší:
(i) buď disjunkcí, tj. že i po desambiguaci bude ponecháno víc hodnot,
(ii) nebo se při desambiguaci rozhodne ve prospěch frekventovanějšího případu.
Preferujeme řešení (ii).
Existují tyto typy inherentní homonymie (přehled patrně není vyčerpávající):
a. mezi genitivem a akuzativem:
tento případ nastává u sloves a deverbativních adjektiv s dvojí rekcí (genitiv a akuzativ) pro vyjádření přímého předmětu. Např. ve větě Užívá <stavení>., kde stavení lze interpretovat jako Gsg (užívá /užívající hezkého <stavení> [CAS=2]), nebo jako Asg (užívá/užívající hezké <stavení> [CAS=4]);
b. mezi nominativem a instrumentálem:
ve větě Při požáru byli <muži>., kde muži lze interpretovat jako Npl (Při požáru byli praví <muži> [CAS=1].), nebo jako Ipl (Při požáru byli pravými <muži> [CAS=7].);
c. mezi nominativem a akuzativem:
ve větě Viděl město <Rychnov>., kde Rychnov je v Asg, nebo v Nsg (nominativ jmenovací);
d. mezi nominativem a lokálem:
ve větě Hovořil o městečku <Lštění>., kde Lštění je v Lsg, nebo v Nsg (nominativ jmenovací);
e. mezi genitivem a dativem:
ve větě Byl blíž <řešení> úkolu., kde řešení je v Gsg, nebo v Dsg. Tento případ nastává u sloves, příp. deverbativních adjektiv s dvojí rekcí (genitiv a dativ).
U substantivní zkratky ABR rozlišujeme tyto hodnoty:
+: tvar je substantivní zkratka [POS=N & ABR=+]
-: nedefinováno, tj. tvar není substantivní zkratka [POS=N & ABR=-].
Substantivní zkratkou rozumíme jeden slovní tvar, který zastupuje jednoslovné substantivum nebo víceslovnou jmennou skupinu, např. Kr. (Kristus), l. (letopočet), r. (rok), ODS (Občanská demokratická strana), SSSR (Svaz sovětských socialistických republik), StB (Státní bezpečnost), č. (číslo), H2SO4 (kyselina sírová). Například č. je zkratka substantivního lexému číslo, a jsou pro ni tedy relevantní všechny kategorie, jež jsou relevantní pro ostatní podstatná jména: rod (GEN), číslo (NUM), pád (CAS), negace (NEG). U substantivní zkratky, která zastupuje jmennou frázi (SSSR, ODS apod.), se stanoví rod, číslo a pád podle toho, co zkratka zkracuje, případně jak se používá.
Lemmatem zkratky je tvar sám; koncová tečka je součástí tvaru, ale není součástí lemmatu, tedy:
lemma(č.) = č
Zkratková substantiva nejsou zkratkami, mají [POS=N & ABR=-], například LaTeX, Svazarm.
Původní zkratka se může skloňovat (srov. AGSČ, s. 300): ODĚ (lemma(ODĚ)=ODA) [POS=N & ABR=+ & GEN=F & NUM=S & CAS=3], FIFĚ (lemma(FIFĚ)=FIFA), NATEM (lemma(NATEM)=NATO) [POS=N & ABR=+ & GEN=N & NUM=S & CAS=7]. Zkratky se v úzu píší dost různorodě, např. Fifě, fifě, Natem… Je náležité takové tvary lemmatizovat podle spisovného úzu (FIFA, NATO…) a nestandardní pravopisné podoby odlišit od standardních vhodnými globálními mutacemi.
U substantiv rozlišujeme tyto hodnoty negace:
N: pro záporné tvary substantiv
A: pro ostatní substantivní tvary.
Každý substantivní tvar bude mít přiřazenu právě jednu z těchto hodnot. Přitom platí tyto zásady:
(i) Všechny substantivní tvary začínající negativním prefixem ne-, který lze v širokém smyslu interpretovat jako záporný prefix ne-, jsou lemmatizovány se záporkou ne-, tedy:
lemma(neplatič) = neplatič
lemma(nedostatek) = nedostatek
(ii) Substantivní tvary, které mají [SUB=[C0]] a začínají řetězcem ne-, mají [NEG=N] až na negativa tantum (viz níže), například:
lemma(nehlava) = nehlava [NEG=N]
lemma(nesvoboda) = nesvoboda [NEG=N]
lemma(neúroda) = neúroda [NEG=N]
lemma(nesmlouvavosti) = nesmlouvavost [NEG=N]
Tato substantiva bude možno vyhledat pomocí dotazu [POS=N & SUB!=V & NEG=N]
Uvedené pravidlo se však netýká substantiv negativ tantum, jejichž seznam (obsahuje jen nejfrekventovanější lexémy) je v příloze (Substantiva_Negativa_Tantum.docx). Do něho jsou zařazena substantiva s vydělitelným negativním prefixem, přičemž tato substantiva mají [NEG=A. Do seznamu patří např. substantiva jako neděle, nemoc, neřest, neduh, nehoráznost, nesmlouvavost, nestvůra, netečnost, nezbeda, nezbytnost, nevinnost... Tento seznam bude k dispozici uživatelům, aby bylo patrné, že jde o napadnutelné rozhodnutí autorů slovníku.
Poznámka. Substantivum nemoc není opakem moci, jde tu o dvě lemmata, moc a nemoc, obě s hodnotou [NEG=A]. Substantivum nepřítel naopak chápeme jako opak slova přítel, a není tedy ve zmíněném seznamu.
(iii) Substantiva, která mají [SUB=V], budou rozgenerována na rovině slovníku a budou mít u tvarů s prefixem ne- [NEG=N] (nesnížení), jinak [NEG=A] (snížení).
Globální mutace (jsou zavedeny v práci Hlaváčová 2009, s. 35nn.) popisují neflektivní varianty substantivních tvarů, které mají stejné lemma a stejnou značku; týkají se celých paradigmat, nejen některých tvarů. Zachycují variantnost jinde než ve flektivních pádových koncovkách. Substantivní tvar může být popsán několika globálními mutacemi zároveň.
V Tabulce 3 jsou uvedeny typické globální mutace (tabulka převzata z Hlaváčová 2009, s. 35nn. a nepatrně rozšířena).
Tabulka 3. Typy globálních mutací u substantiv
Typ
Příklady
Hodnoty GMU
o – vo
okno – vokno
oko – voko
0 – v
ý – ej
mýdlo – mejdlo
výsledek – vejsledek
0 – j
z – s
klauzule – klausule
izomorfismus – isomorfizmus
komunizmus – komunismus
izolovaný – isolovaný
impulz – impuls
filozofie – filosofie
z – s
é – e
léze – lese
é – e
t – th
tema – thema
teologie – theologie
0 – h
é – í
kolébka – kolíbka
chlév – chlív
e – i
é – ý
okénko – okýnko
e – y
á – e
originální – originelní
eventuální – eventuelní
a – e
á – a
é – e
ó – o
ý – y
í – i
ů – u
ú – u
Abrahám – Abraham
brankář – brankař
acetylén – acetylen
salón – salon
Platón – Platon
apetýt – apetyt
alexandrín – alexandrin
přezůvky – přezuvky
blúza – bluza
Plútarchos – Plutarchos
d – k
ú – ů
búra – bůra
ú – ů
u – ú – ů
čurat – čúrat – čůrat
u – ú – ů
s – š
t – ť
n – ň
d – ď
e – ě
z – ž
student – študent
klestění – kleštění
vlaštovka – vlašťťovka
šnůra – šňůra
dolík – ďolík
Bardejov – Bardějov
zbrzďování – zbržďování
t – m
ú – ou
múka – mouka
strakapúd – strakapoud[7]
ú – ou
ou – u
hrouda – hruda
moucha – mucha
ou – u
ů – o
fůrka – forka
hůrka – horka
kůr – kor
u – o
jiné
Afganistan – Afghánistán
0 – 1
Poznámka. Je jasné, že do morfologického slovníku se nebudou násilně doplňovat neexistující slova: například slejvák není mutací lexému slívák (pokrm ze švestek), oba lexémy lišící se významem budou ve slovníku zachyceny jako samostatná hesla.
Poznámka. Počítáme i s dalšími druhy globálních mutací popisujících mluvu v mluvených korpusech. Například pro tvar Gsg lexému týden existují tyto v korpusech doložené tvary: týdne, týdna, týdnu, tejdne, tejdnu, tydnu, tydna, tydne. Varianty kořene budou v tomto případě zachyceny jako globální mutace: ý-ej-y. Pádové alomorfy budou vystiženy jako mutace flektivní: e-a-u.
Flektivní varianty substantivních tvarů, které mají stejné lemma a stejnou značku, se popisují flektivními mutacemi, jež se týkají – na rozdíl od mutací globálních – jen některých tvarů, nikoli celých paradigmat. Zachycují odlišné morfy u tvarů majících stejnou hodnotu jmenného rodu, čísla a pádu.
Podle Hlaváčové 2009 (s. 47nn.) dochází k flektivním mutacím substantiv u slov, jejichž skloňování kolísá mezi dvěma vzory téhož jmenného rodu, např. pán, muž; hrad, les, stroj; píseň, kost. V následujícím přehledu jsou uvedeny typické flektivní mutace u substantiv. Výčet mutací v tabulkách není samozřejmě vyčerpávající, uvádíme jen ty hlavní. Mutace se budou postupně doplňovat při rozšiřování slovníku.
Tabulka 4. Typické flektivní mutace koncových morfů u substantiv
Typ
Příklady
Hodnoty FMU
a – e
chuďasa – chuďase
Arbesa – Arbese
a – e
a – eho
Goetha – Goetheho
Heina – Heineho
a – eho
a – ea
Huma – Humea
Stona – Stonea
a – ea
a – use
Krameria – Krameriuse
a – use
u – ovi
pánu – pánovi
u – ovi
i – ovi
muži – mužovi
i – ovi
i – u – ovi
manželi – manželu – manželovi
i – u – ovi
ovi – emu
Goethovi – Goethemu
Rilkovi – Rilkemu
ovi – emu
ovi – em
Goethovi – Goethem
Rilkovi – Rilkem
ovi – em
i – ové
páni – pánové
muži – mužové
soudci – soudcové
orli – orlové
i – ové
é – ové
manželé – manželové
é – ové
e – ové
rodiče – rodičové
e – ové
é – i
asketé – asketi
občané – občani
policisté – policisti
é – i
í – i
kněží – knězi
í – i
0 – ů
obyvatel – obyvatelů
Dolomit – Dolomitů
0 – ů
ů – í
bratrů – bratří
bratrům – bratřím
hostů – hostí
hostům – hostím
knězů – kněží
knězům – kněžím
koňů – koní
koňům – koním
Budějovicím – Budějovicům
Velikonocům – Velikonocím
ů – í
0 – us
Krameriovi – Krameriusovi
Krameriem – Krameriusem
Krameriovi – Krameriusovi
Krameriovy – Krameriusovy
Krameriových – Krameriusových
Krameriovým – Krameriusovým
Krameriovými – Krameriusovými
cirku – cirkusu
glóbu – glóbusu
glóbem – glóbusem
cirkem – cirkusem
cirky – cirkusy
glóby – glóbusy
cirků – cirkusů
glóbů – glóbusů
cirkům – cirkusům
glóbům – glóbusům
glóbech – glóbusech
0 – us
y – ama
pány – pánama
hrady – hradama
městy – městama
y – ama
i – ema
muži – mužema
i – ema
i – ími
knězi – kněžími
i – ími
a – u
kalicha – kalichu
Norimberka – Norimberku
zákona – zákonu
a – u
e – u
dole – dolu
mole – molu
plevele – plevelu
stříbře – stříbru
Berlíně – Berlínu
hradě – hradu
koncertě – koncertu
městě – městu
slově – slovu
e – u
a – e – u
popela – popele – popelu
a – e – u
u – i
plamenu – plameni
u – i
i – u
dni – dnu
i – u
i – y
dni – dny
i – y
y – e
rubly – ruble
y – e
a – y
oblaka – oblaky
a – y
ů – í
dnů – dní
ů – í
ům – ám
kalhotům – kalhotám
džínům – džínám
ům – ám
ích – ách
hoších – hochách
domcích – domkách
klenácích – klenákách
schůdcích – schůdkách
teplácích – teplákách
tělíscích – tělískách
ích – ách
ích – ech
hotelích – hotelech
kostelích – kostelech
kněžích – knězech
Plasích – Plasech
videích – videech
ích – ech
ách – usech
cirkách – cirkusech
ách – usech
ách – ech
kalhotách – kalhotech
džínách – džínech
džínách – džínech
varhanách – varhanech
ách – ech
0 – ch
mluvčí – mluvčích
rukojmí – rukojmích
0 – ch
ý – ej
hajný – hajnej
hajných – hajnejch
hajným – hajnejm
hajnými – hajnejma
ý – ej
é – ý
hajného – hajnýho
hajné – hajný
pokojské – pokojský
é – ý
í – ý
hajní – hajný
í – ý
i – a
hajnými – hajnejma
mluvčími – mluvčíma
ženami – ženama
i – a
0 – a
Šerých – Šerýcha
0 – a
0 – u – ovi
Šerých – Šerýchu – Šerýchovi
0 – u – ovi
0 – em
Šerých – Šerýchem
0 – em
0 – ovi
Šerých – Šerýchovi
0 – ovi
0 – ových
Šerých – Šerýchových
0 – ových
0 – y – ovy
Šerých – Šerýchy – Šerýchovy
0 – y – ovy
0 – y – ovými
Šerých – Šerýchy – Šerýchovými
0 – y – ovými
0 – e
báj – báje
kuchyň – kuchyně
0 – e
i – e
oceli – ocele
sóji – sóje
huti – hutě
lodi – lodě
rodiči – rodiče
i – e
i - ě
čtvrti – čtvrtě
i - ě
je – y
ideje – idey
je – y
i – y
Nicaragui – Nicaraguy
i – y
ou – jí
ideou – idejí
ou – jí
0 – í
ambic – ambicí
definic – definicí
expedic – expedicí
jeskyň – jeskyní
přítelkyň – přítelkyní
hus – husí
slz – slzí
0 – í
ň – ní
jeskyň – jeskyní
přítelkyň – přítelkyní
ň – ní
0 – ů
Kravař – Kravařů
0 – ů
em – ím
čelistem – čelistím
nocem – nocím
pěstem – pěstím
em – ím
ám – ům
varhanám – varhanům
ám – ům
jím – ám
idejím – ideám
jím – ám
ech – ích
čelistech – čelistích
pastech – pastích
pěstech – pěstích
ech – ích
jích – ách
idejích – ideách
jích – ách
ami – ama
ženami – ženama
ami – ama
mi – ěma – ima – ma
kostmi – kostěma – kostima – kostma
mi – ěma – ima – ma
y – ami – ama
varhany – varhanami – varhanama
y – ami – ama
jemi – ami
idejemi – ideami
jemi – ami
ě – eno
břímě – břemeno
sémě – semeno
ě – eno
é – e
sémě – semeno
é – e
í – e
břímě – břemeno
í – e
0 – u
Tübingen – Tübingenu
0 – u
0 – um
datu – datumu
datem – datumem
datům – datumům
0 – um
a – e
břemena – břemene
písmena – písmene
ramena – ramene
zájmena – zájmene
a – e
0 – ho
hovězí – hovězího
Jestřebí – Jestřebího
Zubří – Zubřího
0 – ho
u – i
písmenu – písmeni
ramenu – rameni
u – i
i – ě – u
rameni – rameně – ramenu
i – ě – u
0 – mu
hovězí – hovězímu
Jestřebí – Jestřebímu
0 – mu
0 – m
hovězí – hovězím
Jestřebí – Jestřebím
0 – m
0 – em
Tübingen – Tübingenem
0 – em
0 – ou
kolen – kolenou
0 – ou
ů – á
kolenům – kolenám
ů – á
ů – í
studiům – studiím
videům – videím
ů – í
ou – ech
ramenou – ramenech
ou – ech
ech – ou – ách
kolenech – kolenou – kolenách
ech – ou – ách
ům – ím
studiům – studiím
videům – videím
ům – ím
Tabulka 5. Typické flektivní mutace kořenových morfů u substantiv
Typ
Příklady
Hodnoty FMU
í – i
žílou – žilou
líp – lip
í – i
í – ě
dírou – děrou
í – ě
u – ou
smluv – smlouv
tuh – touh
u – ou
á – a
skála – skal
skálám – skalám
kráva – krav
krávám – kravám
á – a
o – a
století – staletí
o – a
Poznámka. Počítáme i s dalšími druhy flektivních i globálních mutací popisujících mluvu v mluvených korpusech. Například pro tvar Gsg lexému týden existují tyto v korpusech doložené tvary: týdne, týdna, týdnu, tejdne, tejdnu, tydnu, tydna, tydne. K flektivním mutacím se v tomto případě počítají jenom alomorfy e-a-u; ostatní varianty budou vystiženy jako globální mutace: ý-ej-y. Tvar tedy může být v některých případech popsán kombinací obou typů mutací, např. tejdnu. Uživatel se k němu může buď prostřednictvím mutací, tedy komplikovaným způsobem, nebo může zadat prostě lemma týden a po obdržení různých tvarů pracovat přímo se získaným tvarem.
Lemmatizace substantiv byla zčásti již probrána výše u jednotlivých kategorií a jejich hodnot. Zde shrnujeme její obecné zásady a popisujeme zvláštní případy.
Rozlišujeme lemmata jednoduchá a vícenásobná. Vícenásobná lemmata vystihují variantní (dubletní/tripletní…) podoby substantivního lexému, které mají jinak naprosto stejné morfologické vlastnosti, tudíž i stejnou značku až na globální mutace, které právě vystihují příslušnou odlišnost. Je-li substantivní tvar lemmatizován vícenásobným lemmatem, je vždy rovněž popsán globální či flektivní mutací (viz kapitolu Lemmatizace # 04, § 2.3), obráceně to platit nemusí.
Příklady:
lemma(balkonům) = lemma(balkóny) = {balkon, balkón}
lemma(displayem) = lemma(displeji) = {display, displej}
lemma(chlévu) = lemma(chlíva) = {chlév, chlív}
lemma(intenzivnímu) = lemma(intenzívního) = lemma(intensivní) = {intenzivní, intenzívní, intensivní}
lemma(Platona) = lemma(Platónovi) = {Platon, Platón}
lemma(protežuji) = lemma(protěžuješ) = {protežovat, protěžovat8}
lemma(přezůvkami) = lemma(přezuvkou) = {přezůvka, přezuvka}
lemma(vlaštovkou) = lemma(vlašťovky) = {vlaštovka, vlašťovka}
Lemmatem substantivního tvaru náležícího – což je typický případ – k úplnému (nedefektnímu) paradigmatu je podoba Nsg, například:
lemma(zácloně) = záclona
lemma(moři) = moře
lemma(vyhnáními) = vyhnání
Lemmatem substantivního tvaru náležícího k úplnému (nedefektnímu) paradigmatu, přičemž lexém se vyskytuje převážně v plurálu, je rovněž podoba Nsg, například:
lemma(rodičům) = rodič
Lemmatem substantivního tvaru náležícího k lexému typu plurale tantum s plným plurálovým paradigmatem je podoba Npl, například:
lemma(nůžkami) = nůžky
lemma(stanov) = stanovy
lemma(houslím) = housle
Lemmatem tvaru se záporným prefixem ne- je tvar včetně tohoto prefixu:
lemma(nedostatkem) = nedostatek [NEG=[AN]]
lemma(nehoráznosti) = nehoráznost [NEG=A]
lemma(nelibosti) = nelibost [NEG=A]
lemma(nemístnostem) = nemístnost [NEG=A]
lemma(nestoudností) = nestoudnost [NEG=A]
lemma(nevypracování) = nevypracování [NEG=N]
Patří-li tvar k defektnímu paradigmatu (například existuje pouze jediný tvar) a je-li součástí idiomu, nebude v morfologickém slovníku rekonstruováno celé paradigma. Lemmatem takového tvaru bude tvar sám:
lemma(bycha) = bycha [POS=N]
lemma(nepaměti) = nepaměti [POS=N] (předložková skupina: od nepaměti)
lemma(holičkách) = holičkách [POS=N] (předložková skupina: na holičkách)
Jde o typ (manželé) Dvořákovi, Máchovi, Bensonovi, Novotní, Novotných, Tachecí, Petrů, Bezákovic.9 Tato rodinná příjmení jsou v plurálu a chápeme je jako substantiva, nikoli jako posesivní adjektiva. Lemmatizujeme takto:
lemma(Dvořákovi) = lemma(Dvořákových) = lemma(Dvořákovým)... = {Dvořákovi} (nikoli Dvořák ani Dvořákův)
lemma(Novotní) = lemma(Novotných) = lemma(Novotným)... = {Novotní, Novotných}. Nesklonný tvar Novotný se odliší od tvarů Novotní, Novotných, Novotným… příslušnou mutací.
lemma(Tachecí) = Tachecí
lemma(Petrů) = Petrů
lemma(Bezákovic) = Bezákovic v případě, že Bezákovic je standardní příjmení, nikoli jeho substandardní varianta.
Všechny substandardní varianty typu Bezáků, Bezákových, Bezákovic budou lemmatizovány zvláštním lemmatem (rozdíl oproti Novotných, kde jde o standardní příjmení s dlouhým adjektivním zakončením).
Lemma slovního tvaru je vždy co nejbližší tomuto tvaru, přechýlené podoby feminin v širším smyslu se nikterak nevztahují k jejich maskulinním protějškům. Chápeme je jako substantiva feminina, nikoli např. jako posesivní adjektiva. To znamená, že například:
lemma(husa) = husa (nikoli houser ani husák)
lemma(lékařka) = lékařka (nikoli lékař)
lemma(mluvčí) = mluvčí [GEN=F]
lemma(předsedkyně) = předsedkyně (nikoli předseda)
lemma(světice) = světice (nikoli světec)
lemma(vědkyně) = vědkyně (nikoli vědec)
Jde o typ Dvořáková, Spurná, Tachecí, Petrů, Bezákovic. Lemma tvaru je vždy co nejbližší tvaru, přechýlené podoby feminin v širším smyslu se nevztahují k jejich maskulinním protějškům. Chápeme je jako substantiva feminina, nikoli např. jako posesivní adjektiva. To znamená, že například:
lemma(Dvořáková) = Dvořáková (nikoli Dvořák ani Dvořákův)
lemma(Spurná) = Spurná (nikoli Spurný)
lemma(Tachecí) = Tachecí
lemma(Petrů) = Petrů10
lemma(Bezákovic) = Bezákovic
(srov. i VAGSČ, s. 100nn.)
Substantivizovaná adjektiva „[…] patří k adjektivům jenom svou formou a typem deklinace. Syntakticky zastávají pozici substantiva, jsou morfologicky nezávislá11 (mají inherentní jmenný rod a číslo) a jejich gramatické kategorie nejsou dány shodou (srov. Štícha 2013)...“ (Žižková 2019, s. 107nn.). O této problematice podrobně pojednává Žižková (2019) a my zde vycházíme především z této práce a z příslušného popisu v kapitole Adjektiva (# 08-02, § 3; # 08-02, § 6).
V kapitole Adjektiva (# 08-02, § 3.2) stojí:
Běžné výkladové slovníky zaznamenávají nejrůznější slovnědruhové přechody, přičemž lze dosti dobře vysledovat řadu nekonzistencí. Tato praxe je do velké míry přenesena do praxe slovníků pro aplikace automatické morfologické analýzy, kde je příčinou řady problémů na úrovni desambiguace.
Řada adjektiv tvořených od sloves sufixy -oucí/-ící se substantivizuje (výsledkem substantivizace je většinou pojmenování osoby vykonávající děj označený motivujícím slovesem, prostředkem procesu substantivizace je užití deverbativního adjektiva ve funkci substantiva). Na základě sond do korpusových dat lze předpokládat, že slovotvorný proces substantivizace je v současné češtině otevřený, to znamená, že i adjektiva tvořená od nově vznikajících sloves se substantivizují.12 Meze tvoření jsou dány sémantikou motivujícího slovesa (substantivizací vznikají pojmenování osob, které aktuálně i neaktuálně vykonávají činnost označenou základovým slovesem, tvoří se tedy od sloves, která mají/mohou mít ve svém valenčním rámci personického činitele děje).
Přinejmenším adjektiva, která se často substantivizují, budou zaznamenána v morfologickém slovníku jako [POS=A] i jako [POS=N]. Seznam opřený o frekvenční analýzu korpusů řady SYN, který obsahuje nejfrekventovanější slova na -oucí/-ící v substantivní funkci (slovnědruhový přechod/transpozice), je k dispozici v disertační práci Olgy Richterové (2017, s. 137n.). Jedná se o lemmata, která by měla mít jak adjektivní [POS=A & SUB=G], tak substantivní [POS=N] interpretaci (nejde-li o kompozita, u nichž je otázka složitější a je třeba ji řešit u každého kompozita individuálně, neboť některá kompozita adjektivní význam mít mohou, např. Při nehodě zahynuli oba řidiči a tři <spolucestující> bulharští občané, jiná patrně nikoli, např. vlakvedoucí). I toto rozhodování bude složité.
Níže uvádíme soupis substantiv na oucí/-ící, jež vznikla transpozicí z adjektiv. Tato substantiva jsou popsána takto:
[POS=A & SUB=G] | [POS=N & GEN=[MF]]:13
cestující, dospívající, kolemjdoucí, kupující, okolojdoucí, okolojedoucí, pracující, prodávající, protestující, přihlížející, soutěžící, tonoucí, účinkující, vedoucí, věřící.
Uživatel by měl být upozorněn na to, že uvedený seznam
a) neodpovídá ani zdaleka potenci procesuálních adjektiv transponovat se do substantiv a
b) desambiguace je minimálně z tohoto hlediska nepřesná (protože slovník je podgenerovaný14).
Níže uvádíme část seznamu kompozit, která jsou ve stávajícím slovníku interpretována jako [POS=N]:
délebydlící, dílovedoucí, kolemjdoucí, místopředsedající, obchodvedoucí, okolojdoucí, okolojedoucí, okolostojící, protijdoucí, protijedoucí, spolubydlící, spolucestující, spolutrpící, stavbyvedoucí, strojvedoucí, vlakvedoucí, vševědoucí, vševidoucí.
Níže jsou uvedeny lexémy, které by bylo – na základě práce Žižková 2019 – vhodné doplnit do seznamu:
délebydlící, demonstrující, dojíždějící, domácí, dospívající, kolemjdoucí, kolemjedoucí, kupující, místopředsedající, nakupující, nastávající, nepracující, neslyšící, nestudující, nevěřící, oddávající, okolostojící, postupující, pracující, prodávající, protestující, protijdoucí, protijedoucí, přednášející, předsedající, přihlížející, přísedící, sázející, sloužící, slyšící, soutěžící, spolubydlící, spolucestující, spolutrpící, startující, stávkující, studující, trpící, účinkující, umírající, volající, všemohoucí, vševědoucí, vševidoucí, vystupující, vyšetřující, vyučující.
Níže je uveden ještě seznam substantivních kompozit, jež jsou paradigmaticky derivována z adjektiv. Jsou to pouze substantiva, a to vesměs kompozita utvořená ze substantiva a adjektiva vedoucí [POS=N & GEN=[MF]]:
dílovedoucí, obchodvedoucí, stavbyvedoucí, strojvedoucí, vlakvedoucí.
V kapitole Adjektiva (# 08-02, § 3.3) stojí:
V současné češtině se slovesná adjektiva na -(v)ší substantivizují; výsledkem tohoto procesu jsou názvy osob, jejím prostředkem je užití deverbativního adjektiva ve funkci substantiva.15 Na základě sond do korpusových dat lze předpokládat, že slovotvorný proces substantivizace je v současné češtině otevřený. Meze tvoření jsou (podobně jako u adjektiv procesuálních) dány sémantikou motivujícího slovesa (substantivizací vznikají pojmenování osob, tvoří se tedy od sloves, která mají/mohou mít ve svém valenčním rámci personického činitele děje).
Slovník automatického analyzátoru je dosud z hlediska možných substantivizací adjektiv na ší/vší podgenerován – substantivizace nepřipouští. My nicméně navrhujeme zatím pouze jediný lexém s vlastností [POS=A & SUB=G] | [POS=N & GEN=[MF]]:
přeživší (lze uvažovat i o lexémech doživší, přišedší)
Například ve větě:
<Přeživší> holocaust(Asg) se shromáždili v Praze.
je tvar přeživší pouze adjektivum, naopak ve větě:
<Přeživší> holocaustu(Gsg) se shromáždili v Praze.
je tvar přeživší pouze substantivum.
Podrobnější rozklad je v kapitole Adjektiva (# 08-02, § 6.2).
Uživatel by měl být upozorněn na potenci adjektiv na ší/vší transponovat se do substantiv. Pokud zůstane při tomto stavu podgenerování slovníku, bude i nadále desambiguace minimálně z tohoto hlediska nepřesná.
[POS=A & SUB=[0V]] | [POS=N & GEN=F]
a. Substantiva transponovaná z adjektiv a vyskytující se takřka výhradně v konstrukci na + [GEN=F & NUM=S & CAS=[46]]
Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých adjektiv, která takřka výhradně vystupují v Asg/Lsg feminina: typ odjel <na zkušenou>Asg do Vídně, Hoši byli <na čekané>Lsg:
čekanou/é, zkušenou/é, zotavenou/é
Doporučujeme nerekonstruovat Nsg, nýbrž lemmatizovat týmž tvarem:
lemma(čekanou) = čekanou
lemma(čekané) = čekané
lemma(zkušenou) = zkušenou
lemma(zkušené) = zkušené
lemma(zotavenou) = zotavenou
lemma(zotavené) = zotavené
b. Substantiva transponovaná z adjektiv a vyskytující se často v konstrukci na + [GEN=F & NUM=S & CAS=4]
Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých adjektiv, která výhradně vystupují v Asg feminina: typ jako na zavolanou:
neshledanou, odchodnou, pamětnou, posilněnou, pováženou, přivítanou, rozchodnou, rozloučenou, rozváženou, rozmyšlenou, shledanou, slyšenou, srozuměnou, uklidněnou, usmířenou, uvítanou, viděnou, vybranou, vysvětlenou, vyučenou, zapřenou, zavolanou, zkušenou, zotavenou.16
Doporučujeme nerekonstruovat Nsg, nýbrž lemmatizovat týmž tvarem:
lemma(zavolanou) = zavolanou
c. Substantiva transponovaná z adjektiv a vyskytující se bez syntaktických omezení (typ mateřská)
Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých i měkkých adjektiv, která nemají omezení typu a. a ii. výše: hrál rád kopanou:
čutaná, dostředná, dostřelná, dovolená, foukaná, házená, honěná, chytaná, jalovcová, kolová, konečná, kopaná, májová, mateřská, nemocenská, neznámá, odbíjená, panská, pokojská, prodloužená, proměnná, přehazovaná, režná, rodičovská, sekaná, schovávaná, skočná, skotská, služebná, sousedská, spárkatá, svíčková, škodná, trvalá, vybíjená, vysoká, zaháněná, zmýlená, zubatá, ženská, žitná.
Do této skupiny patří také femininum s měkkým skloňováním polní (ve spojení plná polní).
Tento typ doporučujeme lemmatizovat tvarem Nsg_Fem:
lemma(skotskou) = skotská
Lexémy číhaná, komorná, podívaná, šipkovaná jsou pouze substantivní s vlastností [POS=N & GEN=F]:
lemma(číhané) = lemma(číhanou) = lemma(číhaná) = číhaná
Poznámka. Substantivizovaná označení známek (výborná, chvalitebná, dobrá, (ne)dostatečná) a barev (černá, červená, modrá, zelená…) pokládáme pouze za adjektiva.
[POS=A & SUB=[0V]] | [POS=N & GEN=[MF]]
Do této skupiny patří několik desítek substantiv transponovaných z tvrdých i měkkých adjektiv:
cyklopěší, dospělý/á, dotyčný/á, dozorčí, důchodní, duchovní, hlásný/á, handicapovaný/á, hendikepovaný/á, horný/á, hostinský/á, kantýnský/á, lázeňský/á, lesní, listovní, lovčí, milý/á, místní, mrtvý/á, nadřízený/á, nemocný/á, nemrtvý/á, neslyšící, nevidomý/á, nezaměstnaný/á, neznámý/á, obviněný/á, obžalovaný/á, odsouzený/á, personální, pěší, pocestný/á, poddaný/á, podezřelý/á, podřízený/á, pohřešovaný/á, pokladní, pomezní, postižený/á, poškozený/á, produkční, provozní, prvotrestaný, představený/á, přespolní, příbuzný/á, příchozí, radní, recepční, rozhodčí, služebný/á, starý/á, strážný/á, svatý/á, trestaný, třídní, účetní, účtovní, vidomý, vrchní, zavražděný/á, zlatý/á, známý/á, zraněný/á, zúčastněný/á.
[POS=A & SUB=0] | [POS=N & GEN=M]
Do této skupiny výhradních životných maskulin patří pouze:
mužský, popravčí, tajný
[POS=A & SUB=0] | [POS=N & GEN=I NUM=P]
Do této skupiny patří substantivum neživotné maskulinum plurale tantum transponované z měkkého adjektiva:
bicí
ve spojení:
Hráli na <bicí> [POS=N & NUM=P] vs. Pozorovali <bicí> [POS=A & NUM=S] komando.
[POS=A & SUB=0] | [POS=N & GEN=N & NUM=P]
Do této skupiny patří substantivum neutrum plurale tantum transponované z tvrdého adjektiva:
prostná
[POS=A & SUB=0] | [POS=N & GEN=N]
Do této skupiny patří neutra transponovaná z tvrdých i měkkých adjektiv. Lexémy označují až na panské druhy masa a druhy (typicky alkoholických) nápojů:
biojehněčí, bioskopové, biotelecí, biovepřové, dančí, hovězí, jehněčí, kančí, kuřecí, mělnické, panské, plzeňské, portské, skopové, skotské, šampaňské, telecí, tokajské, uzené, vepřové.
[POS=A & SUB=[0V]] | [POS=N & GEN=N]
Do této skupiny patří několik desítek neuter synchronně homonymních mezi adjektivy a substantivy. Některá substantiva jsou transponována z adjektiv, jindy je to obráceně, směr transpozice není podstatný. Lexémy označují peněžní poplatky:
bolestné, hovorné, jízdné, kolkovné, mýtné, nájemné, odlučné, pojistné, předplatné, přejízdné, převozné, půjčovné, skladné, služebné, služné, stojné, stravné, tržné, učebné, úložné, úschovné, vložné, vodné, vstupné, výbavné, výchovné, výkupné, výpalné, výsušné, výživné, zajistné, zástřelné, záškodné, zpozdné
[POS=N & GEN=N]
Do této skupiny patří několik desítek substantivních neuter s adjektivním skloňováním. Lexémy označují peněžní poplatky a nejsou homonymní s adjektivem. Uvádíme jen ty nejfrekventovanější, je to produktivní typ tvoření substantiv:
bakšišné, balné, bankovné, berlovné, bodovné, bouřkovné, cestovné, cílovné, čekatelné, činovné, dálkovné, doběrné, dobírkovné, dohodné, doplatné, dopravné, doručné, dovozné, expertovné, fackovné, filmovné, flirtovné, frankovné, hadrovné, jeslovné, kalouskovné, kalorné, kampovné, kapesné, kloboukovné, klozetovné, klubovné, kolejné, kolkovné, korkovné, koštovné, kroužkovné, kursovné, kurtovné, ledničkovné, liškovné, listovné, minutovné, mobilovné, mostné, nábytkovné, nálezné, nocležné, notovné, novoročné, obalné, odbytné, odchodné, odkupné, odpadkovné, odstupné, odškodné, opatrovné, ošatné, ošetřovné, pachtovné, parkovné, pastelkovné, peřinkovné, pobytné, počítačovné, podnájemné, podýmné, pohřebné, povozné, pračkovné, regálovné, rolbovné, schránkovné, skicovné, skladištné, skládkovné, spropitné, startovné, stočné, svědečné, školkovné, školné, špuntovné, šrotovné, tlučhubné, tužkovné, ubytovné, úmrtné, vandrovné, vložné, všimné, výplatné, výpůjčné, výslužné, výučné, zahrádkovné, zápisné, zateplovné, zdržné, znalečné, ztratné.
[POS=A & SUB=0] | [POS=N & GEN=F & NUM=P]
Do této skupiny patří substantivum femininum plurale tantum transponované z měkkého adjektiva:
taneční
[POS=A & SUB=0] | [POS=N & GEN=I][17] & NUM=P]
Do této skupiny patří substantivum plurale tantum transponované z tvrdého adjektiva:
drobné
[POS=N & GEN=[MF]]
Do této skupiny patří substantivní lexémy maskulina životného a feminina, která mají adjektivní skloňování, ale nejsou to adjektiva:
bytný/á, pohodný/á, vrátný/á, výčepní
[POS=N & GEN=[MF]]
Do této skupiny patří propria s adjektivní flexí typu Veveří (srov. kapitola Adjektiva # 08-02). U některých se liší adjektivní měkká flexe adjektiv a flexe podle vzoru stavení u substantiv (například zubří/Zubří, veveří, což je okrajově druhově posesivní adjektivum ke starší podobě substantiva veverka / Veveří – zámek u Brna), a to i v úzu, který se týká jednoho objektu/lokality.18
Příklady:
Hovězí, Srní, Telecí, Veveří, Zubří
[POS=N & SUB=0]
U tohoto typu budou jako substantiva značkována jenom propria typu Burgundsko, Česko, Polsko, Maďarsko, Rakousko, Slovensko, Německo, Rakousko, Švýcarsko…, nikoli
(i) tvary na .*sko/.*cko, které jsou součástí kompozit rozdělených při tokenizaci a pro které je navržena kategorie afixový segment ([POS=S])
(ii) ani tvary na .*sku/.*cku, které jsou součástí adverbiálních spojení typu po anglicku, po česku, po babišovsku, po burgundsku,… atd.
Poznámka
Adjektiva z přírodovědecké nomenklatury typu blanokřídlí pokládáme výhradně za adjektivum (nikoli také za substantivum) ve shodě s příručkami (SSČ, SSJČ), jakkoli tu jde o otevřený proces substantivizace. Postulovat tyto lexémy i jako substantiva by vedlo k velkým obtížím při desambiguaci.
Příklady:
koňovití, krátkokřídlí, kruhoústí, masožraví, okoličnaté, vrubozubí19
Poznámka
Lexémy typu Kladenští, Petrovští, Valdenští pokládáme za adjektiva:
lemma(Kladenští) = kladenský
lemma(Petrovští) = petrovský
lemma(Valdenští) = valdenský.
V konstrukci Palackého náměstí je Palackého v pojetí NovaMorf tvar Gsg mask. životného substantivního propriálního lexému Palacký; není to nesklonné adjektivum.
V této podkapitole probereme problematiku slovědruhového přesahu adverbií směrem k substantivům (přebíráme s malými úpravami a doplněními relevantní pasáže z kapitoly Adverbia # 08-06, § 3.1.2).
Substantivizovaná adverbia jsou roztříděna do skupin 8.2.1–8.2.4.
Typ o [lemma=.*o & lc=.*o & POS=D & NOM=J], typ a [lemma=.*a & lc=.*a & POS=D & NOM=J], typ u [lemma=.*u & lc=.*u & POS=D & NOM=J], adjektiva jmenné tvary [lemma=.*ý & lc=.*[oayi]? & POS=A & NOM=J], substantiva [lemma=.*o & lc=.*[oayi]? & POS=N & GEN=N & NOM=-]
V některých vybraných případech hovoří lexikalizace substantivního významu pro desambiguaci substantivní interpretace, jejíž výsledky ovšem nemusí být uspokojivé. O substantivní interpretaci mohou svědčit i syntaktické vlastnosti (lze rozvíjet adjektivem20).
Seznam dvojic typu tvar na e/ě / tvar na o, který je kandidátem na desambiguovatelnou substantivní interpretaci:
dusně / dusno
horko / horce // za horka / zahorka
chladně / chladno
jasně / jasno // z čista jasna / zčista jasna
mokro / mokře
parně / parno
prázdně / prázdno
sucho
světle / světlo // (za) světla / zasvětla
temně / temno
teplo / teple // (za) tepla / zatepla
vedro
vlhko / vlhce // za vlhka / zavlhka
volně / volno // z volna / zvolna.
K nim se druží ještě čtveřice tiše/ticha/ticho/tichu a suše/sucha/sucho/suchu, kde alespoň tvary na o, a, u mají jak dvojí slovnědruhovou interpretaci ([POS=D], např. Jsou ticho, z ticha, tiše,?po tichu21), tak jasně substantivní interpretaci [POS=N] (velké <ticho>, z velkého <ticha>, po velkém <tichu>,...). (Ve starší češtině se k nim druží i tvar na e22.)
Problematické případy:
suše / sucho // (za/do) sucha / zasucha / dosucha i such, sucha, sucho, suši23, suchy
tiše / ticho // (z) ticha / zticha i tich, ticha, ticho, tiši24, tichy
V těchto případech jde o jednoznačný slovnědruhový přechod tvarů na o ve funkci substantiva, které v predikativní pozici nebudeme desambiguovat, pokud nebude rozvito shodným adjektivním přívlastkem (je velmi teplo [POS=D] × je velké teplo [POS=N] × je teplo [POS=D], naopak v pozici subjektu (Obtěžovalo ho (velké) teplo [POS=N]) a objektu (Naříkal si na (velké) teplo [POS=N]) desambiguovat budeme. I takové rozhodnutí má svoje úskalí, neboť může dojít k obtížně automaticky desambiguovatelným případům, kdy přichází v úvahu více interpretací (příklady přebíráme z kapitoly Adjektiva # 08-02, § 3.6a):
a. Bylo velké sucho. (substantivum → [POS=N])
b. Bylo velmi sucho. (adverbium → [POS=D]);
c. Bylo sucho. (adverbium → [POS=D])
d. Dítě bylo sucho. (adjektivum – jmenný tvar → [POS=A]);
e. Chlapi seděli v hospodě na sucho. (adverbium → [POS=D])
f. Chlapi si v hospodě stěžovali na sucho. (substantivum → [POS=N])
g. Do sucha, které ničilo úrodu v roce 1947, jsem hroznější počasí nezažil. (substantivum → [POS=N])
h. Utři se do sucha. (adverbium → [POS=D])
i. Jsem už zcela such, manželka je sucha i dítka jsou již sucha, ale šaty nejsou dosud zcela suchy. (adjektivum – jmenný tvar → [POS=A])
j. Tolik such nebylo ani v minulém století. (substantivum → [POS=N])
k. Tak to by bylo v suchu.25 (adverbium → [POS=D])
l. V takovém dlouhotrvajícím suchu dojde snadno k požáru. (substantivum → [POS=N])
m. Nevěděli jsme si rady s velkými suchy. (substantivum → [POS=N])
Další příklady:
n. Deště přišly v období sucha. (substantivum → [POS=N])
o. Lidé naříkali na sucha. (substantivum → [POS=N])
p. Úroda se zničila za sucha. (substantivum → [POS=N]) × Kožich se zničil při čištění za sucha. (substantivum → [POS=D])
r. Bylo veliké horko. (substantivum → [POS=N]) × Bylo (mi) velmi horko. (substantivum → [POS=D])
Máme za to, že s ohledem na výše uvedené (bod i. výše) zcela okrajové případy adjektivní interpretace (Jsem už zcela such, manželka je sucha i dítka jsou již sucha, ale šaty nejsou dosud zcela suchy.) by bylo možné tuto interpretaci na rovině automatické morfologické analýzy co nejvíce eliminovat (viz kapitola Adjektiva # 08-02, § 3.1.2k). Nepokládáme však za žádoucí vyloučit substantivní interpretaci u těchto případů:
dusno, horko, chladno, mokro, parno, prázdno, sucho, temno, teplo, ticho, vedro, vlhko, ale i světlo, volno, jasno.
Navrhujeme tedy, aby u nich byla ve slovníku jak interpretace [POS=N] (např. lemma(sucha)=sucho & lc="such([oauy]?|em|ům|ách)"), tak [POS=D] (např. lemma="such[oau]") a aby uživatel byl upozorněn na to, že seznam si neklade nárok na úplnost a desambiguace není zcela spolehlivá. Je tomu tak proto, že můžeme v praxi rozlišit tři případy, a sice
1) jasně lingvisticky i automaticky desambiguovatelné případy jako bylo velké <sucho [POS=N]> a bylo velmi <sucho [POS=D]>,
2) lingvisticky dobře a automaticky patrně obtížně desambiguovatelné případy jako stěžovat si na <sucho [POS=N]> a sedět na <sucho [POS=D]> a konečně lingvisticky nedesambiguovatelné případy jako je <sucho>, u nichž technicky při desambiguaci navrhujeme hodnotu [POS=D].
Jsme si vědomi toho, že v korpusech jsou řídce doložena další substantivní užití adjektiv, která se většinou adverbializují.26 Viz i kapitola Adjektiva (# 08-02, § 3.6a) a Adverbia (# 08-06, § 3.1.2k).
Existují ovšem i další predikativa, která se mohou substantivizovat: blátivo, deštivo, mlhavo, mrazivo, lezavo:
Ta zůstane v tom sychravém <mlhavu> doma.
Není náhoda, že In Rainbows vychází na podzim, v mlze a <lezavu>.
Jiná atmosféra oproti venku převládajícímu <lezavu> vládla na kryté New York Stage…
Příslušné substantivní lexémy tvary je nutno doplnit do morfologického slovníku.
Zvláštní případ: z <plna> (hrdla) × (z <prázdna> do) <plna> × (tankovat do) <plna>
V tomto případě jde o ojedinělé užití jmenného tvaru adjektiva v atributivní funkci. Tyto případy bude třeba řešit jednotlivě. Jde o zbytky jmenných tvarů v atributivní pozici. Existují dobré důvody, jak pro značkování [POS=D], tak [POS=A], okrajově i [POS=N]. Navrhujeme tvar plna ve spojení z <plna> hrdla desambiguovat jako [POS=A], tedy stejně jako případy typu žasla <plna> nevole a šedivá díla jsou <plna> citlivých barevných valérů, ve spojení natankovat/nacpat do <plna> desambiguovat jako [POS=D] a jde z prázdna do <plna> jako [POS=N].
[POS=D & NOM=J] | [POS=N & GEN=N & NOM=-]
Následující lexémy pokládáme za homonymní mezi substantivy a adverbii:
bílo, černo, dávno, modro, nedávno, poloprázdno, pradávno, prázdno, příjemno, studeno, tajemno, vznešeno.
Substantivizovaná užití27 tvarů na .*telno s ohledem na raritnost28 některých z nich navrhujeme desambiguovat jako [POS=N] pouze u těchto slov:
dýchatelno, měřitelno, nedotknutelno, nedýchatelno, nepoznatelno, neviditelno, nesrozumitelno, nevyslovitelno, viditelno.
[POS=N & GEN=N & NOM=-]
Následující lexémy typu budoucno pokládáme výhradně za substantiva, nikoli také za adverbia:
absolutno, abstraktno, absurdno, bezedno, budoucno, dohledno, duchovno, duševno, fantaskno, groteskno, intelektuálno, iracionálno, jsoucno, konečno, konkrétno, krásno, liduprázdno, nadpřirozeno, nadreálno, nadskutečno, nadsmyslno, nedohledno, nedozírno, nejsoucno, nekonečno, nenávratno, neskutečno, posvátno, přirozeno, reálno, skutečno, sociálno, starodávno, surreálno, tělesno, transcendentno, vesmírno, všedno, všeobecno, vzduchoprázdno, zázračno.29
[POS=N & GEN=N & NOM=-]
Lexémy na -ično pokládáme jednoznačně za substantiva, nikoli také za adverbia:
autentično, démonično, erotično, estetično, exotično, fantastično, fyzično, komično, lyrično, magično, metafyzično, mystično, poetično, politično, psychično, tragikomično, tragično.30
Poznámka. Tvar slično bude naopak pouze adverbium [POS=D]:
Je mi tak <slično>, tak nebetyčno…
[POS=N & GEN=[FI]] | [POS=D & NOM=-]
Mimo predikativně užívaná neutra typu horko, teplo, rozebraná v § 8.2.1, existují i predikativně užívaná maskulina neživotná a feminina:
hanba, potřeba, škoda, tma, zima… Navrhujeme toto značkování (srov. VAGSČ, s. 101):
Byla úplná <tma>. [POS=N & GEN=F]
Byla úplně <tma>. [POS=D & NOM=-]
Byla tuhá <zima>. [POS=N & GEN=F]
Byla (mi) hrozná <zima>. [POS=N & GEN=F]
Bylo mi (hrozně) <zima>. [POS=D & NOM=-]
Obecně je desambiguace v konstrukcích typu: Je (mi) zima; Je potřeba to udělat.; Je škoda, žes to neudělala. dost obtížná; přednost se bude dávat interpretaci [POS=D] stejně u teplo v § 8.2.1.
[POS=N]
Za velmi problematické pokládáme zachycení odděleně psaných dvouslovných adverbiálních určení (na beton / nabeton, na zlost / nazlost, na sekyru / nasekyru) na rovině morfologického slovníku. Do slovníku lze doplnit spřežky, které automatická analýza nerozpoznává (chybí ve slovníku). Doplnění slovnědruhově přesažné interpretace u tvaru substantiva, který se vyskytuje v kontextu předložky a může mít v kontextu s předložkou adverbiální význam, nepokládáme za žádoucí.31 Přesto pokládáme za vhodné dát uživateli k dispozici seznamy spřežek, popřípadě předpřipravené složitější dotazy k vyhledávání víceslovných jednotek majících jednoslovné varianty. Ve víceslovných jednotkách, u nichž se tvar vyskytuje výhradně ve spojení s předložkou v adverbiálním významu, navrhujeme lemmatizovat tvar jím samým (je to reprezentant defektního paradigmatu) a interpretovat jej jako [POS=N] (tvar osciluje mezi adverbiem a substantivem, my však volíme substantivum). Například k duhu:
lemma(duhu) = duhu [POS=N]
Zařazení slovních tvarů, které se vyskytují v idiomech, není triviální, protože v korpusech se k řadě tvarů petrifikovaných v idiomech nacházejí tvaroslovné varianty, popřípadě se objevují tvary etymologicky příbuzných slov s plně rozvinutelným souborem tvarů. Jako příklad může sloužit adverbiální spojení v idiomu vejce na <hniličku> s oblastní v korpusu doloženou variantou na <hniličko> a substantivum <hnilička> s významem ‚shnilý plod‘. Dalším příkladem budiž na <holičkách>, které je víceznačné: v kolokaci nechat někoho na holičkách doporučujeme značkovat jako lemma(holičkách) = holičkách & [POS=N], jinak jako lemma(holičkách) = holička (od holič) & [POS=N]. Je třeba vytvořit seznamy substantivních slovních tvarů petrifikovaných v idiomech, jejich lemmat a jejich slovnědruhového značkování (řadu idiomů má Žižková 2019, s. 56). U každého jednotlivého případu je nutno stanovit podobu lemmatu:
(i) buď bude lemmatem tvar vyskytující se v příslušném spojení (ne nutně tedy v nominativu),
(ii) nebo se lemma rekonstruuje z tvaru v podobě Nsg.
Adverbiální spojení se někdy píší dohromady jako spřežky. Žižková (2019, s. 56, 62, 70) uvádí jednoslovná spojení předložka + substantivum:
nabeton, nadálku, nadoslech, nadostřel, nahniličku, najedničku, nakříž, namíru, namušku, naodiv, naoplátku, napohodu, naposlech, napotvoru, napovel, napozoru, napřekot, napřesdržku, napřetřes, napříkladu, napřítěž, naroveň, narozum, narub, nasekyru, naskok, naškodu, našrot, naštíru, navýběr, nazem, nazlost, odvěků, odvnitřku, odvrchu, odzačátku.
Pokud se tato spojení píší zvlášť, tj. na dálku, na hniličku atd. navrhujeme značkovat v těchto případech (na rozdíl např. od spojení k duhu) druhý tvar jako substantivum s lemmatem ve tvaru Nsg, tj. dálka, hnilička… štír.
Osobní zájmeno já se substantivizuje, a to tak, že tvar nominativu se stává nesklonným substantivem. Zájmeno se užívá i v negované podobě nejá (V tomto třetím kroku, který Fichte vztahuje k zásadě dostatečného důvodu, rozehrává nyní Fichte vztahy vzájemného působení <Já> na <Nejá> a naopak.… Zážitek fúze <já> a <nejá> je těžko srozumitelný západním psychologům.) Grafická realizace je rozkolísaná: kromě psaní s velkým počátečním písmenem se objevuje dokonce i varianta neJá. Interpretace tvaru nejá je v dosavadním pražském značkování lemma="nejá" & tag="NNNS.----N.*", já je v dosavadním značkování v pražském systému vždy zájmeno. Navrhujeme značkovat já v užitích uvedeného typu jako [POS=N & GEN=N & NEG=A], tvar nejá pak vždy jako [POS=N & GEN=N & NEG=N].
Zájmennou interpretaci mají ale i substantivizovaná užití dalších osobních zájmen: ty, my, vy (Nejde přece o to, že Ty jsi Ty, ale že mé Já bude součástí Tvého <Ty>...; Předsudky a stereotypy tady totiž byly, jsou a budou, neboť jsou součástí našeho já i našeho <my>.) Navrhujeme u nich toto značkování: [POS=N & GEN=N & NEG=A].
Substantivizují se i zájmena posesivní (můj, tvůj, naši, vaši…) a patrně i další druhy zájmen. Snad vždy jde o elipsu (Já vím, že tě <tvoje> hlava štve. Jenomže mně ta <moje> zatím docela vyhovuje!). Tato substantivizovaná zájmena chápeme však vždy jako zájmena, ne jako substantiva.
Substantiva jakožto prostředek pojmenování osob, zvířat, rostlin, věcí, objektů v širokém smyslu, předmětně pojatých dějů, stavů, vlastností a kvant označují jevy pojaté jako entity. Takovými se mohou stát […] i přehodnocené pojmové obsahy běžně vyjadřované jinými slovními druhy: Přehodil páčku na <vypnout> / <vypnuto>. <U> je genitivní předložka. Umísti to <aby> trochu výš. Nikdy neříkej <nikdy> (VAGSČ, s. 46); Ty jsi samé <ale> a <ačkoli> a skutek utek.
Tučná slova nechápeme jako substantiva, tj. ponechávají si původní slovní druh: vypnout je tedy sloveso, vypnuto je adjektivum, u je předložka; aby, ale, ačkoli jsou spojky; nikdy je adverbium.
Apelativnost a propriálnost nejsou morfologické kategorie, nicméně v koncepci NovaMorf rozdíl mezi proprii a apelativy vyjadřujeme, a to pouze v lemmatu (velké vs. malé počáteční písmeno), nikoli zvláštní kategorií. Často je velmi obtížné odlišit propria od apelativ; hranice mezi apelativy a proprii totiž nejsou ostré (VAGSČ, s. 47; AGSČ, s. 290n.). Velké písmeno na začátku slova velmi často nestačí ke správnému zařazení slova mezi propria, srov.
Bydlel v ulici <U Stanice> a pak ve <Vysokém nad Jizerou>.
Eskymák nežije na Sahaře.
Navíc průběžně dochází k apelativizaci proprií (eponymizace: Pribináček → pribináček, Roentgen → rentgen). Jsou však i případy proprializace apelativ (mráz → (pan) Mráz).
Navrhujeme tyto zásady:
a. Propria jsou v pojetí NovaMorf právě ty lexémy, jež mají tyto vlastnosti:
jsou lemmatizovány s velkým počátečním písmenem
jsou to pouze: substantiva [POS=N] / posesivní adjektiva [POS=A & SUB=U] / cizí slova [POS=F] / neznámá slova [POS=X]
Příklady:
lemma(Vysoké) = Vysoké [POS=N], např. v názvu Vysoké nad Jizerou, oproti lemma(vysoké) = vysoký [POS=A] (a to i v adjektivním užití na začátku věty (Vysoké));
lemma(Pribináček) = Pribináček oproti lemma(pribináček) = pribináček
lemma(Jestřebím) = Jestřebí; lemma(Sněžkou) = Sněžka
víceznačné Šimandlovi:
lemma(Šimandlovi) = Šimandl (jako osobní příjmení v Dsg/Lsg) nebo
lemma(Šimandlovi) = Šimandlovi (jako rodinné příjmení v Npl/Vpl) nebo
lemma(Šimandlovi) = Šimandlův (jako posesivní adjektivum v Npl_mask.živ. / Vpl_mask.živ.)
b. Křestní jména a příjmení jsou propria:
Haně: lemma(Haně) = Hana [POS=N]
Toníkem: lemma(Toníkem) = Toník [POS=N]
lemma(Mráz) = Mráz, kde Mráz je mužské příjmení [GEN=M], oproti lemma(mráz) = mráz [GEN=I] (i v apelativním významu na začátku věty (Mráz));
lemma(Pokorného) = Pokorný [POS=N], kde Pokorný je mužské příjmení, oproti lemma(pokorného) = pokorný [POS=A] (i v adjektivním významu na začátku věty (Pokorného));
lemma(Pokornou) = Pokorná [POS=N], kde Pokorná je ženské příjmení, oproti lemma(pokornou) = pokorný [POS=A] (i v adjektivním významu na začátku věty (Pokornou));
lemma(Skoumalové) = Skoumalová [POS=N]
c. Posesivní adjektiva odvozená od proprií jsou propria:
<Františkův> pohřeb: lemma(Františkův) = Františkův
<Františkovy> Lázně: lemma(Františkovy) = Františkův
d. Vyskytuje-li se slovní tvar jen v názvu a píše-li se s velkým počátečním písmenem, je to proprium:
Bydlím v <Budějovicích>, ale dřív jsme bydlel v ulici Na <Slupi> a v <Hradci Králové>.
Tvary Budějovicích a Slupi jsou propria:
lemma(Budějovicích) = Budějovice [GEN=F & NUM=P & CAS=6]
lemma(Slupi) = Slupi [GEN=F & NUM=S & CAS=6]
lemma(Hradci) = Hradec [GEN=I & NUM=S & CAS=6]
lemma(Králové) = Králové [GEN=F & NUM=S & CAS=2]32
lemma(Slupi) = Slupi [GEN=F & NUM=S & CAS=6]
Podobně:
lemma(Vožicím) = Vožice
lemma(Choceradech) = Chocerady
e. Adjektiva se proprializují (a tedy i substantivizují), jen
(i) představují-li jednoslovný název:
Bydlel v obci <Stará> u Berouna.: lemma(Stará) = Stará
Bydlel ve <Vysokém> a pak v <Baraním>.: lemma(Vysokém) = Vysoké, lemma(Baraním) = Baraní
<Břidličná>: lemma(Břidličná) = Břidličná
Podobně: Hostinné, Ostrý, Rudná...
(ii) jsou-li součástí víceslovného názvu typu: Bydlel ve <Vysokém> nad Jizerou, kde nerozvíjejí substantivum užité propriálně.
Podobně:
<Deštné> v Orlických horách/Horách: lemma(Deštné) = Deštné
<Vrané> nad Vltavou: lemma(Vrané) = Vrané
<Vlachovo Březí>: lemma(Vlachovo) = Vlachův, lemma(Březí) = Březí
f. Adjektiva (mimo posesivní adjektiva odvozená od proprií) nejsou propria (a tedy se nesubstantivizují) v případech, kdy rozvíjejí proprium (např. Boleslav) nebo apelativum v propriálním užití (Mlýn):
Žil v <Mladé Boleslavi> a také ve <Starém Mlýně>.
lemma(Mladé) = mladý [POS=A]
lemma(Boleslavi) = Boleslav [POS=N & GEN=F]
lemma(Starém) = starý [POS=A]
Bydlel v <České> (ulici).: lemma(České) = český [POS=A]
Na <Pražském> hradě se včera slavilo.; lemma(Pražském) = pražský [POS=A]
Ženské domovy: lemma(Ženské) = ženský [POS=A]
Obřím dolem: lemma(Obří) = obří [POS=A]
Kozí hřbety: lemma(Kozí) = kozí [POS=A]
Nová Ves: lemma(Nová) = nový [POS=A]; lemma(Ves) = ves [POS=N]
Starému Boru: lemma(Starému) = starý [POS=A]; lemma(Boru) = bor [POS=N]
g. U homonymních substantiv (apelativum / proprium) navrhujeme lemmatizovat propriálně a co nejblíže tvaru:
tam, kde výrazně převažuje propriální užití a často se užívá jednoslovně (univerbizace: Ústí nad Labem → Ústí):
<Ústí> nad Labem: lemma(Ústí) = Ústí
Konečně jsem si přečetl <Psohlavce>.: lemma(Psohlavce) = Psohlavci [GEN=M & NUM=P]
Soupis takových lexémů bude postupně vytvářen v průběhu úprav morfologického slovníku.
h. U homonymních substantiv (apelativum / proprium) navrhujeme lemmatizovat apelativně:
tam, kde výrazně nepřevažuje propriální užití:
Na <Hradě> prezident vyznamenával své spojence.: lemma(Hrad) = hrad
i. Číslovka, zájmeno, sloveso, příslovce, předložka, spojka, částice, citoslovce, afixový segment ani agregát nejsou nikdy propria:
Četl jsem román <Jak> se kalila ocel.: lemma(Jak) = jak [POS=D]
Nabokovova kniha pamětí <Promluv, paměti> i román <Ve znamení levobočka> se Martě líbily.:
lemma(Promluv) = promluvit POS=V; lemma(Ve) = v [POS=R]
j. Zvláštní zásada:
Vyskytuje-li se v názvech např. uměleckých děl, artefaktů, míst… a ve zvláštních (např. dadaistických) textech slovní tvar psaný s velkým počátečním písmenem a existuje-li jako apelativum nebo adjektivum a neplatí-li pro něj výše uvedené zásady, je lemmatizován nepropriálně:
Včera jsem dočetl Kunderův <Žert>.: lemma(Žert) = žert
Jinak by se v morfologickém slovníku muselo počítat s tím, že každý slovní tvar se dá užít i propriálně a znamenalo by to jednak zdvojnásobení objemu slovníku, jednak obrovské potíže s desambiguací ve víceznačné pozici slova například ve větě:
<Žert> byl moc pěkný.; lemma(Žert) = žert / Žert
Dostojevského <Něžná>: lemma(Něžná) = něžná [POS=A].
k. Apelativizované proprium se značkuje jako apelativum:
… a ten sympaťák se tahá s takovou bláznivou <káčou> a co na ní proboha vidí.:
lemma(káča) = káča
ač existuje samozřejmě proprium Káča:
lemma(Káča) = Káča
l. Typ Ho Či Minovo Město:
Je-li název víceslovný, značkují se v pojetí NovaMorf jenom jednotlivé komponenty názvu, nikoli víceslovný celek. Návrh značkování:
lemma(Ho) = Ho [POS=F] (cizí slovo)
lemma(Či) = Či [POS=F] (cizí slovo)
lemma(Minovo) = Minův [POS=A & SUB=U] (posesivní)
lemma(Město) = město [POS=N & GEN=N]
Webové adresy a emaily navrhujeme tokenizovat a značkovat takto:
webové adresy:
chápat je jako jediný token, jehož lemma je totožné s tvarem:
lemma(http://korpus.cz) = http://korpus.cz
značkovat: [POS=N & ABR=+]
emaily:
chápat je jako jediný token, jehož lemma je totožné s tvarem:
lemma(xxx@seznam.cz) = xxx@seznam.cz
značkovat: [POS=N & ABR=+]
V této kapitole jsou popsány morfologické vlastnosti substantiv, které jsou relevantní pro jejich morfologické značkování, včetně jejich lemmatizace. Rovněž jsou podrobně rozebrány kategorie a hodnoty, které jsou u substantiv sledovány. Velká pozornost byla věnována i slovnědruhovým přechodům zvláště mezi
(i) substantivy a adjektivy
(ii) substantivy a adverbii
a také propriím.
Hajič, J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum.pdf??
Hlaváčová, J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: Univerzita Karlova. (Disertační práce.) Dostupná z: <http://utkl.ff.cuni.cz/phpBB3/viewtopic.php?f=11&t=1>
Karlík, P. – Nekula, M. – Rusínová, Z. a kol. (1995): Příruční mluvnice češtiny (PMČ). Praha: Nakladatelství Lidové noviny.
Komárek, M. a kol. (1986): Mluvnice češtiny 2. Praha: Academia.
Kopečný, F. (1962a): Základy české skladby. Praha: Státní pedagogické nakladatelství.
Kopečný, F. (1962b): Slovesný vid v češtině. Praha: Nakladatelství ČSAV.
Mel'čuk, I. A. (1996): Dependency Grammar. Albany: Suny Press.
Michalec, V. – Veselý, V. (2016): K významu substantiv s převahou plurálových tvarů. Slovo a slovesnost, roč. 77, č. 3, s. 163–184. Dostupné z: WWW: <http://sas.ujc.cas.cz/archiv.php?art=4329>
Najbrtová, K. (2013): Zavolal jsem si taxík/taxíka – životná koncovka neživotných maskulin v akuzativu singuláru. In: Bednaříková, B. – Hernandezová, P. (eds.), Od slova k modelu jazyka. Sborník z 13. mezinárodního setkání mladých lingvistů. 1. vyd. Olomouc: Univerzita Palackého v Olomouci, s. 266–281.
Osolsobě, K. (1996): Algoritmický popis české formální morfologie a strojový slovník češtiny. (Disertační práce.) Brno: Masarykova univerzita.
Osolsobě, K. (2015): Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování). Časopis pro moderní filologii, 97, č. 2, s. 136–145.
Osolsobě, K. – Hlaváčová, J. – Petkevič, V. – Šimandl, J. – Svášek, M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, 17, č. 4, s. 225–234.
Osolsobě, K. – Žižková, H. (2019): Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny. Acta onomastica (v recenzním řízení).
Petkevič, V. (2014): Morfologická homonymie v současné češtině. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu.
Petkevič, V. – Hlaváčová, J. – Osolsobě, K. – Svášek, M. – Šimandl, J. (2019): Parts of Speech in NovaMorf, a New Morphological Annotation of Czech. Jazykovedný časopis, 2019, roč. 70, s. 358–369.
Richterová, O. (2017): Od slovesa ke jménu a předložkám. Departicipiální formy v češtině. Praha: UK. (Disertační práce.) Dostupná z: <http://hdl.handle.net/20.500.11956/94103>
Šimandl, J. (2011): Číslovky: obecný rámec, číslovky základní a řadové. In: Štícha, Fr. (ed.), Kapitoly z české gramatiky (KČG). Praha: Academia, s. 689–727.
Šmilauer, V. (1972): Nauka o českém jazyku. Praha: SPN.
Štícha, F. a kol. (2013): Akademická gramatika spisovné češtiny (AGSČ). Praha: Academia.
Štícha, F. a kol. (2018): Velká akademická gramatika spisovné češtiny (VAGSČ). Praha: Academia.
Šulc, M. (2001): Životná koncovka -a v akuzativu singuláru neživotných maskulin. Slovo a slovesnost, roč. 62, č. 1, s. 53–61. Dostupné z: <http://ucnk.ff.cuni.cz/stahni.php#sulc.>.
Vondráček, M. (2013): Vlastnosti slov a slovních druhů. In: Adámková, P. – Uličný, O. – Bláha, O. (eds.), Studie k moderní mluvnici češtiny. Olomouc: Univerzita Palackého v Olomouci.
Žižková, H. (2019): Slovnědruhové přechody a přesahy jako problém automatické morfologické analýzy. Brno, Masarykova univerzita. (Disertační práce.) Dostupná z: <https://is.muni.cz/th/gomfh/>.
Korpusy řady SYN:
Český národní korpus – SYN2015:
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: SYN2015: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>.
Český národní korpus – SYN v6:
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 6 z 18. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz
Český národní korpus – SYN v7:
Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 7 z 29. 11. 2018. Ústav Českého národního korpusu FF UK, Praha 2017. Cit. 26. 04. 2019. Dostupný z WWW: <http://www.korpus.cz>.
1 A to i v případě nečetných, ale možných užití ve významů verbálního substantiva, např. vězení: Ustavičné <vězení> v problémech ho deprimovalo.
2 Substantivum činitel jakožto maskulinum životné nevykazuje zvláštnosti. Odlišení neživotného a životného maskulina činitel je pojednáno v § 3.1.2c.
3 Při určení rodu z ní vycházíme.
4 Tvary Ipl oky a okama (ob.čes.) jsou rozlišeny FMU -y / -ama; okama není tvar duálu. Lemma(oky) = lemma(okama) = lemma(očima) = oko.
5 Tvar je homonymní s Npl, Vpl lexému dement.
6 Přehled zachycuje jen nejběžnější mutace z obrovského množství všech substantivních globálních mutací (velká variabilita je zejména u cizích proprií).
7 Neprovedená diftongizace je typická pro část Moravy.
8 Tvary nespisovného lexému protěžovat budou vzhledem ke své poměrně vysoké frekvenci v korpusových datech obsaženy v morfologickém slovníku.
9 Na zbrani, kterou <Bensonovi> spáchali sebevraždu…; V roce 1822 se <Máchovi> přestěhovali na Staré Město...
10 Při desambiguaci je samozřejmě třeba dbát na náležitou interpretaci např. tvaru Petrů v kontextu manželé Petrů (lemma=Petrů) odešli do kina vs. Pořady Petrů (lemma=Petr) a Pavlů (lemma=Pavel) Novotných se mi líbí.
11 V terminologii I. Melčuka (Melčuk 1996, s. 96) hodnoty jejich morfologických kategorií (zde rodu a čísla) nejsou závislé na jiných slovech ve větě.
12… většina volajících, anebo <mailujících> na včerejší horkou linku vidí...
13 Je třeba vyřešit praktickou otázku automatické morfologické analýzy, zda počítat při substantivizaci s oběma rody [GEN=[MF]]. Ve všech uvedených případech jde o substantivizaci, jejímž výsledkem je pojmenování osoby. Gramaticky může jít v češtině jak o substantivum rodu mužského životného (ten/oba/chladnokrevný/chladnokrevní/cizí cestující/vedoucí…), tak o substantivum rodu ženského (ta/obě/chladnokrevná/chladnokrevné/cizí cestující/vedoucí…). Tuto otázku je třeba řešit konzistentně a buď uvádět ve všech případech rody oba, nebo dát uživateli k dispozici argumenty, které vyjasní použití jiné strategie. V manuálu by měl být uživatel upozorněn na to, že značkování tohoto typu slovnědruhového přechodu (adjektivum na oucí/ící → substantivum pojmenovávající osobu [GEN=[MF]]) se omezuje na seznam jmen osob tohoto slovotvorného typu (konverze), který si neklade nárok na úplnost a zohledňuje pouze jednotky vybrané na základě korpusově podložených frekvenčních analýz. Není tudíž vyloučeno, ba je naopak pravděpodobné, že v korpusu se ve všech frekvenčních pásmech vyskytují další doklady této slovnědruhové transpozice, na které současný stav automatické morfologické analýzy nebere zřetel.
14 Domníváme se, že přegenerovat masivně slovník by mohlo být kontraproduktivní, zbytečně by se přetížila desambiguace a výsledky by patrně neodpovídaly vynaloženému úsilí. Tento stav se ovšem může měnit. Disertační práce Žižková 2018 obsahuje návrhy pro desambiguační praxi substantivizovaných adjektiv opřenou o analýzu kolokací.
15 A jakou vládu my polistopadoví <doživší> se vůbec máme. Mohlo by v něm být sto procent <přeživších>...,... že by tito nově <přišedší> třeba nechtěli vzdychat jejich způsobem. Znenáhla pak první <přebrodivší> se podají si ruce a hoši přecházejí zachycujíce se živého provazu.
16 Podle Internetové jazykové příručky (IJP) <http://prirucka.ujc.cas.cz/?slovo=zavolanou#bref2> jsou to substantivizovaná adjektiva. V korpusu ale ty chyby, o nichž se IJP zmiňuje (psaní dohromady), jsou zastoupeny (nashledanou je značkováno jako částice, napováženou, naviděnou, narozváženou nejsou rozpoznány (tag=X.*), nazapřenou je značkováno jako adverbium. Navrhujeme – jak je uvedeno v textu – ponechat u psaní zvlášť substantivní interpretaci, lemmatem bude nerekonstruovaný tvar na.*nou (lemma(slyšenou) = slyšenou). U psaných dohromady, tedy u spřežek, navrhujeme homonymní řešení: [POS=[DI]]. Řazení slova nashledanou (příp. naneshledanou) mezi částice patrně souvisí s tím, že jako částice jsou interpretovány na rovině značky různé pozdravy: kromě pá a zdar, která jsou dosud interpretována jako substantiva, tak ahoj, nazdar, čau, čauky a nashledanou jsou částice, viz zde: <https://kontext.korpus.cz/freqs?ctxattrs=word&attr_vmode=visible&pagesize=40&q=~FQhiAihf6B&viewmode=kwic&attrs=word%2Clemma%2Ctag&corpname=syn_v6&attr_allpos=kw&fcrit=lemma_lc%2Fe%200%3C0%20pos%2Fe%200%3C0&flimit=1&freq_sort=&fpage=1&ftt_include_empty=>.
17 Doporučujeme značkovat jako neživotné maskulinum: drobné [peníze [GEN=I]].
18 K vážně vypadající nehodě vyjížděli v noci na včerejšek hasiči a policisté do <Hovězí> na Vsetínsku… Rekonstruovány budou například silnice z Horní Lapače do Fryštáku, z Uherského Hradiště do Jarošova nebo z Ústí u Vsetína do <Hovězího>... Brankář Láníček zamířil do <Zubří>...
Sjel ze značené trati až do <Zubřího>.
19 V připravovaném Akademickém slovníku spisovné češtiny (ASSČ) jsou však tyto tvary řazeny mezi substantiva.
20 Viz případy jako Bylo <teplo>. × Bylo (mi) velmi <teplo>. × Bylo velké <teplo>.
21 Italská mafie v Česku „úřaduje“ po <tichu>.
22 Viz F. L. Čelakovský: Což je pánům! Ti na voze/ sedí pěkně v <suše>,/ ale chudý, ten za nimi/ v dešti, blátě kluše.
23 Tvar je homonymní s nesklonným substantivem označujícím pokrm japonského původu.
24 Tvar má jak interpretaci jmenného tvaru adjektiva (Pak ovázal pro všechno Edgarovy oči, velel přítomným, aby byli <tiši> a nalil bezvědomému zbytek jedu do úst...), tak okrajově i tvaru substantiva feminina tiš: Sám a sám si vyjdu v noční <tiši>, bílá cesta z mlh se vynoří...
25 Domníváme se, že ačkoliv se nabízí interpretace substantivní, jde spíše o idiom adverbiální povahy, a to na základě významu něco je v suchu = něco je v pořádku/DOBŘE vyřešeno.
26 Z korpusu SYN v6 uvádíme doklady na substantivní užití označkované jako tag=D.*:… ňák podezřelý <mrtvo>...,… nové <výtvarno>...,… pečlivě předestřené <pěkno>...,… právě probíhající silná oblačnost, neli úplné <zataženo>… atd. Substantivní užití v těchto případech bude moci být doplňováno do slovníku automatického analyzátoru průběžně podle potřeby. Nemělo by být automaticky přegenerováno.
27 Osoby zemdlelé veletržním <nedýchatelnem> si kousek opodál mohly dopřát masážní kúru…, Výsledkem je až několikatýdenní toxické <nedýchatelno>…, Ze světa atomového <neviditelna>…, Na onom humanitním krásném <nepoznatelnu>…
28 Řada rarit doložených v SYN v6 pochází z básnické tvořivosti Z. Rotrekla:… Podstatná jména (ženský a střední rod) <neobydlitelno> šťastnosti <bydlitelno> v <hledatelnu> bezmocno <hmatatelno> <obydlitelno> překráčivosti Hřebelcárna v iluzionárně tokaniště krváciva zítřství v zauzlovatelnosti včerejškárna trestárna dneškárna hoblovárna vězeňství sobědárnosti kráčenství očistiště sliniště beznadějství <vysvoboditelno vymknutelna> statečnoství v sebepřekročenství <stoupatelno> v krvácno bezmocenství leč neuhybatelnost potřebovatelna dýchatelniště potřebárna <stoupatelna> <zoufatelno> v štěstství pastýřství zranitelnosti vepřoviště odpočiniště <smytelno> hříšství pečovatelství o nezhojenskost dojniště nadzemství účastenství… Taková tvořivost jistě dobře ilustruje možnosti češtiny v celé její kráse. Její zachycení ovšem, jak se domníváme, přesahuje možnosti automatické morfologické analýzy.
29 Stejně jako jsem si přisvojila <posvátno> představované vodou. Volrábka horuje pro <krásno>...
30 A potom jsem pochopil, že ironie, <komično>, humor musí zemřít…
31 Desambiguace užití dopadlo to na <beton> dobře (beton je součástí spojení směřujícího k adverbializaci, v případě psaní dohromady má adverbiální spřežka nabeton význam ‚určitě‘) × dopadlo na <beton> tvrdě (beton je tvar substantiva v akuzativu) překračuje rámec možností automatické morfologické analýzy, a to přesto, že ruční desambiguace je patrně snadná.
32 Velmi speciální případ, nedoporučujeme rekonstrukci: lemma(Králové) = králová.