08-01 Substantiva

Obsah

1 Úvodní přehled

1.1 Představení kapitoly

Slovní druh substantivum je v české mluvnické tradici vymezen z hlediska morfologického jako ohebný slovní druh s několika typy flexe v závislosti na jmenném rodu. Morfologicky jsou substantiva téměř důsledně ohebná s převahou substantivní flexe (pán, hrad, žena, svítání, Svitavy), v případě substantivizovaných adjektiv s flexí složenou (rozhodčí, pokojská, vodné, hovězí) (srov. Štícha a kol. 2018, s. 45, dále VAGSČ). Z gramatických kategorií vyjadřují substantiva jmenný rod (maskulina navíc podkategorii životnosti), číslo a pád. Rod a číslo jsou u substantiv kategorie inherentní, tj. hodnoty těchto morfologických kategorií prototypicky nezávisí na jiných slovech ve větě (srov. Mel'čuk 1996, s. 64). Jejich nositelem je každé substantivum. Pro substantiva je příznačná jednorodovost; pomineme-li kolísání, pak každé substantivum má v zásadě jeden gramatický rod (VAGSČ, ibid.).

Východiskem pro vlastní analýzu a rozhodnutí, zda určit jistý slovní tvar jako substantivum, jsou především gramatiky VAGSČ, Štícha a kol. 2013 (dále AGSČ), Karlík a kol. 1995 (dále PMČ) a současný morfologický slovník pražského systému. (https://wiki.korpus.cz/doku.php/seznamy:tagy, Hajič 2004).

Substantivní kategorie a jejich hodnoty jsou představeny v § 1.2.

Členění substantiv podle kategorie poddruh je věnován § 2.

V dalších oddílech je podrobně probráno přířazování hodnot kategorií jmenného rodu (§ 3), čísla (§ 4) a pádu (§ 5). Pozornost je věnována především zvláštnostem ve značkování těchto kategorií u některých substantiv, mj. homonymii/kolísání v rodě (§ 3.1), zvláštním případům (singularia a pluralia tantum, duál) ve značkování čísla (§ 4.1) a inherentní homonymii v souvislosti se značkováním pádu (§ 5.3).

Poté jsou v § 6 probrány morfologické kategorie zkratka (§ 6.1), negace (§ 6.2) a jsou zde představeny typické globální (§ 6.3) a flektivní (§ 6.4) mutace substantiv.

Lemmatizace substantiv včetně nestandardních typů je popsána v § 7.

V § 8 jsou popsány slovnědruhové přechody (transpozice), zejména substantivizace adjektiv (§ 8.1), příslovcí (§ 8.2) a zájmen (§ 8.3)

Propriím je věnován § 9.

Krátký § 10 popisuje značkování webových adres a emailů.

Kapitola je zakončena stručným závěrem (§ 11).

1.2 Kategorie a hodnoty relevantní pro substantiva

U substantiv (POS=N) jsou relevantní tyto kategorie: poddruh (SUB), zkratka (ABR), jmenný rod (GEN), číslo (NUM), pád (CAS), negace (NEG), typ agregátu (AGR), globální mutace (GMU) a flektivní mutace (FMU), viz Tabulka 1. V Tabulce 2 uvádíme členění substantiv podle kategorie SUB.

Tabulka 1. Seznam relevantních kategorií substantiv a jejich hodnot

kategorie

značka kategorie

hodnoty

viz

slovní druh

POS

poddruh

SUB

[VC0]

§ 2

zkratka

ABR

[+-]

§ 6.1

jmenný rod

GEN

[MIFN]

§ 3

číslo

NUM

[SP-]

§ 4

pád

CAS

[1234567-]

§ 5

negace

NEG

[NA]

§ 6.2

typ agregátu

AGR

[N-]

globální mutace

GMU

§ 6.3

flektivní mutace

FMU

§ 6.4

Tabulka 2. Poddruh substantiv (SUB)

SUB

vysvětlení

příklady

viz

deverbativní

věznění, pokrytí, sdělení

§ 2.1

číslovkový

pětka

§ 2.2

ostatní

jezevec, pyré, stráň

§ 2.3

2 Značkování substantiv podle kategorie SUB

[SUB=[VC0]]

U substantiv rozlišujeme tyto hodnoty kategorie poddruh:

V: deverbativní – substantiva typu věznění, pokrytí, sdělení, nepřizpůsobení

C: číslovkový – lexémy vyjadřující souvislost s číslovkami, např. pětka.

0: ostatní, např. jezevec, pyré, stráň.

2.1 Substantiva deverbativní

[POS=N & SUB=V]

a. Základní vymezení

Hodnota [SUB=V] náleží deverbativním substantivům, která vyjadřují slovesný děj a jsou tvořena paradigmaticky od kmene minulého (tvaru shodného s trpným příčestím) sufixem -n-í/-t-í (chování, léčení, nepřizpůsobení, pokrytí, sdělení, těšení, uvědomení, uvědomění, věznění, volání...).

Tato substantiva se mohou chovat ve větě jinak než ostatní substantiva, a to v těchto (morfo)syntaktických ohledech:

(i) jedině s nimi se může pojit zvratné zájmeno se/si (štítění se práce, těšení se na večeři, osvojení si učiva), jsou-li odvozena od sloves reflexiv tantum typu se (štítění), reflexiv tantum typu si (osvojení), nebo možných reflexiv (přizpůsobení (se/si)); jde tu tedy o fakultativní dědění vidu od slovesa;

(ii) jedině ona se dají rozvíjet příslovci pravidelně odvozenými od adjektiv (zpívání falešně);

(iii) všechna a jedině ona zachovávají rozdíl gramatické kategorie vidu u fundujících sloves (snížení vs. snižování);

(iv) drtivá většina z nich dědí od sloves jejich valenční vlastnosti, samozřejmě za respektování systematických změn (např. akuzativní valence fundujících sloves je nahrazena genitivní u derivovaných deverbativních substantiv).

Ač deverbativní substantiva jistí autoři považují za slovesa pro jejich naprostou totožnost významovou (obsahovou) a pro paradigmatičnost, s níž se od slovesných základů derivují (Kopečný 1962a), syntakticky i morfologicky patří mezi substantiva, a proto je řadíme k nim, nikoli ke slovesům. K vyjádření jejich slovesného rázu stačí určení deverbativního poddruhu.

b. Lexikalizovaná deverbativní substantiva

V morfologickém popisu neodlišujeme lexikalizovaná deverbativní substantiva, která nevyjadřují slovesný děj, od substantiv deverbativních nelexikalizovaných. Kopečný (1962a) uvádí příklad Zabývali se vázáním ječmene – Ruplo mi lyžařské vázání. Podobně krmení zvířat – krmení pro zvířata či Podstatné bylo uvědomění si vlastních mezí – Husák měl veliké třídní uvědomění. Tyto a další lexémy s možným dvojím výkladem (gramatická × lexikální derivace): utkání, vedení, jednání, zařízení, umění, oddělení, představení, vystoupení, vydání… budou mít pouze [SUB=V].

Obecně platí: Má-li tedy deverbativní substantivum nelexikalizovaný význam, je značkováno jako SUB=V (ač může mít i význam lexikalizovaný). Desambiguovat homonymii mezi lexikalizovaným a nelexikalizovaným významem téhož lexému je nesmírně obtížné, a proto tak nebudeme činit. Průnik substantiv typu SUB=V a substantiv SUB=[0C] je tedy prázdný.

c. Problematické tvary

Za problematické tvary lze pokládat substantiva jako:

vězení, utrpení, koření, mání, strpení, osení, šírání… Jsou sice odvozena od sloves, ale tvořena nepravidelně (utrpění, strpění × utrpení, strpení) a vztah k motivujícímu slovesu není vztahem transpozice děje v substanci (vězet → vězení, mít/jmout → mání, osít → osení, šírat → šírání), popř. jde o homonyma s velmi nepravděpodobným výskytem (kořit → koření).

Tato substantiva mají pouze [SUB=0].^[1]

d. Substantivní kompozita

Substantivní kompozita (čepobití, podsebití, krupobití, krveprolití, bezžití, znovuzrození, vinobraní, nanebevzetí, dík[uů]vzdání, rukoudání, zmrtvýchvstání, rychlobruslení, jasnozření, nitrozření, vnitrozření, znovuvzkříšení, zvelkoměšťáčtění, zmaloměšťáčtění, různočtení, galapředstavení, vzdoropředstavení, dobrodiní....)

za deverbativní nepokládáme, protože patrně neexistují kompozitní slovesa (*čepobít, *krupobít…, dobrodít, vinobrát); mají pouze [SUB=0].

e. Rozlišování deverbativních a ostatních substantiv

Při rozlišování deverbativních substantiv (SUB=V) a ostatních substantiv (SUB=[0C]) za hlavní problémy obecně pokládáme:

ručení za úplnost seznamů v případě otevřených skupin lemmat, která splňují do jisté míry kritéria, podle nichž se udělují hodnoty SUB, a která uvedené hodnoty SUB „verbální“ mít z nějakého důvodu nebudou;
kompozita derivovaná postupně, ta tvoří velkou problematickou skupinu. U některých z nich jde přitom o derivaci gramatickou (vstoupit na nebe → vstoupení na nebe → nanebevstoupení, být vzat na nebe → vzetí na nebe → nanebevzetí, prolít krev → prolití krve → krveprolití, vzdát dík(y) → vzdání dík[uů] → dík[uů]vzdání, přijmout se → přijetí sebe → sebepřijetí, sdílet se → sdílení sebe → sebesdílení), u některých o lexikalizaci (vinobraní, dobrodiní, podsebití).

f. Deverbativní substantiva podobná číslovkám

Lexémy podobné číslovkám vycházejícím z početního úkonu: typ zdvojnásobení, jsou substantiva se SUB=V; přítomnost číselného elementu se u nich nevyznačí (srov. kapitola Číslovky # 08-04, § 3.3.3).

2.2 Substantiva číslovková

[POS=N & SUB=C]

Za číslovková [POS=N & SUB=C] (srov. podrobný rozklad v kapitole Číslovky # 08-04, § 3.1.3) považujeme tato substantiva:

a. lexémy podobné číslovkám vztaženým k celku

např. desítka, jednička, kolikátka, pětka, stosedmnáctka, stovka, šestatřicítka, tisícovka [GEN=F];

b. lexémy typu desetitisíce, stamiliony, statisíce, jednotka

nikoli vyšší číslovky typu miliony;

c. lexém nula [GEN=F]

v kontextech, kde to není základní číslovka (nula je základní číslovka například v těchto kontextech: vedu jedna nula – denní teploty mínus čtyři až nula – nula celá čtyři procenta), včetně metaforických užití jména čísla: vyhráli s nulou – udrželi nulu – vychytal pět nul / první nulu – všichni jste úplné nuly – krevní skupina nula – dotisknou nuly (úprava bankovek k „řešení” inflace) – dokud jí Robert nebude moci říci, co jedničky, nuly a ixy znamenají; strmý průchod fáze nulou čili „místem s hodnotou 0“ – se dvěma nulami;

d. lexém málo

lexém málo pokládáme za číslovkové substantivum neutrum v singuláru [GEN=N & NUM=S] s úplným paradigmatem (tvary mála, málu, málem a kontexty typu to <málo> (co nám zbylo), je nás <málo>, protivníků bylo <málo>). Nicméně v kontextech s nesklonným málo (k <málo> lidem, díky <málo> výjimkám) je málo číslovkové adverbium ([POS=D & SUB=C]) (srov. kapitoly Adverbia # 08-06, § 4.4 a Číslovky # 08-04, § 3.1.3).

Podobně se značkuje nemálo: lemma(nemálo) = nemálo a [NEG=N];

e. zdrobněliny typu desetinka, osminka [GEN=F]

nikoli číslovky osmina, desetina;

f. lexémy typu prvňačka [GEN=F], prvňák [GEN=M], druhačka [GEN=F], druhák [GEN=M]

g. lexémy typu dvanácterák [GEN=M], čtyřčata, vícerčata [GEN=N]

h. lexémy typu dvaatřicetina jako označení not

osmina, šestnáctina, dvaatřicetina [GEN=F];

i. lexémy narozeninového typu zakončené na -átiny

lexémy narozeninového typu zakončené na -átiny (třicátiny, kolikátiny…) jsou číslovková substantiva pluralia tantum ([GEN=F & NUM=P]):

kolikátiny, půltiny, pětiny, šestiny,…, devatenáctiny, dvacátiny, pětadvacátiny, třicátiny, třiatřicátiny, pětatřicátiny, čtyřicátiny, pětačtyřicátiny, padesátiny, pětapadesátiny, šedesátiny, pětašedesátiny, sedmdesátiny, pětasedmdesátiny, osmdesátiny, pětaosmdesátiny, devadesátiny, pětadevadesátiny, setiny, stopětiny, stodesetiny. Lexémy na -tiny se často vyskytují v nesprávných podobách: dvacetiny, třicetiny…, které jsou homonymní s dílovými číslovkami [POS=C & SUB=h & DEI=U] (srov. kapitola Číslovky # 08-04, § 2, bod 7 a # 08-04, § 3.3.1(2));

j. lexém vícero [GEN=N & NUM=S]

2.3 Substantiva ostatní

[POS=N & SUB=0]

Za ostatní ([SUB=0]) (srov. opět podrobný rozklad v kapitole Číslovky # 08-04, § 3.1.3) považujeme tato substantiva:

a. Kontejnery: lexémy typu hromada, menšina, moře, spousta, většina...

S případy jako Bylo tam spoustu lidí., Měl spousta řečí. se zachází podle jejich morfologického, nikoli syntaktického charakteru, čili spoustu [CAS=4], spousta [CAS=1].

Ustrnulé tvary substantivního původu označující množství jako kapičku, kapku, trochu, trošku, trošičku, trošinku… Některé z nich jsou označkovány v současnosti jak jako příslovce (tag=Db.*), tak jako substantiva. Podobné (např. spoustu) pouze jako substantiva. Dosavadní desambiguace není zcela v pořádku. Návrh NovaMorf směřuje ke zjednodušení desambiguace, pro kterou neexistuje shoda, a k tomu, aby značkování slov různých slovních druhů, která plní funkci kvantifikátorů vyjadřujících neurčité kvantum, nezatěžovalo automatickou morfologickou analýzu problémy, které na rovinu morfologie striktně vzato nepatří. Tato slova budou značkována jako substantiva ([POS=N], například: moře, hafo, hromada, kupa, spousta, trocha, troška…), následující tvary jako příslovce ([POS=D]): kapičku, kapku, trochu, trošku, trošičku, trošinku… v případě, že jejich ustrnulé tvary rozvíjejí sloveso: dej mi <trochu> [POS=N] vody a já ti <trochu> [POS=D] pomůžu; Včera <trochu> [POS=D] pracoval).

Tvary rozvíjející substantivum se někdy skutečně chovají jako substantiva:

Zůstaly bez <trochy> [POS=N] vody, Nalej mi <trochu> [POS=N] vína,

jindy se deflektivizují: Některé úseky potoků v létě vysychají a tam, kde alespoň <trochu> [POS=D] vody zůstane, není dostatek kyslíku, takže ryby zpravidla uhynou. Krásné vlasy nejsou samozřejmostí a bez <trochu> [POS=D] námahy a pravidelné péče to prostě nepůjde…, takže fungují jako příslovce a musí se slovnědruhově desambiguovat. Tvary kapičku, kapku, trochu, trošku, trošičku, trošinku budou tedy mít v morfologickém slovníku dvě slovnědruhové interpretace ([POS=N] i [POS=D]). Na tato slova by měl být uživatel upozorněn a měl by být zveřejněn jejich seznam. Jedná se patrně o otevřenou množinu a slovník automatického morfologického analyzátoru zaznamená pouze výběr případů substantiv, která fungují jako kvantifikátory u jmen, ale ustrnulý tvar jména plní funkci měrového příslovečného doplnění sloves.

b. Lexém pár

Lexém pár pokládáme za substantivum [POS=N],

(i) je-li kvantifikovatelný/kvantifikovaný základní číslovkou: jeden <pár>, se dvěma <páry> hrdliček;

(ii) v užití s rozvíjejícím adjektivem nebo s adjektivále: manželský <pár>, pro lesbický <pár>, tančící <pár>, třetí <pár>, některý <pár>, žádný <pár>, ten <pár>(× těch <pár>!, kde je to příslovce);

(iii) jde-li zjevně o dvojici: Jak si <pár> kamsi vyjel inkognito., Zda se <páru> narodí miminko.

V ostatních případech, kdy se pár neskloňuje a je synonymní s číslovkou několik (Vzal s sebou <pár> konzerv., s <pár> lidmi), je pár příslovce [POS=D].

c. Lexémy procento, promile

Lexémy procento, promile založené na jinojazyčných číselných základech posuzujeme ve shodě s tradicí jako substantiva se [SUB=0], nikoli [SUB=C], protože nemají domácí základy číselných výrazů.

d. Lexémy jako tucet, mandel aj.

Lexémy jako tucet, mandel a jiné relikty historických způsobů počítání:

(i) nejrůznější nečíslovkové výrazy pro kvantum (jejich přehled viz Šimandl 2011 (dále KČG), s. 693–695: např. <hrnec> brambor, <lavina> útoků, další <litr> humoru);

(ii) přejatá ztvárnění číslic (myriáda, bis, ten), lexémy cizího původu vyjadřující kvantum: deka, deci…

e. Vysoké základní číslovky

Za substantiva nepokládáme vysoké základní číslovky milion, miliarda, bilion... atd., za které nevznikla domácí náhrada (srov. kapitola Číslovky # 08-04, § 2).

3 Značkování kategorie jmenného rodu (GEN)

U substantiv rozlišujeme tyto hodnoty jmenného rodu:

1. M: maskulinum životné (chlapci, potkanům, předseda)

2. F: femininum (ženě, duši, píseň, radostem)

3. I: maskulinum neživotné (audity, lesů, vlaky)

4. N: neutrum (hovězího, Jestřebí, městem, moři, spropitným, stavení).

Uvedené hodnoty jsou uspořádané a tvoří hierarchii, která je relevantní pro stanovení jmenného rodu syntaktických adjektiv morfologicky závislých na koordinaci substantiv podle mluvnických pravidel. Každý substantivní tvar má přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou (srov. Vondráček 2013); je-li morfologicky rodově homonymní mezi substantivy, má hodnot více. Uveďme nyní příklady substantiv homonymních v rodě (srov. Petkevič 2014). Každý z rodů je popsán zvláštním paradigmatem, typicky paradigmatem maskulina neživotného a feminina.

3.1 Homonymie/Kolísání substantiv v rodě

(srov. AGSČ, s. 310)

Řada substantiv je homonymních v rodě či kolísá v rodě; existují přitom velmi odlišné typy.

3.1.1 Substantiva s odlišnými rodovými paradigmaty

Tato substantiva patří k různým jmenným rodům, což se projevuje odlišnými rodovými paradigmaty. Lemmata tvarů těchto substantiv jsou vždy jednoduchá (nejsou vícenásobná). Existují přitom různé typy homonymií:

a. Homonymie maskulinum životné – femininum

Sem spadají např. lexémy:

choť, naivka, paprika, rada, sršeň, šmudla; cestující, okolojdoucí, přeživší… [GEN=M | GEN=F]

Substantiva tohoto typu mohou být maskulina životná i feminina, přičemž jejich tvary se většinou liší v závislosti na rodu (Gpl choťů / chotí), ale nemusí (Nsg choť GEN=M | GEN=F). Ve slovníku budou obě plná paradigmata pro GEN=M i GEN=F. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum životné:

<Choť> [GEN=M] jdoucí do divadla...

b. Homonymie maskulinum životné – maskulinum neživotné

Sem spadají např. lexémy:

analyzátor (analyzátoři vs. analyzátory), balík (balíci vs. balíky), civil, člen, manažer, prostředník, předek, smrad, velikán, veterán... [GEN=M | GEN=I] (srov. Petkevič 2014, s. 63).

Substantiva tohoto typu mohou být maskulina životná i maskulina neživotná (typicky vyjadřují odlišný význam), přičemž jejich tvary se mohou lišit v závislosti na rodu (Asg prostředníka / prostředník), ale nemusí (Nsg prostředník / prostředník [GEN=M | GEN=I] ). Ve slovníku budou obě plná paradigmata pro GEN=M i GEN=I. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum životné:

Byl tam <prostředník> [GEN=M].

c. Homonymie femininum – maskulinum neživotné

Sem spadají např. lexémy:

esej, hřídel, kredenc, kyčel, líc, rez, smeč, sršeň, svízel

a také toponyma:

Želiv (v Želivi [GEN=F] / Želivu [GEN=I]), podobně Aš, Bubeneč, Olomouc. [GEN=F | GEN=I]

Substantiva tohoto typu mohou být feminina i maskulina neživotná, přičemž jejich tvary se většinou liší v závislosti na rodu (Gpl hřídelí / hřídelí), ale nemusí (Nsg hřídel GEN=F | GEN=I). Ve slovníku budou obě plná paradigmata pro GEN=F i GEN=I. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum:

Četl jsem vynikající <esej> [GEN=F] Josefa Šimandla.

Do této skupiny patří i lexémy lišící se v základním tvaru, např. brambora GEN=F vs. brambor GEN=I. V tomto případě se bude nehomonymní tvar bramborem a bramborou značkovat takto:

lemma(bramborem) = brambor [GEN=I]

lemma(bramborou) = brambora [GEN=F]

Homonymní tvar brambor se bude značkovat takto:

(i) lemma(brambor) = brambor [NUM=S & GEN=I & (CAS=1 | CAS=4)]

(ii) lemma(brambor) = brambora [NUM=P & GEN=F & CAS=2]

A homonymní tvar brambory se bude značkovat takto:

(iii) lemma(brambory) = brambor [NUM=P & GEN=I & (CAS=1 | CAS=4 | CAS=5 | CAS=7)]

(iv) lemma(brambory) = brambora [[NUM=S & GEN=F & CAS=2] | [NUM=P & GEN=F & CAS=2 | CAS=4 | CAS=5]]

I v tomto případě je lemma vždy jednoduché. Nepovažujeme za vhodné, aby rodově jednoznačný tvar, např. bramborou, měl jednoduché lemma a rodově nejednoznačný tvar, např. brambory, měl lemma vícenásobné (např. {brambora, brambor}). V zájmu konzistence vyjadřujeme tedy rodovou nejednoznačnost obdobně jako u ostatních typů rodové homomymie v této podkapitole. Od výše uvedených typů a. a b. se tento typ ovšem liší: odlišný rod tu nevyjadřuje odlišný význam.

d. Homonymie femininum – neutrum

Do této skupiny spadá např. lexém:

káně

Substantiva tohoto typu mohou být feminina i neutra, přičemž jejich tvary se většinou liší v závislosti na rodu (Gsg káně / káňete), ale nemusí (Nsg káně GEN=F | GEN=N). Ve slovníku budou obě plná paradigmata pro GEN=F i GEN=N. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum:

Viděl na obloze poletující <káně> [GEN=F & NUM=P & CAS=4], nikoli [GEN=N & NUM=S & CAS=4].

e. Homonymie maskulinum neživotné – neutrum

Sem spadá např. lexém:

datum

Substantiva tohoto typu mohou být maskulina neživotná (datum, datumu, datumu, datum, datumu, datumem, datumy, datumů…) i neutra (datum, data, datu, datum… data, dat…). Tvary odlišných paradigmat se většinou liší v závislosti na rodu (Gsg datumu / data), ale nemusí (Nsg datum GEN=I | GEN=N). Ve slovníku budou obě plná paradigmata pro GEN=I i GEN=N. Homonymie se bude desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. maskulinum neživotné:

Viděl <datum> [GEN=I] v kalendáři.

Mimoto existuje ještě plurale tantum data [GEN=N] (s významem údaje, např. počítačová data).

3.1.2 Substantiva s výpůjčkami tvarů jiného rodu

Do této skupiny zařazujeme lexémy, jejichž základní tvar x je jistého rodu, zatímco některé tvary, jež jsou lemmatizovány tvarem x, jsou rodu jiného.

U substantiv vykazujících tyto rodové anomálie a zvláštnosti by bylo vhodné zavést kategorii pro tyto rodové anomálie/přechody/výpůjčky, jakési GEN2, aby uživatel měl k dispozici informaci o této zvláštnosti. Hodnota této kategorie by byla uniformně přiřazena každému tvaru lexému a znamenala by, že část paradigmatu je jiného rodu, než je základní rod lexému. Například u substantiva maskulina neživotného fakt by GEN2 obsahovala údaj o přechodu mezi maskulinem neživotným a neutrem: I → N, neboť některé tvary jsou neutra, např. fakta. Podobně např. maskulinum neživotné oblak s Npl neutra oblaka. Lexémy typu bacil, buřt…, mikrob…, šlofík… jsou maskulina neživotná, ale některé tvary jsou životné: Dsg/Lsg bacilovi, Asg bacila, buřta, Npl bacilovi… V tomto případě by kategorie GEN2 obsahovala hodnotu: I → M.

Níže podrobněji rozebíráme jednotlivé typy:

a. Životné tvary neživotných maskulin: typ panáka, buřta

(srov. AGSČ, s. 301; Najbrtová 2013; Šulc 2001)

Neživotné maskulinum panák má tvar Asg panáka (podobně bacila, buřta, čouda, dupáka, forda, frťana, hobla, hřiba, klouzka, kouda, kozáčka, majzla, mikroba, mobila, šlofíka, šluka, taxíka…). Tento tvar je tvarem životného maskulina [GEN=M & NUM=S & CAS=4]. Gsg má podobu panáku nebo panáka (vždy neživotné maskulinum [GEN=I]) [GEN=I & NUM=S & CAS=2]. Tyto podoby Gsg jsou rozlišeny flektivní mutací -a/-u.

Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je jiného rodu (vypůjčený z jiného rodu): GEN2: I → M.

b. Životné tvary neživotných maskulin: typ panáci/panáky

Neživotné maskulinum panák má tvar Npl, Vpl panáci / panáky (podobně bacili / bacily, choroši / choroše, klouzci / klouzky, koníčci / koníčky, kostlivci / kostlivce, kozáci / kozáky, křemenáči / křemenáče, ledoborci / ledoborce, maskoti / maskoty, mikrobi / mikroby, medvídci / medvídky, ryzci / ryzce, slanečci / slanečky, sledi / sledě, sněhuláci / sněhuláky, strašáci / strašáky, uzenáči / uzenáče, zavináči / zavináče). Tvar panáci je tvarem životného maskulina [GEN=M], tvar křemenáči je tvarem životného maskulina [GEN=M], zato tvar křemenáče je tvarem neživotného maskulina [GEN=I].

K tomuto typu patří i životné tvary Npl a Vpl neživotných maskulin: dnové [GEN=M] (podobně (zelení) hájové, hrobové, národové, jazykové).

Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → M.

c. Typ činitel, ukazatel

Substantivum typu činitel (AGSČ, s. 301) jakožto maskulinum neživotné může mít v Npl, Vpl (vypůjčený) životný tvar: činitelé.² Podobně ukazatel, ukazatelé.

Sem patří i neživotná substantiva užívaná životně: lexémy typu agent:

Líbily se mi ty <agenti> [GEN=M] a <pacienti> [GEN=M] v pojetí Funkčního generativního popisu.

Tvary těchto neživotných maskulin by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → M.

d. Neutrové tvary neživotných maskulin

Paradigmata fakt a faktum jsou ve slovnících uváděna zvlášť podle rodu. V plurálu se používá skloňování podle obou rodů, ovšem v singuláru se neutrové paradigma faktum užívá jen velmi výjimečně. Proto řadíme singulárové tvary Nsg faktum, Gsg fakta pod zvláštní lemma faktum s [GEN=N], zatímco plurálové tvary neutra fakta, fakt řadíme k lemmatu fakt majícímu [GEN=I] (ostatní homonymní tvary faktu, faktem, faktům, faktech, fakty budou mít [GEN=I]).

Všechny tvary paradigmat fakt a faktum by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN: I → N.

Lexém oblak je v singuláru pouze maskulinum neživotné, v plurálu jsou vedle tvarů maskulina neživotného (Npl, Apl, Vpl oblaky, Gpl oblaků, Lpl oblacích) i tvary neutra (Npl, Apl, Vpl oblaka, Gpl oblak, Lpl oblakách); týmž tvarem pro oba rody je Dpl oblakům a Ipl oblaky.

Všechny tvary paradigmat oblak by měly mít informaci o tom, že nějaký jejich tvar je (vypůjčený z) jiného rodu: GEN2: I → N.

Lexém typu kníže (dále markrabě…) je v singuláru maskulinum životné (český kníže) i neutrum (české kníže), a patří tedy v singuláru k typu 3.1.1.e výše. V plurálu jsou všechny tvary neutrové: knížata, knížat…

Všechny tvary paradigmat kníže by měly mít informaci o tom, že v singuláru jsou dva variantní rody, v plurálu pouze neutrum: GEN2: I → N; lze tedy říci, že maskulinum životné v singuláru si vypůjčilo neutrum v plurálu.

Poznámka

Typ 3.1.1 se liší od typu 3.1.2 tím, že v základním tvaru, tj. Nsg, je substantivní tvar homonymní a rozvíjející syntaktické adjektivum v některých případech také, srov.:

velký[GEN=M] mikrob[GEN=M]; velký[GEN=I] mikrob[GEN=I];

velký[GEN=M] sršeň[GEN=M] vs. velká[GEN=F] sršeň[GEN=F]

velká[GEN=F] brambora[GEN=F] vs. velký[GEN=I] brambor[GEN=I

3.1.3 Pomnožná substantiva-toponyma

a. Mísení tvarů maskulina neživotného s femininními

U pomnožných toponym dochází často k mísení tvarů maskulina neživotného s femininními, a znejasňuje se tak jmenný rod lexému. V tomto případě navrhujeme pro toponymum pouze jediný rod podle Internetové jazykové příručky (http://prirucka.ujc.cas.cz):³

maskulina neživotná: Dolomity, Hradčany, Chocerady, Klatovy...

feminina: Chrastiny, Lurdy...

Variantnost tvarů se popisuje pouze flektivní mutací, a to i tehdy, je-li tvar typický pro jiný rod, než je rod lexému: např. lexém Dolomity je maskulinum neživotné, přičemž kupř. Gpl má dvě podoby: Dolomitů (tvar mask. neživ.) i Dolomit (tvar charakteristický pro feminina). Kongruentní tvary adjektiv se v rodě neliší (krásných Dolomit/Dolomitů), a proto budou všechny tvary, tj. krásných, Dolomit, Dolomitů [GEN=I]. Tvary Gpl Dolomit a Dolomitů se ve značkování liší jen flektivní mutací.

b. Pomnožná vs. singulárová toponyma

Některá toponyma se vyskytují jako

(i) pomnožná feminina / maskulina neživotná nebo

(ii) feminina v singuláru.

V tomto případě bude ve slovníku plné paradigma jak pro typ (i), tak pro typ (ii). Rodově homonymní tvary, tedy tvary v průniku obou paradigmat, se budou desambiguovat v závislosti na kontextu. Nebude-li to možné, zvolí se rod v hierarchii výše, tj. femininum a singulár:

Domažlice (FemPomn), Sušice (Fem i FemPomn)

Hostivice (Fem)

U pomnožných substantiv je vhodné zachycovat tuto anomálii (pomnožnost) zvláštní kategorií NUM2, viz § 4.1.3.

3.1.4 Typ dni/dny, léta, lidé

a. Typ dni/y

Tvary dni/y – tj. Npl, Apl, Vpl lexému den – jsou tvary neživotného maskulina [GEN=M & NUM=P & CAS=[145]]. Varianta -i/-y je rozlišena flektivní mutací -i / -y.

b. Typ léta

Předpokládáme existenci pomnožného lexému [GEN=I & NUM=P] (a tedy i příslušného lemmatu) léta jako neutrum plurálu. Oproti dosavadnímu značkování v korpusech nepředpokládáme morfologickou souvislost s lexémem rok v plurálu. Takže:

lemma(léta) = léta

c. Typ lidé

Lexém lidé chápeme jako pomnožné maskulinum životné [GEN=M & NUM=P]. Oproti dosavadnímu značkování nepředpokládáme morfologickou souvislost s lexémem člověk v plurálu. Takže:

lemma(lidé) = lidé

3.1.5 Typ děti, oči, uši

Singulárové tvary dítě, oko, ucho jsou neutra [GEN=N & NUM=S], plurálové tvary děti, oči, uši jsou feminina [GEN=F & NUM=P]; plurálové tvary ucha / oka (Gpl uch, ok) jsou neutra [GEN=N & NUM=P]. Singulárové i plurálové tvary mají totéž singulárové lemma:

lemma(dětí) = lemma(dítěti) = dítě

lemma(očím) = lemma(okem) = oko

lemma(uším) = lemma(uchu) = ucho

3.1.6 Jmenný rod koordinované struktury

Na základě hierarchie uvedené v § 3 se určuje:

(i) jmenný rod minulého příčestí a trpného příčestí, je-li jeho podmětem koordinovaná struktura,

(ii) rod syntaktického adjektiva, které rozvíjí koordinovanou strukturu.

Příklady:

Traktor/Traktory a cihla/cihly <byly>[GEN=F] <dovezeny>[GEN=F].

Traktor/Traktory a mládě/mláďata <byly>[GEN=I] <dovezeny>[GEN=I].

Žena/Ženy a mládě/mláďata <odešly>[GEN=F].

Tele a sele se <pásly>[GEN=F].

Kamení, lísky a keře <rostly>[GEN=F] na zahradě.

Muž a stroj <byl>[GEN=M] jedna a táž osoba.

Traktor/Traktory a cihla/cihly, <které>[GEN=F] jsem viděl...

Traktor/Traktory a mládě/mláďata, <které>[GEN=I] stojí před námi...

Žena/Ženy a mládě/mláďata, <které>[GEN=F] jsou zde....

Tele a sele, <které>[GEN=F] se pasou před námi...

Kamení, lísky a keře, <které>[GEN=F] vidíme před sebou...

Muž a stroj, <které>[GEN=M] jsem zahlédl...

Předchází-li příčestí před podmětem tvořeným koordinovanou strukturou, pak je-li možná shoda s prvním členem, volíme rod prvního členu:

<Byly>[GEN=F] tam kozy a traktory.

<Byly>[GEN=I] tam traktory a kozy.

4 Značkování kategorie čísla (NUM)

U substantiv rozlišujeme tyto hodnoty čísla:

S – singulár (poplatku, kniha)

P – plurál (pánové, ženám)

Každý substantivní tvar má v morfologickém slovníku přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou. Je-li tvar v čísle morfologicky homonymní, má hodnot více. Například:

muže:

lemma(muže) = muž & [NUM=S & CAS=[24]]

lemma(muže) = muž & [NUM=P & [CAS=4]]

pásem:

lemma(pásem) = pás & [NUM=S & [CAS=7]]

lemma(pásem) = pásmo & [NUM=P & [CAS=2]]

4.1 Zvláštní případy

4.1.1 Singularia a pluralia tantum

a. Singularia

Singularia, tj. jména látková, hromadná, abstrakta a unika, jsou v úzu typicky jen v singuláru (brav, drůbež, listí, nádobí, rostlinstvo, skot, větvoví, srov. VAGSČ, s. 48nn.), v morfologickém slovníku budou však i tvary plurálové; půjde o přegenerování (je to rozumné vzhledem ke kreativitě autorů textů). Plurálové podoby se v drtivé většině odstraní desambiguací, která ovšem – zvláště u typu listí, nádobí, větvoví – může být obtížná.

b. Pluralia tantum

Pluralia tantum (dveře, dvířka, jmeniny, kamna, spalničky, stanovy, trenýrky, zarděnky, srov. VAGSČ, s. 294nn.) mají ve svém paradigmatu jen plurálové tvary, v morfologickém slovníku tedy nebudou umělé podoby singulárové.

Příklady:

lemma(dveřím) = dveře

lemma(kamnech) = kamna

lemma(červánků) = červánky

lemma(moldánky) = moldánky

U lexémů typu dveře, kamna je situace jasná: singulárové tvary neexistují. Jinak ovšem existuje šedá zóna mezi pluralii tantum a lexémy s převahou plurálových tvarů (srov. Michalec a kol. 2016). Hranici bude často nesnadné určit, neboť např. i u zdánlivě jasných pluralií tantum (např. kalhoty) existují případy typu dámská kalhota. Je nutné se také vypořádat s homonymií typu maskáč / maskáče, šusťák / šusťáky, kde jde o různé lexémy, jejichž odlišnost se projevuje v čísle.

Pokud výrazně převažují plurálové formy, bude lemma plurálové. Minoritní singulárové formy budou mít plurálové lemma, např.

lemma(červánek) = červánky, lemma(kalhota) = kalhoty.

U pluralií tantum je vhodné zavést kategorii NUM2, jejíž hodnota bude upozorňovat na to, že daný tvar (ať už je sám v singuláru nebo v plurálu) je lemmatizován tvarem Npl, nikoli Nsg, což je zvláštnost

4.1.2 Duál

a. Základní vymezení

Duál substantivních tvarů očima, ušima, rukama, nohama (v plurálu vesměs feminina: [POS=N & SUB=0 & GEN=F & NUM=P & CAS=7]) a syntaktických adjektiv, jež se s nimi shodují nebo s nimi koreferují (<těma jejíma krásnýma očima>; ruce, <kterýma> jsem doplaval ke břehu) chápeme nikoli jako zvláštní hodnotu čísla nebo zvláštní kategorii, nýbrž jako duálovou flektivní mutaci (FMU):

pro opozici nohami / nohama (duál) / nohama (ob.čes.): FMU -ami / -ama (duál) / -ama (ob.čes.)

pro opozici očima (duál) / očima (ob.čes.): FMU -ima (duál) / -ima (ob.čes.)⁴

pro opozici rukama (duál) / rukama (ob.čes.): FMU -ama (duál) / -ama (ob.čes.)

pro opozici ušima (duál) / ušima (ob.čes.): FMU -ima (duál) / -ima (ob.čes.)

pro opozici syntaktických adjektiv, např. krásnými / krásnýma (duál) / krásnýma (ob.čes.): FMU -ami / -ama (duál) / -ama (ob.čes.).

Při desambiguaci tvarů končících na -ama se dává u výše uvedených čtyř substantiv a s nimi kongruentních syntaktických adjektiv přednost interpretaci duálové před obecněčeskou. U tvarů očima, rukama, ušima tak zůstane obecněčeská interpretace pouze potenciální, jedině u spojení typu pěti nohama bude mít nohama FMU -ama ob.čes.

U jiných substantiv duálová interpretace nebude, srov. s krásnýma (FMU ob.čes.) ženskýma (FMU -ama ob.čes.)

b. Lemmatizace

Lemmatizace je jasná:

lemma(nohami) = lemma(nohama) = noha

Podobně syntaktická adjektiva jejíma (POS=P), krásnýma (POS=A)…:

lemma(jejími) = lemma(jejíma) = její

lemma(krásnými) = lemma(krásnýma) = krásný

c. Poznámky

Třebaže tvary Gpl a Lpl kolenou, nohou, ramenou, rukou jsou duálové, neznačkují se duálovou mutací, neboť nevynucují duálovou shodu. Odlišnost tvarů Gpl: kolenou vs. kolen, nohou vs. noh, ramenou vs. ramen, rukou vs. ruk se vystihne zvláštní flektivní mutací. Podobně se zvláštní flektivní mutací vystihne i odlišnost tvarů Lpl: kolenou vs. kolenech vs. kolenách, nohou vs. nohách, ramenou vs. ramenech, rukou vs. rukách (viz Tabulka 4 níže).

Nutno však mít na paměti, že rozdíl např. mezi očí vs. ok a uší vs. uch je dán především rodem (např. uší [GEN=F], uch [GEN=N]).

Tvar prsama je pouze obecněčeský, nikoli duálový. Bude značkován jako flektivní mutace FMU -y/-ama (prsy / prsama).

4.1.3 Kolísání u toponym: typ Kaplice

(AGSČ, s. 356)

Některé z názvů měst a obcí mají pouze tvary singulárové, jiné pouze plurálové a některá kolísají mezi singulárem a plurálem. Názvy pouze plurálové budou mít pouze plurálové paradigma, ostatní paradigma plné, tj. singulárové i plurálové. Například:

Kaplice: do Kaplice vs. do Kaplic, v Kaplici vs. v Kaplicích.

Viz též § 3.1.3.

5 Značkování kategorie pádu (CAS)

U substantiv rozlišujeme tyto hodnoty pádu:

1 – nominativ (chlapec)

2 – genitiv (hradů)

3 – dativ (chlapcům, velkému)

4 – akuzativ (dívku)

5 – vokativ (člověče!)

6 – lokál (řešeních, nádherném)

7 – instrumentál (stavbami, některými)

Každý substantivní tvar má přiřazenu nejméně jednu z uvedených hodnot, typicky jedinou; je-li tvar morfologicky homonymní mezi substantivy v pádě, má hodnot více.

5.1 Nesklonná substantiva

Nesklonná substantiva chápeme jako ostatní substantiva: v morfologickém slovníku bude plné paradigma s příslušnými hodnotami kombinace rodu, čísla a pádu. V textu se budou hodnoty jednoznačně desambiguovat.

Příklady (srov. AGSČ, s. 299; VAGSČ, s. 375):

alibi [GEN=N], aranžmá [GEN=N], atašé [GEN=N], enfant (ve spojení hokejový <enfant> terrible) [GEN=M], dementi⁵ [GEN=N], enfant (ve spojení vyhlášená enfant terrible) [GEN=F], enfant (ve spojení svobodné <enfant> terrible) [GEN=N], finále [GEN=N], chargé (ve spojení íránský <chargé> d’affaires) [GEN=M], chargé (ve spojení česká <chargé> d’affaires) [GEN=F], image [GEN=[FIN]], interview [GEN=N], kari [GEN=N], khaki (barva) [GEN=[FIN]], komuniké [GEN=N], negližé [GEN=N], ragby [GEN=N], ragú [GEN=N], tabu [GEN=N], whisky [GEN=F].

5.2 Kolísání mezi deklinačními vzory

Některá synonymní substantiva kolísají mezi různými deklinačními vzory v rámci téhož jmenného rodu: berla / berle, studna / studně… Tento případ řešíme různými lemmaty (berla vs. berle) a jednotlivé tvary vztahujeme při lemmatizaci k nim (lemma(berlám) = berla, lemma(berlím) = berle).

5.3 Inherentní homonymie a její desambiguace

Pro případy inherentní homonymie (nikoli případy pouze obtížně desambiguovatelné) se nevyužívá staršího konceptu sdružené hodnoty (proměnné) a tyto případy se řeší:

(i) buď disjunkcí, tj. že i po desambiguaci bude ponecháno víc hodnot,

(ii) nebo se při desambiguaci rozhodne ve prospěch frekventovanějšího případu.

Preferujeme řešení (ii).

Existují tyto typy inherentní homonymie (přehled patrně není vyčerpávající):

a. mezi genitivem a akuzativem:

tento případ nastává u sloves a deverbativních adjektiv s dvojí rekcí (genitiv a akuzativ) pro vyjádření přímého předmětu. Např. ve větě Užívá <stavení>., kde stavení lze interpretovat jako Gsg (užívá /užívající hezkého <stavení> [CAS=2]), nebo jako Asg (užívá/užívající hezké <stavení> [CAS=4]);

b. mezi nominativem a instrumentálem:

ve větě Při požáru byli <muži>., kde muži lze interpretovat jako Npl (Při požáru byli praví <muži> [CAS=1].), nebo jako Ipl (Při požáru byli pravými <muži> [CAS=7].);

c. mezi nominativem a akuzativem:

ve větě Viděl město <Rychnov>., kde Rychnov je v Asg, nebo v Nsg (nominativ jmenovací);

d. mezi nominativem a lokálem:

ve větě Hovořil o městečku <Lštění>., kde Lštění je v Lsg, nebo v Nsg (nominativ jmenovací);

e. mezi genitivem a dativem:

ve větě Byl blíž <řešení> úkolu., kde řešení je v Gsg, nebo v Dsg. Tento případ nastává u sloves, příp. deverbativních adjektiv s dvojí rekcí (genitiv a dativ).

6 Značkování dalších kategorií substantiv – kategorie zkratky, negace a globální a flektivní mutace

6.1 Značkování kategorie zkratky (ABR)

U substantivní zkratky ABR rozlišujeme tyto hodnoty:

+: tvar je substantivní zkratka [POS=N & ABR=+]

-: nedefinováno, tj. tvar není substantivní zkratka [POS=N & ABR=-].

Substantivní zkratkou rozumíme jeden slovní tvar, který zastupuje jednoslovné substantivum nebo víceslovnou jmennou skupinu, např. Kr. (Kristus), l. (letopočet), r. (rok), ODS (Občanská demokratická strana), SSSR (Svaz sovětských socialistických republik), StB (Státní bezpečnost), č. (číslo), H2SO4 (kyselina sírová). Například č. je zkratka substantivního lexému číslo, a jsou pro ni tedy relevantní všechny kategorie, jež jsou relevantní pro ostatní podstatná jména: rod (GEN), číslo (NUM), pád (CAS), negace (NEG). U substantivní zkratky, která zastupuje jmennou frázi (SSSR, ODS apod.), se stanoví rod, číslo a pád podle toho, co zkratka zkracuje, případně jak se používá.

Lemmatem zkratky je tvar sám; koncová tečka je součástí tvaru, ale není součástí lemmatu, tedy:

lemma(č.) = č

Zkratková substantiva nejsou zkratkami, mají [POS=N & ABR=-], například LaTeX, Svazarm.

Původní zkratka se může skloňovat (srov. AGSČ, s. 300): ODĚ (lemma(ODĚ)=ODA) [POS=N & ABR=+ & GEN=F & NUM=S & CAS=3], FIFĚ (lemma(FIFĚ)=FIFA), NATEM (lemma(NATEM)=NATO) [POS=N & ABR=+ & GEN=N & NUM=S & CAS=7]. Zkratky se v úzu píší dost různorodě, např. Fifě, fifě, Natem… Je náležité takové tvary lemmatizovat podle spisovného úzu (FIFA, NATO…) a nestandardní pravopisné podoby odlišit od standardních vhodnými globálními mutacemi.

6.2 Značkování kategorie negace (NEG)

U substantiv rozlišujeme tyto hodnoty negace:

N: pro záporné tvary substantiv

A: pro ostatní substantivní tvary.

Každý substantivní tvar bude mít přiřazenu právě jednu z těchto hodnot. Přitom platí tyto zásady:

(i) Všechny substantivní tvary začínající negativním prefixem ne-, který lze v širokém smyslu interpretovat jako záporný prefix ne-, jsou lemmatizovány se záporkou ne-, tedy:

lemma(neplatič) = neplatič

lemma(nedostatek) = nedostatek

(ii) Substantivní tvary, které mají [SUB=[C0]] a začínají řetězcem ne-, mají [NEG=N] až na negativa tantum (viz níže), například:

lemma(nehlava) = nehlava [NEG=N]

lemma(nesvoboda) = nesvoboda [NEG=N]

lemma(neúroda) = neúroda [NEG=N]

lemma(nesmlouvavosti) = nesmlouvavost [NEG=N]

Tato substantiva bude možno vyhledat pomocí dotazu [POS=N & SUB!=V & NEG=N]

Uvedené pravidlo se však netýká substantiv negativ tantum, jejichž seznam (obsahuje jen nejfrekventovanější lexémy) je v příloze (Substantiva_Negativa_Tantum.docx). Do něho jsou zařazena substantiva s vydělitelným negativním prefixem, přičemž tato substantiva mají [NEG=A. Do seznamu patří např. substantiva jako neděle, nemoc, neřest, neduh, nehoráznost, nesmlouvavost, nestvůra, netečnost, nezbeda, nezbytnost, nevinnost... Tento seznam bude k dispozici uživatelům, aby bylo patrné, že jde o napadnutelné rozhodnutí autorů slovníku.

Poznámka. Substantivum nemoc není opakem moci, jde tu o dvě lemmata, moc a nemoc, obě s hodnotou [NEG=A]. Substantivum nepřítel naopak chápeme jako opak slova přítel, a není tedy ve zmíněném seznamu.

(iii) Substantiva, která mají [SUB=V], budou rozgenerována na rovině slovníku a budou mít u tvarů s prefixem ne- [NEG=N] (nesnížení), jinak [NEG=A] (snížení).

6.3 Globální mutace (GMU)

Globální mutace (jsou zavedeny v práci Hlaváčová 2009, s. 35nn.) popisují neflektivní varianty substantivních tvarů, které mají stejné lemma a stejnou značku; týkají se celých paradigmat, nejen některých tvarů. Zachycují variantnost jinde než ve flektivních pádových koncovkách. Substantivní tvar může být popsán několika globálními mutacemi zároveň.

6.3.1 Typy globálních mutací u substantiv^[6]

V Tabulce 3 jsou uvedeny typické globální mutace (tabulka převzata z Hlaváčová 2009, s. 35nn. a nepatrně rozšířena).

Tabulka 3. Typy globálních mutací u substantiv

Typ

Příklady

Hodnoty GMU

o – vo

okno – vokno

oko – voko

0 – v

ý – ej

mýdlo – mejdlo

výsledek – vejsledek

0 – j

z – s

klauzule – klausule

izomorfismus – isomorfizmus

komunizmus – komunismus

izolovaný – isolovaný

impulz – impuls

filozofie – filosofie

z – s

é – e

léze – lese

é – e

t – th

tema – thema

teologie – theologie

0 – h

é – í

kolébka – kolíbka

chlév – chlív

e – i

é – ý

okénko – okýnko

e – y

á – e

originální – originelní

eventuální – eventuelní

a – e

á – a

é – e

ó – o

ý – y

í – i

ů – u

ú – u

Abrahám – Abraham

brankář – brankař

acetylén – acetylen

salón – salon

Platón – Platon

apetýt – apetyt

alexandrín – alexandrin

přezůvky – přezuvky

blúza – bluza

Plútarchos – Plutarchos

d – k

ú – ů

búra – bůra

ú – ů

u – ú – ů

čurat – čúrat – čůrat

u – ú – ů

s – š

t – ť

n – ň

d – ď

e – ě

z – ž

student – študent

klestění – kleštění

vlaštovka – vlašťťovka

šnůra – šňůra

dolík – ďolík

Bardejov – Bardějov

zbrzďování – zbržďování

t – m

ú – ou

múka – mouka

strakapúd – strakapoud^[7]

^{ú – ou}

^{ou – u}

hrouda – hruda

moucha – mucha

ou – u

ů – o

fůrka – forka

hůrka – horka

kůr – kor

u – o

jiné

Afganistan – Afghánistán

0 – 1

Poznámka. Je jasné, že do morfologického slovníku se nebudou násilně doplňovat neexistující slova: například slejvák není mutací lexému slívák (pokrm ze švestek), oba lexémy lišící se významem budou ve slovníku zachyceny jako samostatná hesla.

Poznámka. Počítáme i s dalšími druhy globálních mutací popisujících mluvu v mluvených korpusech. Například pro tvar Gsg lexému týden existují tyto v korpusech doložené tvary: týdne, týdna, týdnu, tejdne, tejdnu, tydnu, tydna, tydne. Varianty kořene budou v tomto případě zachyceny jako globální mutace: ý-ej-y. Pádové alomorfy budou vystiženy jako mutace flektivní: e-a-u.

6.4 Flektivní mutace (FMU)

Flektivní varianty substantivních tvarů, které mají stejné lemma a stejnou značku, se popisují flektivními mutacemi, jež se týkají – na rozdíl od mutací globálních – jen některých tvarů, nikoli celých paradigmat. Zachycují odlišné morfy u tvarů majících stejnou hodnotu jmenného rodu, čísla a pádu.

6.4.1 Typy flektivních mutací

Podle Hlaváčové 2009 (s. 47nn.) dochází k flektivním mutacím substantiv u slov, jejichž skloňování kolísá mezi dvěma vzory téhož jmenného rodu, např. pán, muž; hrad, les, stroj; píseň, kost. V následujícím přehledu jsou uvedeny typické flektivní mutace u substantiv. Výčet mutací v tabulkách není samozřejmě vyčerpávající, uvádíme jen ty hlavní. Mutace se budou postupně doplňovat při rozšiřování slovníku.

Tabulka 4. Typické flektivní mutace koncových morfů u substantiv

Typ

Příklady

Hodnoty FMU

a – e

chuďasa – chuďase

Arbesa – Arbese

a – e

a – eho

Goetha – Goetheho

Heina – Heineho

a – eho

a – ea

Huma – Humea

Stona – Stonea

a – ea

a – use

Krameria – Krameriuse

a – use

u – ovi

pánu – pánovi

u – ovi

i – ovi

muži – mužovi

i – ovi

i – u – ovi

manželi – manželu – manželovi

i – u – ovi

ovi – emu

Goethovi – Goethemu

Rilkovi – Rilkemu

ovi – emu

ovi – em

Goethovi – Goethem

Rilkovi – Rilkem

ovi – em

i – ové

páni – pánové

muži – mužové

soudci – soudcové

orli – orlové

i – ové

é – ové

manželé – manželové

é – ové

e – ové

rodiče – rodičové

e – ové

é – i

asketé – asketi

občané – občani

policisté – policisti

é – i

í – i

kněží – knězi

í – i

0 – ů

obyvatel – obyvatelů

Dolomit – Dolomitů

0 – ů

ů – í

bratrů – bratří

bratrům – bratřím

hostů – hostí

hostům – hostím

knězů – kněží

knězům – kněžím

koňů – koní

koňům – koním

Budějovicím – Budějovicům

Velikonocům – Velikonocím

ů – í

0 – us

Krameriovi – Krameriusovi

Krameriem – Krameriusem

Krameriovi – Krameriusovi

Krameriovy – Krameriusovy

Krameriových – Krameriusových

Krameriovým – Krameriusovým

Krameriovými – Krameriusovými

cirku – cirkusu

glóbu – glóbusu

glóbem – glóbusem

cirkem – cirkusem

cirky – cirkusy

glóby – glóbusy

cirků – cirkusů

glóbů – glóbusů

cirkům – cirkusům

glóbům – glóbusům

glóbech – glóbusech

0 – us

y – ama

pány – pánama

hrady – hradama

městy – městama

y – ama

i – ema

muži – mužema

i – ema

i – ími

knězi – kněžími

i – ími

a – u

kalicha – kalichu

Norimberka – Norimberku

zákona – zákonu

a – u

e – u

dole – dolu

mole – molu

plevele – plevelu

stříbře – stříbru

Berlíně – Berlínu

hradě – hradu

koncertě – koncertu

městě – městu

slově – slovu

e – u

a – e – u

popela – popele – popelu

a – e – u

u – i

plamenu – plameni

u – i

i – u

dni – dnu

i – u

i – y

dni – dny

i – y

y – e

rubly – ruble

y – e

a – y

oblaka – oblaky

a – y

ů – í

dnů – dní

ů – í

ům – ám

kalhotům – kalhotám

džínům – džínám

ům – ám

ích – ách

hoších – hochách

domcích – domkách

klenácích – klenákách

schůdcích – schůdkách

teplácích – teplákách

tělíscích – tělískách

ích – ách

ích – ech

hotelích – hotelech

kostelích – kostelech

kněžích – knězech

Plasích – Plasech

videích – videech

ích – ech

ách – usech

cirkách – cirkusech

ách – usech

ách – ech

kalhotách – kalhotech

džínách – džínech

varhanách – varhanech

ách – ech

0 – ch

mluvčí – mluvčích

rukojmí – rukojmích

0 – ch

ý – ej

hajný – hajnej

hajných – hajnejch

hajným – hajnejm

hajnými – hajnejma

ý – ej

é – ý

hajného – hajnýho

hajné – hajný

pokojské – pokojský

é – ý

í – ý

hajní – hajný

í – ý

i – a

hajnými – hajnejma

mluvčími – mluvčíma

ženami – ženama

i – a

0 – a

Šerých – Šerýcha

0 – a

0 – u – ovi

Šerých – Šerýchu – Šerýchovi

0 – u – ovi

0 – em

Šerých – Šerýchem

0 – em

0 – ovi

Šerých – Šerýchovi

0 – ovi

0 – ových

Šerých – Šerýchových

0 – ových

0 – y – ovy

Šerých – Šerýchy – Šerýchovy

0 – y – ovy

0 – y – ovými

Šerých – Šerýchy – Šerýchovými

0 – y – ovými

0 – e

báj – báje

kuchyň – kuchyně

0 – e

i – e

oceli – ocele

sóji – sóje

huti – hutě

lodi – lodě

rodiči – rodiče

i – e

i - ě

čtvrti – čtvrtě

i - ě

je – y

ideje – idey

je – y

i – y

Nicaragui – Nicaraguy

i – y

ou – jí

ideou – idejí

ou – jí

0 – í

ambic – ambicí

definic – definicí

expedic – expedicí

jeskyň – jeskyní

přítelkyň – přítelkyní

hus – husí

slz – slzí

0 – í

ň – ní

jeskyň – jeskyní

přítelkyň – přítelkyní

ň – ní

0 – ů

Kravař – Kravařů

0 – ů

em – ím

čelistem – čelistím

nocem – nocím

pěstem – pěstím

em – ím

ám – ům

varhanám – varhanům

ám – ům

jím – ám

idejím – ideám

jím – ám

ech – ích

čelistech – čelistích

pastech – pastích

pěstech – pěstích

ech – ích

jích – ách

idejích – ideách

jích – ách

ami – ama

ženami – ženama

ami – ama

mi – ěma – ima – ma

kostmi – kostěma – kostima – kostma

mi – ěma – ima – ma

y – ami – ama

varhany – varhanami – varhanama

y – ami – ama

jemi – ami

idejemi – ideami

jemi – ami

ě – eno

břímě – břemeno

sémě – semeno

ě – eno

é – e

sémě – semeno

é – e

í – e

břímě – břemeno

í – e

0 – u

Tübingen – Tübingenu

0 – u

0 – um

datu – datumu

datem – datumem

datům – datumům

0 – um

a – e

břemena – břemene

písmena – písmene

ramena – ramene

zájmena – zájmene

a – e

0 – ho

hovězí – hovězího

Jestřebí – Jestřebího

Zubří – Zubřího

0 – ho

u – i

písmenu – písmeni

ramenu – rameni

u – i

i – ě – u

rameni – rameně – ramenu

i – ě – u

0 – mu

hovězí – hovězímu

Jestřebí – Jestřebímu

0 – mu

0 – m

hovězí – hovězím

Jestřebí – Jestřebím

0 – m

0 – em

Tübingen – Tübingenem

0 – em

0 – ou

kolen – kolenou

0 – ou

ů – á

kolenům – kolenám

ů – á

ů – í

studiům – studiím

videům – videím

ů – í

ou – ech

ramenou – ramenech

ou – ech

ech – ou – ách

kolenech – kolenou – kolenách

ech – ou – ách

ům – ím

studiům – studiím

videům – videím

ům – ím

Tabulka 5. Typické flektivní mutace kořenových morfů u substantiv

Typ

Příklady

Hodnoty FMU

í – i

žílou – žilou

líp – lip

í – i

í – ě

dírou – děrou

í – ě

u – ou

smluv – smlouv

tuh – touh

u – ou

á – a

skála – skal

skálám – skalám

kráva – krav

krávám – kravám

á – a

o – a

století – staletí

o – a

Poznámka. Počítáme i s dalšími druhy flektivních i globálních mutací popisujících mluvu v mluvených korpusech. Například pro tvar Gsg lexému týden existují tyto v korpusech doložené tvary: týdne, týdna, týdnu, tejdne, tejdnu, tydnu, tydna, tydne. K flektivním mutacím se v tomto případě počítají jenom alomorfy e-a-u; ostatní varianty budou vystiženy jako globální mutace: ý-ej-y. Tvar tedy může být v některých případech popsán kombinací obou typů mutací, např. tejdnu. Uživatel se k němu může buď prostřednictvím mutací, tedy komplikovaným způsobem, nebo může zadat prostě lemma týden a po obdržení různých tvarů pracovat přímo se získaným tvarem.

7 Lemmatizace substantiv

Lemmatizace substantiv byla zčásti již probrána výše u jednotlivých kategorií a jejich hodnot. Zde shrnujeme její obecné zásady a popisujeme zvláštní případy.

7.1 Jednoduchá a vícenásobná substantivní lemmata

Rozlišujeme lemmata jednoduchá a vícenásobná. Vícenásobná lemmata vystihují variantní (dubletní/tripletní…) podoby substantivního lexému, které mají jinak naprosto stejné morfologické vlastnosti, tudíž i stejnou značku až na globální mutace, které právě vystihují příslušnou odlišnost. Je-li substantivní tvar lemmatizován vícenásobným lemmatem, je vždy rovněž popsán globální či flektivní mutací (viz kapitolu Lemmatizace # 04, § 2.3), obráceně to platit nemusí.

Příklady:

lemma(balkonům) = lemma(balkóny) = {balkon, balkón}

lemma(displayem) = lemma(displeji) = {display, displej}

lemma(chlévu) = lemma(chlíva) = {chlév, chlív}

lemma(intenzivnímu) = lemma(intenzívního) = lemma(intensivní) = {intenzivní, intenzívní, intensivní}

lemma(Platona) = lemma(Platónovi) = {Platon, Platón}

lemma(protežuji) = lemma(protěžuješ) = {protežovat, protěžovat⁸}

lemma(přezůvkami) = lemma(přezuvkou) = {přezůvka, přezuvka}

lemma(vlaštovkou) = lemma(vlašťovky) = {vlaštovka, vlašťovka}

7.2 Lemma úplného paradigmatu

Lemmatem substantivního tvaru náležícího – což je typický případ – k úplnému (nedefektnímu) paradigmatu je podoba Nsg, například:

lemma(zácloně) = záclona

lemma(moři) = moře

lemma(vyhnáními) = vyhnání

Lemmatem substantivního tvaru náležícího k úplnému (nedefektnímu) paradigmatu, přičemž lexém se vyskytuje převážně v plurálu, je rovněž podoba Nsg, například:

lemma(rodičům) = rodič

7.3 Lemma substantiva plurale tantum

Lemmatem substantivního tvaru náležícího k lexému typu plurale tantum s plným plurálovým paradigmatem je podoba Npl, například:

lemma(nůžkami) = nůžky

lemma(stanov) = stanovy

lemma(houslím) = housle

7.4 Záporný prefix

Lemmatem tvaru se záporným prefixem ne- je tvar včetně tohoto prefixu:

lemma(nedostatkem) = nedostatek [NEG=[AN]]

lemma(nehoráznosti) = nehoráznost [NEG=A]

lemma(nelibosti) = nelibost [NEG=A]

lemma(nemístnostem) = nemístnost [NEG=A]

lemma(nestoudností) = nestoudnost [NEG=A]

lemma(nevypracování) = nevypracování [NEG=N]

7.5 Defektní paradigma

Patří-li tvar k defektnímu paradigmatu (například existuje pouze jediný tvar) a je-li součástí idiomu, nebude v morfologickém slovníku rekonstruováno celé paradigma. Lemmatem takového tvaru bude tvar sám:

lemma(bycha) = bycha [POS=N]

lemma(nepaměti) = nepaměti [POS=N] (předložková skupina: od nepaměti)

lemma(holičkách) = holičkách [POS=N] (předložková skupina: na holičkách)

7.6 Rodinná jména

Jde o typ (manželé) Dvořákovi, Máchovi, Bensonovi, Novotní, Novotných, Tachecí, Petrů, Bezákovic.⁹ Tato rodinná příjmení jsou v plurálu a chápeme je jako substantiva, nikoli jako posesivní adjektiva. Lemmatizujeme takto:

lemma(Dvořákovi) = lemma(Dvořákových) = lemma(Dvořákovým)... = {Dvořákovi} (nikoli Dvořák ani Dvořákův)

lemma(Novotní) = lemma(Novotných) = lemma(Novotným)... = {Novotní, Novotných}. Nesklonný tvar Novotný se odliší od tvarů Novotní, Novotných, Novotným… příslušnou mutací.

lemma(Tachecí) = Tachecí

lemma(Petrů) = Petrů

lemma(Bezákovic) = Bezákovic v případě, že Bezákovic je standardní příjmení, nikoli jeho substandardní varianta.

Všechny substandardní varianty typu Bezáků, Bezákových, Bezákovic budou lemmatizovány zvláštním lemmatem (rozdíl oproti Novotných, kde jde o standardní příjmení s dlouhým adjektivním zakončením).

7.7 Přechylování v širším smyslu

7.7.1 Ženské podoby mužských protějšků

Lemma slovního tvaru je vždy co nejbližší tomuto tvaru, přechýlené podoby feminin v širším smyslu se nikterak nevztahují k jejich maskulinním protějškům. Chápeme je jako substantiva feminina, nikoli např. jako posesivní adjektiva. To znamená, že například:

lemma(husa) = husa (nikoli houser ani husák)

lemma(lékařka) = lékařka (nikoli lékař)

lemma(mluvčí) = mluvčí [GEN=F]

lemma(předsedkyně) = předsedkyně (nikoli předseda)

lemma(světice) = světice (nikoli světec)

lemma(vědkyně) = vědkyně (nikoli vědec)

7.7.2 Ženská příjmení

Jde o typ Dvořáková, Spurná, Tachecí, Petrů, Bezákovic. Lemma tvaru je vždy co nejbližší tvaru, přechýlené podoby feminin v širším smyslu se nevztahují k jejich maskulinním protějškům. Chápeme je jako substantiva feminina, nikoli např. jako posesivní adjektiva. To znamená, že například:

lemma(Dvořáková) = Dvořáková (nikoli Dvořák ani Dvořákův)

lemma(Spurná) = Spurná (nikoli Spurný)

lemma(Tachecí) = Tachecí

lemma(Petrů) = Petrů¹⁰

lemma(Bezákovic) = Bezákovic

8 Slovnědruhové přechody

(srov. i VAGSČ, s. 100nn.)

8.1 Substantivizace adjektiv

Substantivizovaná adjektiva „[…] patří k adjektivům jenom svou formou a typem deklinace. Syntakticky zastávají pozici substantiva, jsou morfologicky nezávislá¹¹ (mají inherentní jmenný rod a číslo) a jejich gramatické kategorie nejsou dány shodou (srov. Štícha 2013)...“ (Žižková 2019, s. 107nn.). O této problematice podrobně pojednává Žižková (2019) a my zde vycházíme především z této práce a z příslušného popisu v kapitole Adjektiva (# 08-02, § 3; # 08-02, § 6).

8.1.1 Substantivizace adjektiv na -[(ou)|í]cí

V kapitole Adjektiva (# 08-02, § 3.2) stojí:

Běžné výkladové slovníky zaznamenávají nejrůznější slovnědruhové přechody, přičemž lze dosti dobře vysledovat řadu nekonzistencí. Tato praxe je do velké míry přenesena do praxe slovníků pro aplikace automatické morfologické analýzy, kde je příčinou řady problémů na úrovni desambiguace.

Řada adjektiv tvořených od sloves sufixy -oucí/-ící se substantivizuje (výsledkem substantivizace je většinou pojmenování osoby vykonávající děj označený motivujícím slovesem, prostředkem procesu substantivizace je užití deverbativního adjektiva ve funkci substantiva). Na základě sond do korpusových dat lze předpokládat, že slovotvorný proces substantivizace je v současné češtině otevřený, to znamená, že i adjektiva tvořená od nově vznikajících sloves se substantivizují.¹² Meze tvoření jsou dány sémantikou motivujícího slovesa (substantivizací vznikají pojmenování osob, které aktuálně i neaktuálně vykonávají činnost označenou základovým slovesem, tvoří se tedy od sloves, která mají/mohou mít ve svém valenčním rámci personického činitele děje).

Přinejmenším adjektiva, která se často substantivizují, budou zaznamenána v morfologickém slovníku jako [POS=A] i jako [POS=N]. Seznam opřený o frekvenční analýzu korpusů řady SYN, který obsahuje nejfrekventovanější slova na -oucí/-ící v substantivní funkci (slovnědruhový přechod/transpozice), je k dispozici v disertační práci Olgy Richterové (2017, s. 137n.). Jedná se o lemmata, která by měla mít jak adjektivní [POS=A & SUB=G], tak substantivní [POS=N] interpretaci (nejde-li o kompozita, u nichž je otázka složitější a je třeba ji řešit u každého kompozita individuálně, neboť některá kompozita adjektivní význam mít mohou, např. Při nehodě zahynuli oba řidiči a tři <spolucestující> bulharští občané, jiná patrně nikoli, např. vlakvedoucí). I toto rozhodování bude složité.

Níže uvádíme soupis substantiv na oucí/-ící, jež vznikla transpozicí z adjektiv. Tato substantiva jsou popsána takto:

[POS=A & SUB=G] | [POS=N & GEN=[MF]]:¹³

cestující, dospívající, kolemjdoucí, kupující, okolojdoucí, okolojedoucí, pracující, prodávající, protestující, přihlížející, soutěžící, tonoucí, účinkující, vedoucí, věřící.

Uživatel by měl být upozorněn na to, že uvedený seznam

a) neodpovídá ani zdaleka potenci procesuálních adjektiv transponovat se do substantiv a

b) desambiguace je minimálně z tohoto hlediska nepřesná (protože slovník je podgenerovaný¹⁴).

Níže uvádíme část seznamu kompozit, která jsou ve stávajícím slovníku interpretována jako [POS=N]:

délebydlící, dílovedoucí, kolemjdoucí, místopředsedající, obchodvedoucí, okolojdoucí, okolojedoucí, okolostojící, protijdoucí, protijedoucí, spolubydlící, spolucestující, spolutrpící, stavbyvedoucí, strojvedoucí, vlakvedoucí, vševědoucí, vševidoucí.

Níže jsou uvedeny lexémy, které by bylo – na základě práce Žižková 2019 – vhodné doplnit do seznamu:

délebydlící, demonstrující, dojíždějící, domácí, dospívající, kolemjdoucí, kolemjedoucí, kupující, místopředsedající, nakupující, nastávající, nepracující, neslyšící, nestudující, nevěřící, oddávající, okolostojící, postupující, pracující, prodávající, protestující, protijdoucí, protijedoucí, přednášející, předsedající, přihlížející, přísedící, sázející, sloužící, slyšící, soutěžící, spolubydlící, spolucestující, spolutrpící, startující, stávkující, studující, trpící, účinkující, umírající, volající, všemohoucí, vševědoucí, vševidoucí, vystupující, vyšetřující, vyučující.

Níže je uveden ještě seznam substantivních kompozit, jež jsou paradigmaticky derivována z adjektiv. Jsou to pouze substantiva, a to vesměs kompozita utvořená ze substantiva a adjektiva vedoucí [POS=N & GEN=[MF]]:

dílovedoucí, obchodvedoucí, stavbyvedoucí, strojvedoucí, vlakvedoucí.

8.1.2 Substantivizace adjektiv na -š-í/-(v)-š-í

V kapitole Adjektiva (# 08-02, § 3.3) stojí:

V současné češtině se slovesná adjektiva na -(v)ší substantivizují; výsledkem tohoto procesu jsou názvy osob, jejím prostředkem je užití deverbativního adjektiva ve funkci substantiva.¹⁵ Na základě sond do korpusových dat lze předpokládat, že slovotvorný proces substantivizace je v současné češtině otevřený. Meze tvoření jsou (podobně jako u adjektiv procesuálních) dány sémantikou motivujícího slovesa (substantivizací vznikají pojmenování osob, tvoří se tedy od sloves, která mají/mohou mít ve svém valenčním rámci personického činitele děje).

Slovník automatického analyzátoru je dosud z hlediska možných substantivizací adjektiv na ší/vší podgenerován – substantivizace nepřipouští. My nicméně navrhujeme zatím pouze jediný lexém s vlastností [POS=A & SUB=G] | [POS=N & GEN=[MF]]:

přeživší (lze uvažovat i o lexémech doživší, přišedší)

Například ve větě:

<Přeživší> holocaust(Asg) se shromáždili v Praze.

je tvar přeživší pouze adjektivum, naopak ve větě:

<Přeživší> holocaustu(Gsg) se shromáždili v Praze.

je tvar přeživší pouze substantivum.

Podrobnější rozklad je v kapitole Adjektiva (# 08-02, § 6.2).

Uživatel by měl být upozorněn na potenci adjektiv na ší/vší transponovat se do substantiv. Pokud zůstane při tomto stavu podgenerování slovníku, bude i nadále desambiguace minimálně z tohoto hlediska nepřesná.

8.1.3 Substantivizace adjektiv typu na <vysvětlenou>, na <zkušené> a typu mateřská

[POS=A & SUB=[0V]] | [POS=N & GEN=F]

a. Substantiva transponovaná z adjektiv a vyskytující se takřka výhradně v konstrukci na + [GEN=F & NUM=S & CAS=[46]]

Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých adjektiv, která takřka výhradně vystupují v Asg/Lsg feminina: typ odjel <na zkušenou>Asg do Vídně, Hoši byli <na čekané>Lsg:

čekanou/é, zkušenou/é, zotavenou/é

Doporučujeme nerekonstruovat Nsg, nýbrž lemmatizovat týmž tvarem:

lemma(čekanou) = čekanou

lemma(čekané) = čekané

lemma(zkušenou) = zkušenou

lemma(zkušené) = zkušené

lemma(zotavenou) = zotavenou

lemma(zotavené) = zotavené

b. Substantiva transponovaná z adjektiv a vyskytující se často v konstrukci na + [GEN=F & NUM=S & CAS=4]

Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých adjektiv, která výhradně vystupují v Asg feminina: typ jako na zavolanou:

neshledanou, odchodnou, pamětnou, posilněnou, pováženou, přivítanou, rozchodnou, rozloučenou, rozváženou, rozmyšlenou, shledanou, slyšenou, srozuměnou, uklidněnou, usmířenou, uvítanou, viděnou, vybranou, vysvětlenou, vyučenou, zapřenou, zavolanou, zkušenou, zotavenou.¹⁶

Doporučujeme nerekonstruovat Nsg, nýbrž lemmatizovat týmž tvarem:

lemma(zavolanou) = zavolanou

c. Substantiva transponovaná z adjektiv a vyskytující se bez syntaktických omezení (typ mateřská)

Do této skupiny zařazujeme několik substantiv transponovaných z tvrdých i měkkých adjektiv, která nemají omezení typu a. a ii. výše: hrál rád kopanou:

čutaná, dostředná, dostřelná, dovolená, foukaná, házená, honěná, chytaná, jalovcová, kolová, konečná, kopaná, májová, mateřská, nemocenská, neznámá, odbíjená, panská, pokojská, prodloužená, proměnná, přehazovaná, režná, rodičovská, sekaná, schovávaná, skočná, skotská, služebná, sousedská, spárkatá, svíčková, škodná, trvalá, vybíjená, vysoká, zaháněná, zmýlená, zubatá, ženská, žitná.

Do této skupiny patří také femininum s měkkým skloňováním polní (ve spojení plná polní).

Tento typ doporučujeme lemmatizovat tvarem Nsg_Fem:

lemma(skotskou) = skotská

Lexémy číhaná, komorná, podívaná, šipkovaná jsou pouze substantivní s vlastností [POS=N & GEN=F]:

lemma(číhané) = lemma(číhanou) = lemma(číhaná) = číhaná

Poznámka. Substantivizovaná označení známek (výborná, chvalitebná, dobrá, (ne)dostatečná) a barev (černá, červená, modrá, zelená…) pokládáme pouze za adjektiva.

8.1.4 Substantivizace adjektiv typu nemocný

[POS=A & SUB=[0V]] | [POS=N & GEN=[MF]]

Do této skupiny patří několik desítek substantiv transponovaných z tvrdých i měkkých adjektiv:

cyklopěší, dospělý/á, dotyčný/á, dozorčí, důchodní, duchovní, hlásný/á, handicapovaný/á, hendikepovaný/á, horný/á, hostinský/á, kantýnský/á, lázeňský/á, lesní, listovní, lovčí, milý/á, místní, mrtvý/á, nadřízený/á, nemocný/á, nemrtvý/á, neslyšící, nevidomý/á, nezaměstnaný/á, neznámý/á, obviněný/á, obžalovaný/á, odsouzený/á, personální, pěší, pocestný/á, poddaný/á, podezřelý/á, podřízený/á, pohřešovaný/á, pokladní, pomezní, postižený/á, poškozený/á, produkční, provozní, prvotrestaný, představený/á, přespolní, příbuzný/á, příchozí, radní, recepční, rozhodčí, služebný/á, starý/á, strážný/á, svatý/á, trestaný, třídní, účetní, účtovní, vidomý, vrchní, zavražděný/á, zlatý/á, známý/á, zraněný/á, zúčastněný/á.

8.1.5 Substantivizace adjektiv typu popravčí

[POS=A & SUB=0] | [POS=N & GEN=M]

Do této skupiny výhradních životných maskulin patří pouze:

mužský, popravčí, tajný

8.1.6 Substantivizace adjektiv typu bicí

[POS=A & SUB=0] | [POS=N & GEN=I NUM=P]

Do této skupiny patří substantivum neživotné maskulinum plurale tantum transponované z měkkého adjektiva:

bicí

ve spojení:

Hráli na <bicí> [POS=N & NUM=P] vs. Pozorovali <bicí> [POS=A & NUM=S] komando.

8.1.7 Substantivizace adjektiv typu prostná

[POS=A & SUB=0] | [POS=N & GEN=N & NUM=P]

Do této skupiny patří substantivum neutrum plurale tantum transponované z tvrdého adjektiva:

prostná

8.1.8 Substantivizace adjektiv typu šampaňské

[POS=A & SUB=0] | [POS=N & GEN=N]

Do této skupiny patří neutra transponovaná z tvrdých i měkkých adjektiv. Lexémy označují až na panské druhy masa a druhy (typicky alkoholických) nápojů:

biojehněčí, bioskopové, biotelecí, biovepřové, dančí, hovězí, jehněčí, kančí, kuřecí, mělnické, panské, plzeňské, portské, skopové, skotské, šampaňské, telecí, tokajské, uzené, vepřové.

8.1.9 Typ mýtné

[POS=A & SUB=[0V]] | [POS=N & GEN=N]

Do této skupiny patří několik desítek neuter synchronně homonymních mezi adjektivy a substantivy. Některá substantiva jsou transponována z adjektiv, jindy je to obráceně, směr transpozice není podstatný. Lexémy označují peněžní poplatky:

bolestné, hovorné, jízdné, kolkovné, mýtné, nájemné, odlučné, pojistné, předplatné, přejízdné, převozné, půjčovné, skladné, služebné, služné, stojné, stravné, tržné, učebné, úložné, úschovné, vložné, vodné, vstupné, výbavné, výchovné, výkupné, výpalné, výsušné, výživné, zajistné, zástřelné, záškodné, zpozdné

8.1.10 Substantiva s adjektivním skloňováním typu odchodné

[POS=N & GEN=N]

Do této skupiny patří několik desítek substantivních neuter s adjektivním skloňováním. Lexémy označují peněžní poplatky a nejsou homonymní s adjektivem. Uvádíme jen ty nejfrekventovanější, je to produktivní typ tvoření substantiv:

bakšišné, balné, bankovné, berlovné, bodovné, bouřkovné, cestovné, cílovné, čekatelné, činovné, dálkovné, doběrné, dobírkovné, dohodné, doplatné, dopravné, doručné, dovozné, expertovné, fackovné, filmovné, flirtovné, frankovné, hadrovné, jeslovné, kalouskovné, kalorné, kampovné, kapesné, kloboukovné, klozetovné, klubovné, kolejné, kolkovné, korkovné, koštovné, kroužkovné, kursovné, kurtovné, ledničkovné, liškovné, listovné, minutovné, mobilovné, mostné, nábytkovné, nálezné, nocležné, notovné, novoročné, obalné, odbytné, odchodné, odkupné, odpadkovné, odstupné, odškodné, opatrovné, ošatné, ošetřovné, pachtovné, parkovné, pastelkovné, peřinkovné, pobytné, počítačovné, podnájemné, podýmné, pohřebné, povozné, pračkovné, regálovné, rolbovné, schránkovné, skicovné, skladištné, skládkovné, spropitné, startovné, stočné, svědečné, školkovné, školné, špuntovné, šrotovné, tlučhubné, tužkovné, ubytovné, úmrtné, vandrovné, vložné, všimné, výplatné, výpůjčné, výslužné, výučné, zahrádkovné, zápisné, zateplovné, zdržné, znalečné, ztratné.

8.1.11 Substantivizace adjektiv typu taneční

[POS=A & SUB=0] | [POS=N & GEN=F & NUM=P]

Do této skupiny patří substantivum femininum plurale tantum transponované z měkkého adjektiva:

taneční

8.1.12 Substantivizace adjektiv typu drobné

[POS=A & SUB=0] | [POS=N & GEN=I]^[17] & NUM=P]

Do této skupiny patří substantivum plurale tantum transponované z tvrdého adjektiva:

drobné

8.1.13 Substantiva s adjektivním skloňováním

[POS=N & GEN=[MF]]

Do této skupiny patří substantivní lexémy maskulina životného a feminina, která mají adjektivní skloňování, ale nejsou to adjektiva:

bytný/á, pohodný/á, vrátný/á, výčepní

8.1.14 Propria s měkkým adjektivním skloňováním, typ Veveří

[POS=N & GEN=[MF]]

Do této skupiny patří propria s adjektivní flexí typu Veveří (srov. kapitola Adjektiva # 08-02). U některých se liší adjektivní měkká flexe adjektiv a flexe podle vzoru stavení u substantiv (například zubří/Zubří, veveří, což je okrajově druhově posesivní adjektivum ke starší podobě substantiva veverka / Veveří – zámek u Brna), a to i v úzu, který se týká jednoho objektu/lokality.¹⁸

Příklady:

Hovězí, Srní, Telecí, Veveří, Zubří

8.1.15 Substantiva na **.sko/.cko**

[POS=N & SUB=0]

U tohoto typu budou jako substantiva značkována jenom propria typu Burgundsko, Česko, Polsko, Maďarsko, Rakousko, Slovensko, Německo, Rakousko, Švýcarsko…, nikoli

(i) tvary na .*sko/.*cko, které jsou součástí kompozit rozdělených při tokenizaci a pro které je navržena kategorie afixový segment ([POS=S])

(ii) ani tvary na .*sku/.*cku, které jsou součástí adverbiálních spojení typu po anglicku, po česku, po babišovsku, po burgundsku,… atd.

Poznámka

Adjektiva z přírodovědecké nomenklatury typu blanokřídlí pokládáme výhradně za adjektivum (nikoli také za substantivum) ve shodě s příručkami (SSČ, SSJČ), jakkoli tu jde o otevřený proces substantivizace. Postulovat tyto lexémy i jako substantiva by vedlo k velkým obtížím při desambiguaci.

Příklady:

koňovití, krátkokřídlí, kruhoústí, masožraví, okoličnaté, vrubozubí¹⁹

Poznámka

Lexémy typu Kladenští, Petrovští, Valdenští pokládáme za adjektiva:

lemma(Kladenští) = kladenský

lemma(Petrovští) = petrovský

lemma(Valdenští) = valdenský.

8.1.16 Substantiva typu Palackého

V konstrukci Palackého náměstí je Palackého v pojetí NovaMorf tvar Gsg mask. životného substantivního propriálního lexému Palacký; není to nesklonné adjektivum.

8.2 Substantivizace adverbií

V této podkapitole probereme problematiku slovědruhového přesahu adverbií směrem k substantivům (přebíráme s malými úpravami a doplněními relevantní pasáže z kapitoly Adverbia # 08-06, § 3.1.2).

Substantivizovaná adverbia jsou roztříděna do skupin 8.2.1–8.2.4.

8.2.1 Typ horko, sucho

Typ o [lemma=.*o & lc=.*o & POS=D & NOM=J], typ a [lemma=.*a & lc=.*a & POS=D & NOM=J], typ u [lemma=.*u & lc=.*u & POS=D & NOM=J], adjektiva jmenné tvary [lemma=.*ý & lc=.*[oayi]? & POS=A & NOM=J], substantiva [lemma=.*o & lc=.*[oayi]? & POS=N & GEN=N & NOM=-]

V některých vybraných případech hovoří lexikalizace substantivního významu pro desambiguaci substantivní interpretace, jejíž výsledky ovšem nemusí být uspokojivé. O substantivní interpretaci mohou svědčit i syntaktické vlastnosti (lze rozvíjet adjektivem²⁰).

Seznam dvojic typu tvar na e/ě / tvar na o, který je kandidátem na desambiguovatelnou substantivní interpretaci:

dusně / dusno

horko / horce // za horka / zahorka

chladně / chladno

jasně / jasno // z čista jasna / zčista jasna

mokro / mokře

parně / parno

prázdně / prázdno

sucho

světle / světlo // (za) světla / zasvětla

temně / temno

teplo / teple // (za) tepla / zatepla

vedro

vlhko / vlhce // za vlhka / zavlhka

volně / volno // z volna / zvolna.

K nim se druží ještě čtveřice tiše/ticha/ticho/tichu a suše/sucha/sucho/suchu, kde alespoň tvary na o, a, u mají jak dvojí slovnědruhovou interpretaci ([POS=D], např. Jsou ticho, z ticha, tiše,?po tichu²¹), tak jasně substantivní interpretaci [POS=N] (velké <ticho>, z velkého <ticha>, po velkém <tichu>,...). (Ve starší češtině se k nim druží i tvar na e²².)

Problematické případy:

suše / sucho // (za/do) sucha / zasucha / dosucha i such, sucha, sucho, suši²³, suchy

tiše / ticho // (z) ticha / zticha i tich, ticha, ticho, tiši²⁴, tichy

V těchto případech jde o jednoznačný slovnědruhový přechod tvarů na o ve funkci substantiva, které v predikativní pozici nebudeme desambiguovat, pokud nebude rozvito shodným adjektivním přívlastkem (je velmi teplo [POS=D] × je velké teplo [POS=N] × je teplo [POS=D], naopak v pozici subjektu (Obtěžovalo ho (velké) teplo [POS=N]) a objektu (Naříkal si na (velké) teplo [POS=N]) desambiguovat budeme. I takové rozhodnutí má svoje úskalí, neboť může dojít k obtížně automaticky desambiguovatelným případům, kdy přichází v úvahu více interpretací (příklady přebíráme z kapitoly Adjektiva # 08-02, § 3.6a):

a. Bylo velké sucho. (substantivum → [POS=N])

b. Bylo velmi sucho. (adverbium → [POS=D]);

c. Bylo sucho. (adverbium → [POS=D])

d. Dítě bylo sucho. (adjektivum – jmenný tvar → [POS=A]);

e. Chlapi seděli v hospodě na sucho. (adverbium → [POS=D])

f. Chlapi si v hospodě stěžovali na sucho. (substantivum → [POS=N])

g. Do sucha, které ničilo úrodu v roce 1947, jsem hroznější počasí nezažil. (substantivum → [POS=N])

h. Utři se do sucha. (adverbium → [POS=D])

i. Jsem už zcela such, manželka je sucha i dítka jsou již sucha, ale šaty nejsou dosud zcela suchy. (adjektivum – jmenný tvar → [POS=A])

j. Tolik such nebylo ani v minulém století. (substantivum → [POS=N])

k. Tak to by bylo v suchu.²⁵ (adverbium → [POS=D])

l. V takovém dlouhotrvajícím suchu dojde snadno k požáru. (substantivum → [POS=N])

m. Nevěděli jsme si rady s velkými suchy. (substantivum → [POS=N])

Další příklady:

n. Deště přišly v období sucha. (substantivum → [POS=N])

o. Lidé naříkali na sucha. (substantivum → [POS=N])

p. Úroda se zničila za sucha. (substantivum → [POS=N]) × Kožich se zničil při čištění za sucha. (substantivum → [POS=D])

r. Bylo veliké horko. (substantivum → [POS=N]) × Bylo (mi) velmi horko. (substantivum → [POS=D])

Máme za to, že s ohledem na výše uvedené (bod i. výše) zcela okrajové případy adjektivní interpretace (Jsem už zcela such, manželka je sucha i dítka jsou již sucha, ale šaty nejsou dosud zcela suchy.) by bylo možné tuto interpretaci na rovině automatické morfologické analýzy co nejvíce eliminovat (viz kapitola Adjektiva # 08-02, § 3.1.2k). Nepokládáme však za žádoucí vyloučit substantivní interpretaci u těchto případů:

dusno, horko, chladno, mokro, parno, prázdno, sucho, temno, teplo, ticho, vedro, vlhko, ale i světlo, volno, jasno.

Navrhujeme tedy, aby u nich byla ve slovníku jak interpretace [POS=N] (např. lemma(sucha)=sucho & lc="such([oauy]?|em|ům|ách)"), tak [POS=D] (např. lemma="such[oau]") a aby uživatel byl upozorněn na to, že seznam si neklade nárok na úplnost a desambiguace není zcela spolehlivá. Je tomu tak proto, že můžeme v praxi rozlišit tři případy, a sice

1) jasně lingvisticky i automaticky desambiguovatelné případy jako bylo velké <sucho [POS=N]> a bylo velmi <sucho [POS=D]>,

2) lingvisticky dobře a automaticky patrně obtížně desambiguovatelné případy jako stěžovat si na <sucho [POS=N]> a sedět na <sucho [POS=D]> a konečně lingvisticky nedesambiguovatelné případy jako je <sucho>, u nichž technicky při desambiguaci navrhujeme hodnotu [POS=D].

Jsme si vědomi toho, že v korpusech jsou řídce doložena další substantivní užití adjektiv, která se většinou adverbializují.²⁶ Viz i kapitola Adjektiva (# 08-02, § 3.6a) a Adverbia (# 08-06, § 3.1.2k).

Existují ovšem i další predikativa, která se mohou substantivizovat: blátivo, deštivo, mlhavo, mrazivo, lezavo:

Ta zůstane v tom sychravém <mlhavu> doma.

Není náhoda, že In Rainbows vychází na podzim, v mlze a <lezavu>.

Jiná atmosféra oproti venku převládajícímu <lezavu> vládla na kryté New York Stage…

Příslušné substantivní lexémy tvary je nutno doplnit do morfologického slovníku.

Zvláštní případ: z <plna> (hrdla) × (z <prázdna> do) <plna> × (tankovat do) <plna>

V tomto případě jde o ojedinělé užití jmenného tvaru adjektiva v atributivní funkci. Tyto případy bude třeba řešit jednotlivě. Jde o zbytky jmenných tvarů v atributivní pozici. Existují dobré důvody, jak pro značkování [POS=D], tak [POS=A], okrajově i [POS=N]. Navrhujeme tvar plna ve spojení z <plna> hrdla desambiguovat jako [POS=A], tedy stejně jako případy typu žasla <plna> nevole a šedivá díla jsou <plna> citlivých barevných valérů, ve spojení natankovat/nacpat do <plna> desambiguovat jako [POS=D] a jde z prázdna do <plna> jako [POS=N].

8.2.2 Substantiva typu dávno, dýchatelno

[POS=D & NOM=J] | [POS=N & GEN=N & NOM=-]

Následující lexémy pokládáme za homonymní mezi substantivy a adverbii:

bílo, černo, dávno, modro, nedávno, poloprázdno, pradávno, prázdno, příjemno, studeno, tajemno, vznešeno.

Substantivizovaná užití²⁷ tvarů na .*telno s ohledem na raritnost²⁸ některých z nich navrhujeme desambiguovat jako [POS=N] pouze u těchto slov:

dýchatelno, měřitelno, nedotknutelno, nedýchatelno, nepoznatelno, neviditelno, nesrozumitelno, nevyslovitelno, viditelno.

8.2.3 Substantiva typu budoucno

[POS=N & GEN=N & NOM=-]

Následující lexémy typu budoucno pokládáme výhradně za substantiva, nikoli také za adverbia:

absolutno, abstraktno, absurdno, bezedno, budoucno, dohledno, duchovno, duševno, fantaskno, groteskno, intelektuálno, iracionálno, jsoucno, konečno, konkrétno, krásno, liduprázdno, nadpřirozeno, nadreálno, nadskutečno, nadsmyslno, nedohledno, nedozírno, nejsoucno, nekonečno, nenávratno, neskutečno, posvátno, přirozeno, reálno, skutečno, sociálno, starodávno, surreálno, tělesno, transcendentno, vesmírno, všedno, všeobecno, vzduchoprázdno, zázračno.²⁹

8.2.4 Substantiva typu komično

[POS=N & GEN=N & NOM=-]

Lexémy na -ično pokládáme jednoznačně za substantiva, nikoli také za adverbia:

autentično, démonično, erotično, estetično, exotično, fantastično, fyzično, komično, lyrično, magično, metafyzično, mystično, poetično, politično, psychično, tragikomično, tragično.³⁰

Poznámka. Tvar slično bude naopak pouze adverbium [POS=D]:

Je mi tak <slično>, tak nebetyčno…

8.2.5 Predikativně užívaná substantiva

[POS=N & GEN=[FI]] | [POS=D & NOM=-]

Mimo predikativně užívaná neutra typu horko, teplo, rozebraná v § 8.2.1, existují i predikativně užívaná maskulina neživotná a feminina:

hanba, potřeba, škoda, tma, zima… Navrhujeme toto značkování (srov. VAGSČ, s. 101):

Byla úplná <tma>. [POS=N & GEN=F]

Byla úplně <tma>. [POS=D & NOM=-]

Byla tuhá <zima>. [POS=N & GEN=F]

Byla (mi) hrozná <zima>. [POS=N & GEN=F]

Bylo mi (hrozně) <zima>. [POS=D & NOM=-]

Obecně je desambiguace v konstrukcích typu: Je (mi) zima; Je potřeba to udělat.; Je škoda, žes to neudělala. dost obtížná; přednost se bude dávat interpretaci [POS=D] stejně u teplo v § 8.2.1.

8.2.6 Dvouslovná adverbiální určení typu předložka – substantivum

[POS=N]

Za velmi problematické pokládáme zachycení odděleně psaných dvouslovných adverbiálních určení (na beton / nabeton, na zlost / nazlost, na sekyru / nasekyru) na rovině morfologického slovníku. Do slovníku lze doplnit spřežky, které automatická analýza nerozpoznává (chybí ve slovníku). Doplnění slovnědruhově přesažné interpretace u tvaru substantiva, který se vyskytuje v kontextu předložky a může mít v kontextu s předložkou adverbiální význam, nepokládáme za žádoucí.³¹ Přesto pokládáme za vhodné dát uživateli k dispozici seznamy spřežek, popřípadě předpřipravené složitější dotazy k vyhledávání víceslovných jednotek majících jednoslovné varianty. Ve víceslovných jednotkách, u nichž se tvar vyskytuje výhradně ve spojení s předložkou v adverbiálním významu, navrhujeme lemmatizovat tvar jím samým (je to reprezentant defektního paradigmatu) a interpretovat jej jako [POS=N] (tvar osciluje mezi adverbiem a substantivem, my však volíme substantivum). Například k duhu:

lemma(duhu) = duhu [POS=N]

Zařazení slovních tvarů, které se vyskytují v idiomech, není triviální, protože v korpusech se k řadě tvarů petrifikovaných v idiomech nacházejí tvaroslovné varianty, popřípadě se objevují tvary etymologicky příbuzných slov s plně rozvinutelným souborem tvarů. Jako příklad může sloužit adverbiální spojení v idiomu vejce na <hniličku> s oblastní v korpusu doloženou variantou na <hniličko> a substantivum <hnilička> s významem ‚shnilý plod‘. Dalším příkladem budiž na <holičkách>, které je víceznačné: v kolokaci nechat někoho na holičkách doporučujeme značkovat jako lemma(holičkách) = holičkách & [POS=N], jinak jako lemma(holičkách) = holička (od holič) & [POS=N]. Je třeba vytvořit seznamy substantivních slovních tvarů petrifikovaných v idiomech, jejich lemmat a jejich slovnědruhového značkování (řadu idiomů má Žižková 2019, s. 56). U každého jednotlivého případu je nutno stanovit podobu lemmatu:

(i) buď bude lemmatem tvar vyskytující se v příslušném spojení (ne nutně tedy v nominativu),

(ii) nebo se lemma rekonstruuje z tvaru v podobě Nsg.

Adverbiální spojení se někdy píší dohromady jako spřežky. Žižková (2019, s. 56, 62, 70) uvádí jednoslovná spojení předložka + substantivum:

nabeton, nadálku, nadoslech, nadostřel, nahniličku, najedničku, nakříž, namíru, namušku, naodiv, naoplátku, napohodu, naposlech, napotvoru, napovel, napozoru, napřekot, napřesdržku, napřetřes, napříkladu, napřítěž, naroveň, narozum, narub, nasekyru, naskok, naškodu, našrot, naštíru, navýběr, nazem, nazlost, odvěků, odvnitřku, odvrchu, odzačátku.

Pokud se tato spojení píší zvlášť, tj. na dálku, na hniličku atd. navrhujeme značkovat v těchto případech (na rozdíl např. od spojení k duhu) druhý tvar jako substantivum s lemmatem ve tvaru Nsg, tj. dálka, hnilička… štír.

8.3 Substantivizace zájmen

8.3.1 Substantivizace osobních zájmen

Osobní zájmeno já se substantivizuje, a to tak, že tvar nominativu se stává nesklonným substantivem. Zájmeno se užívá i v negované podobě nejá (V tomto třetím kroku, který Fichte vztahuje k zásadě dostatečného důvodu, rozehrává nyní Fichte vztahy vzájemného působení <Já> na <Nejá> a naopak.… Zážitek fúze <já> a <nejá> je těžko srozumitelný západním psychologům.) Grafická realizace je rozkolísaná: kromě psaní s velkým počátečním písmenem se objevuje dokonce i varianta neJá. Interpretace tvaru nejá je v dosavadním pražském značkování lemma="nejá" & tag="NNNS.----N.*", já je v dosavadním značkování v pražském systému vždy zájmeno. Navrhujeme značkovat já v užitích uvedeného typu jako [POS=N & GEN=N & NEG=A], tvar nejá pak vždy jako [POS=N & GEN=N & NEG=N].

Zájmennou interpretaci mají ale i substantivizovaná užití dalších osobních zájmen: ty, my, vy (Nejde přece o to, že Ty jsi Ty, ale že mé Já bude součástí Tvého <Ty>...; Předsudky a stereotypy tady totiž byly, jsou a budou, neboť jsou součástí našeho já i našeho <my>.) Navrhujeme u nich toto značkování: [POS=N & GEN=N & NEG=A].

8.3.2 Substantivizace posesivních zájmen

Substantivizují se i zájmena posesivní (můj, tvůj, naši, vaši…) a patrně i další druhy zájmen. Snad vždy jde o elipsu (Já vím, že tě <tvoje> hlava štve. Jenomže mně ta <moje> zatím docela vyhovuje!). Tato substantivizovaná zájmena chápeme však vždy jako zájmena, ne jako substantiva.

8.4 Substantivizace dalších slovních druhů

Substantiva jakožto prostředek pojmenování osob, zvířat, rostlin, věcí, objektů v širokém smyslu, předmětně pojatých dějů, stavů, vlastností a kvant označují jevy pojaté jako entity. Takovými se mohou stát […] i přehodnocené pojmové obsahy běžně vyjadřované jinými slovními druhy: Přehodil páčku na <vypnout> / <vypnuto>. <U> je genitivní předložka. Umísti to <aby> trochu výš. Nikdy neříkej <nikdy> (VAGSČ, s. 46); Ty jsi samé <ale> a <ačkoli> a skutek utek.

Tučná slova nechápeme jako substantiva, tj. ponechávají si původní slovní druh: vypnout je tedy sloveso, vypnuto je adjektivum, u je předložka; aby, ale, ačkoli jsou spojky; nikdy je adverbium.

9 Apelativa vs. propria

Apelativnost a propriálnost nejsou morfologické kategorie, nicméně v koncepci NovaMorf rozdíl mezi proprii a apelativy vyjadřujeme, a to pouze v lemmatu (velké vs. malé počáteční písmeno), nikoli zvláštní kategorií. Často je velmi obtížné odlišit propria od apelativ; hranice mezi apelativy a proprii totiž nejsou ostré (VAGSČ, s. 47; AGSČ, s. 290n.). Velké písmeno na začátku slova velmi často nestačí ke správnému zařazení slova mezi propria, srov.

Bydlel v ulici <U Stanice> a pak ve <Vysokém nad Jizerou>.

Eskymák nežije na Sahaře.

Navíc průběžně dochází k apelativizaci proprií (eponymizace: Pribináček → pribináček, Roentgen → rentgen). Jsou však i případy proprializace apelativ (mráz → (pan) Mráz).

Navrhujeme tyto zásady:

a. Propria jsou v pojetí NovaMorf právě ty lexémy, jež mají tyto vlastnosti:

jsou lemmatizovány s velkým počátečním písmenem
jsou to pouze: substantiva [POS=N] / posesivní adjektiva [POS=A & SUB=U] / cizí slova [POS=F] / neznámá slova [POS=X]

Příklady:

lemma(Vysoké) = Vysoké [POS=N], např. v názvu Vysoké nad Jizerou, oproti lemma(vysoké) = vysoký [POS=A] (a to i v adjektivním užití na začátku věty (Vysoké));

lemma(Pribináček) = Pribináček oproti lemma(pribináček) = pribináček

lemma(Jestřebím) = Jestřebí; lemma(Sněžkou) = Sněžka

víceznačné Šimandlovi:

lemma(Šimandlovi) = Šimandl (jako osobní příjmení v Dsg/Lsg) nebo

lemma(Šimandlovi) = Šimandlovi (jako rodinné příjmení v Npl/Vpl) nebo

lemma(Šimandlovi) = Šimandlův (jako posesivní adjektivum v Npl_mask.živ. / Vpl_mask.živ.)

b. Křestní jména a příjmení jsou propria:

Haně: lemma(Haně) = Hana [POS=N]

Toníkem: lemma(Toníkem) = Toník [POS=N]

lemma(Mráz) = Mráz, kde Mráz je mužské příjmení [GEN=M], oproti lemma(mráz) = mráz [GEN=I] (i v apelativním významu na začátku věty (Mráz));

lemma(Pokorného) = Pokorný [POS=N], kde Pokorný je mužské příjmení, oproti lemma(pokorného) = pokorný [POS=A] (i v adjektivním významu na začátku věty (Pokorného));

lemma(Pokornou) = Pokorná [POS=N], kde Pokorná je ženské příjmení, oproti lemma(pokornou) = pokorný [POS=A] (i v adjektivním významu na začátku věty (Pokornou));

lemma(Skoumalové) = Skoumalová [POS=N]

c. Posesivní adjektiva odvozená od proprií jsou propria:

<Františkův> pohřeb: lemma(Františkův) = Františkův

<Františkovy> Lázně: lemma(Františkovy) = Františkův

d. Vyskytuje-li se slovní tvar jen v názvu a píše-li se s velkým počátečním písmenem, je to proprium:

Bydlím v <Budějovicích>, ale dřív jsme bydlel v ulici Na <Slupi> a v <Hradci Králové>.

Tvary Budějovicích a Slupi jsou propria:

lemma(Budějovicích) = Budějovice [GEN=F & NUM=P & CAS=6]

lemma(Slupi) = Slupi [GEN=F & NUM=S & CAS=6]

lemma(Hradci) = Hradec [GEN=I & NUM=S & CAS=6]

lemma(Králové) = Králové [GEN=F & NUM=S & CAS=2]³²

lemma(Slupi) = Slupi [GEN=F & NUM=S & CAS=6]

Podobně:

lemma(Vožicím) = Vožice

lemma(Choceradech) = Chocerady

e. Adjektiva se proprializují (a tedy i substantivizují), jen

(i) představují-li jednoslovný název:

Bydlel v obci <Stará> u Berouna.: lemma(Stará) = Stará

Bydlel ve <Vysokém> a pak v <Baraním>.: lemma(Vysokém) = Vysoké, lemma(Baraním) = Baraní

<Břidličná>: lemma(Břidličná) = Břidličná

Podobně: Hostinné, Ostrý, Rudná...

(ii) jsou-li součástí víceslovného názvu typu: Bydlel ve <Vysokém> nad Jizerou, kde nerozvíjejí substantivum užité propriálně.

Podobně:

<Deštné> v Orlických horách/Horách: lemma(Deštné) = Deštné

<Vrané> nad Vltavou: lemma(Vrané) = Vrané

<Vlachovo Březí>: lemma(Vlachovo) = Vlachův, lemma(Březí) = Březí

f. Adjektiva (mimo posesivní adjektiva odvozená od proprií) nejsou propria (a tedy se nesubstantivizují) v případech, kdy rozvíjejí proprium (např. Boleslav) nebo apelativum v propriálním užití (Mlýn):

Žil v <Mladé Boleslavi> a také ve <Starém Mlýně>.

lemma(Mladé) = mladý [POS=A]

lemma(Boleslavi) = Boleslav [POS=N & GEN=F]

lemma(Starém) = starý [POS=A]

Bydlel v <České> (ulici).: lemma(České) = český [POS=A]

Na <Pražském> hradě se včera slavilo.; lemma(Pražském) = pražský [POS=A]

Ženské domovy: lemma(Ženské) = ženský [POS=A]

Obřím dolem: lemma(Obří) = obří [POS=A]

Kozí hřbety: lemma(Kozí) = kozí [POS=A]

Nová Ves: lemma(Nová) = nový [POS=A]; lemma(Ves) = ves [POS=N]

Starému Boru: lemma(Starému) = starý [POS=A]; lemma(Boru) = bor [POS=N]

g. U homonymních substantiv (apelativum / proprium) navrhujeme lemmatizovat propriálně a co nejblíže tvaru:

tam, kde výrazně převažuje propriální užití a často se užívá jednoslovně (univerbizace: Ústí nad Labem → Ústí):

<Ústí> nad Labem: lemma(Ústí) = Ústí

Konečně jsem si přečetl <Psohlavce>.: lemma(Psohlavce) = Psohlavci [GEN=M & NUM=P]

Soupis takových lexémů bude postupně vytvářen v průběhu úprav morfologického slovníku.

h. U homonymních substantiv (apelativum / proprium) navrhujeme lemmatizovat apelativně:

tam, kde výrazně nepřevažuje propriální užití:

Na <Hradě> prezident vyznamenával své spojence.: lemma(Hrad) = hrad

i. Číslovka, zájmeno, sloveso, příslovce, předložka, spojka, částice, citoslovce, afixový segment ani agregát nejsou nikdy propria:

Četl jsem román <Jak> se kalila ocel.: lemma(Jak) = jak [POS=D]

Nabokovova kniha pamětí <Promluv, paměti> i román <Ve znamení levobočka> se Martě líbily.:

lemma(Promluv) = promluvit POS=V; lemma(Ve) = v [POS=R]

j. Zvláštní zásada:

Vyskytuje-li se v názvech např. uměleckých děl, artefaktů, míst… a ve zvláštních (např. dadaistických) textech slovní tvar psaný s velkým počátečním písmenem a existuje-li jako apelativum nebo adjektivum a neplatí-li pro něj výše uvedené zásady, je lemmatizován nepropriálně:

Včera jsem dočetl Kunderův <Žert>.: lemma(Žert) = žert

Jinak by se v morfologickém slovníku muselo počítat s tím, že každý slovní tvar se dá užít i propriálně a znamenalo by to jednak zdvojnásobení objemu slovníku, jednak obrovské potíže s desambiguací ve víceznačné pozici slova například ve větě:

<Žert> byl moc pěkný.; lemma(Žert) = žert / Žert

Dostojevského <Něžná>: lemma(Něžná) = něžná [POS=A].

k. Apelativizované proprium se značkuje jako apelativum:

… a ten sympaťák se tahá s takovou bláznivou <káčou> a co na ní proboha vidí.:

lemma(káča) = káča

ač existuje samozřejmě proprium Káča:

lemma(Káča) = Káča

l. Typ Ho Či Minovo Město:

Je-li název víceslovný, značkují se v pojetí NovaMorf jenom jednotlivé komponenty názvu, nikoli víceslovný celek. Návrh značkování:

lemma(Ho) = Ho [POS=F] (cizí slovo)

lemma(Či) = Či [POS=F] (cizí slovo)

lemma(Minovo) = Minův [POS=A & SUB=U] (posesivní)

lemma(Město) = město [POS=N & GEN=N]

10 Webové adresy a emaily

Webové adresy a emaily navrhujeme tokenizovat a značkovat takto:

webové adresy:

chápat je jako jediný token, jehož lemma je totožné s tvarem:
lemma(http://korpus.cz) = http://korpus.cz
značkovat: [POS=N & ABR=+]

emaily:

chápat je jako jediný token, jehož lemma je totožné s tvarem:
lemma(xxx@seznam.cz) = xxx@seznam.cz
značkovat: [POS=N & ABR=+]

11 Závěr

V této kapitole jsou popsány morfologické vlastnosti substantiv, které jsou relevantní pro jejich morfologické značkování, včetně jejich lemmatizace. Rovněž jsou podrobně rozebrány kategorie a hodnoty, které jsou u substantiv sledovány. Velká pozornost byla věnována i slovnědruhovým přechodům zvláště mezi

(i) substantivy a adjektivy

(ii) substantivy a adverbii

a také propriím.

Literatura

Hajič, J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum.pdf??

Hlaváčová, J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: Univerzita Karlova. (Disertační práce.) Dostupná z: <http://utkl.ff.cuni.cz/phpBB3/viewtopic.php?f=11&t=1>

Karlík, P. – Nekula, M. – Rusínová, Z. a kol. (1995): Příruční mluvnice češtiny (PMČ). Praha: Nakladatelství Lidové noviny.

Komárek, M. a kol. (1986): Mluvnice češtiny 2. Praha: Academia.

Kopečný, F. (1962a): Základy české skladby. Praha: Státní pedagogické nakladatelství.

Kopečný, F. (1962b): Slovesný vid v češtině. Praha: Nakladatelství ČSAV.

Mel'čuk, I. A. (1996): Dependency Grammar. Albany: Suny Press.

Michalec, V. – Veselý, V. (2016): K významu substantiv s převahou plurálových tvarů. Slovo a slovesnost, roč. 77, č. 3, s. 163–184. Dostupné z: WWW: <http://sas.ujc.cas.cz/archiv.php?art=4329>

Najbrtová, K. (2013): Zavolal jsem si taxík/taxíka – životná koncovka neživotných maskulin v akuzativu singuláru. In: Bednaříková, B. – Hernandezová, P. (eds.), Od slova k modelu jazyka. Sborník z 13. mezinárodního setkání mladých lingvistů. 1. vyd. Olomouc: Univerzita Palackého v Olomouci, s. 266–281.

Osolsobě, K. (1996): Algoritmický popis české formální morfologie a strojový slovník češtiny. (Disertační práce.) Brno: Masarykova univerzita.

Osolsobě, K. (2015): Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování). Časopis pro moderní filologii, 97, č. 2, s. 136–145.

Osolsobě, K. – Hlaváčová, J. – Petkevič, V. – Šimandl, J. – Svášek, M. (2017): Nová automatická morfologická analýza češtiny. Naše řeč, 17, č. 4, s. 225–234.

Osolsobě, K. – Žižková, H. (2019): Homonymie mezi apelativy a proprii jako problém automatické morfologické analýzy češtiny. Acta onomastica (v recenzním řízení).

Petkevič, V. (2014): Morfologická homonymie v současné češtině. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu.

Petkevič, V. – Hlaváčová, J. – Osolsobě, K. – Svášek, M. – Šimandl, J. (2019): Parts of Speech in NovaMorf, a New Morphological Annotation of Czech. Jazykovedný časopis, 2019, roč. 70, s. 358–369.

Richterová, O. (2017): Od slovesa ke jménu a předložkám. Departicipiální formy v češtině. Praha: UK. (Disertační práce.) Dostupná z: <http://hdl.handle.net/20.500.11956/94103>

Šimandl, J. (2011): Číslovky: obecný rámec, číslovky základní a řadové. In: Štícha, Fr. (ed.), Kapitoly z české gramatiky (KČG). Praha: Academia, s. 689–727.

Šmilauer, V. (1972): Nauka o českém jazyku. Praha: SPN.

Štícha, F. a kol. (2013): Akademická gramatika spisovné češtiny (AGSČ). Praha: Academia.

Štícha, F. a kol. (2018): Velká akademická gramatika spisovné češtiny (VAGSČ). Praha: Academia.

Šulc, M. (2001): Životná koncovka -a v akuzativu singuláru neživotných maskulin. Slovo a slovesnost, roč. 62, č. 1, s. 53–61. Dostupné z: <http://ucnk.ff.cuni.cz/stahni.php#sulc.>.

Vondráček, M. (2013): Vlastnosti slov a slovních druhů. In: Adámková, P. – Uličný, O. – Bláha, O. (eds.), Studie k moderní mluvnici češtiny. Olomouc: Univerzita Palackého v Olomouci.

Žižková, H. (2019): Slovnědruhové přechody a přesahy jako problém automatické morfologické analýzy. Brno, Masarykova univerzita. (Disertační práce.) Dostupná z: <https://is.muni.cz/th/gomfh/>.

Korpusy řady SYN:

Český národní korpus – SYN2015:

Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: SYN2015: reprezentativní korpus psané češtiny. Ústav Českého národního korpusu FF UK, Praha 2015. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – SYN v6:

Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 6 z 18. 12. 2017. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz

Český národní korpus – SYN v7:

Křen, M. – Cvrček, V. – Čapka, T. – Čermáková, A. – Hnátková, M. – Chlumská, L. – Jelínek, T. – Kováříková, D. – Petkevič, V. – Procházka, P. – Skoumalová, H. – Škrabal, M. – Truneček, P. – Vondřička, P. – Zasina, A.: Korpus SYN, verze 7 z 29. 11. 2018. Ústav Českého národního korpusu FF UK, Praha 2017. Cit. 26. 04. 2019. Dostupný z WWW: <http://www.korpus.cz>.

¹ A to i v případě nečetných, ale možných užití ve významů verbálního substantiva, např. vězení: Ustavičné <vězení> v problémech ho deprimovalo.

² Substantivum činitel jakožto maskulinum životné nevykazuje zvláštnosti. Odlišení neživotného a životného maskulina činitel je pojednáno v § 3.1.2c.

³ Při určení rodu z ní vycházíme.

⁴ Tvary Ipl oky a okama (ob.čes.) jsou rozlišeny FMU -y / -ama; okama není tvar duálu. Lemma(oky) = lemma(okama) = lemma(očima) = oko.

⁵ Tvar je homonymní s Npl, Vpl lexému dement.

⁶ Přehled zachycuje jen nejběžnější mutace z obrovského množství všech substantivních globálních mutací (velká variabilita je zejména u cizích proprií).

⁷ Neprovedená diftongizace je typická pro část Moravy.

⁸ Tvary nespisovného lexému protěžovat budou vzhledem ke své poměrně vysoké frekvenci v korpusových datech obsaženy v morfologickém slovníku.

⁹ Na zbrani, kterou <Bensonovi> spáchali sebevraždu…; V roce 1822 se <Máchovi> přestěhovali na Staré Město...

¹⁰ Při desambiguaci je samozřejmě třeba dbát na náležitou interpretaci např. tvaru Petrů v kontextu manželé Petrů (lemma=Petrů) odešli do kina vs. Pořady Petrů (lemma=Petr) a Pavlů (lemma=Pavel) Novotných se mi líbí.

¹¹ V terminologii I. Melčuka (Melčuk 1996, s. 96) hodnoty jejich morfologických kategorií (zde rodu a čísla) nejsou závislé na jiných slovech ve větě.

¹²… většina volajících, anebo <mailujících> na včerejší horkou linku vidí...

¹³ Je třeba vyřešit praktickou otázku automatické morfologické analýzy, zda počítat při substantivizaci s oběma rody [GEN=[MF]]. Ve všech uvedených případech jde o substantivizaci, jejímž výsledkem je pojmenování osoby. Gramaticky může jít v češtině jak o substantivum rodu mužského životného (ten/oba/chladnokrevný/chladnokrevní/cizí cestující/vedoucí…), tak o substantivum rodu ženského (ta/obě/chladnokrevná/chladnokrevné/cizí cestující/vedoucí…). Tuto otázku je třeba řešit konzistentně a buď uvádět ve všech případech rody oba, nebo dát uživateli k dispozici argumenty, které vyjasní použití jiné strategie. V manuálu by měl být uživatel upozorněn na to, že značkování tohoto typu slovnědruhového přechodu (adjektivum na oucí/ící ￫ substantivum pojmenovávající osobu [GEN=[MF]]) se omezuje na seznam jmen osob tohoto slovotvorného typu (konverze), který si neklade nárok na úplnost a zohledňuje pouze jednotky vybrané na základě korpusově podložených frekvenčních analýz. Není tudíž vyloučeno, ba je naopak pravděpodobné, že v korpusu se ve všech frekvenčních pásmech vyskytují další doklady této slovnědruhové transpozice, na které současný stav automatické morfologické analýzy nebere zřetel.

¹⁴ Domníváme se, že přegenerovat masivně slovník by mohlo být kontraproduktivní, zbytečně by se přetížila desambiguace a výsledky by patrně neodpovídaly vynaloženému úsilí. Tento stav se ovšem může měnit. Disertační práce Žižková 2018 obsahuje návrhy pro desambiguační praxi substantivizovaných adjektiv opřenou o analýzu kolokací.

¹⁵ A jakou vládu my polistopadoví <doživší> se vůbec máme. Mohlo by v něm být sto procent <přeživších>...,... že by tito nově <přišedší> třeba nechtěli vzdychat jejich způsobem. Znenáhla pak první <přebrodivší> se podají si ruce a hoši přecházejí zachycujíce se živého provazu.

¹⁶ Podle Internetové jazykové příručky (IJP) <http://prirucka.ujc.cas.cz/?slovo=zavolanou#bref2> jsou to substantivizovaná adjektiva. V korpusu ale ty chyby, o nichž se IJP zmiňuje (psaní dohromady), jsou zastoupeny (nashledanou je značkováno jako částice, napováženou, naviděnou, narozváženou nejsou rozpoznány (tag=X.*), nazapřenou je značkováno jako adverbium. Navrhujeme – jak je uvedeno v textu – ponechat u psaní zvlášť substantivní interpretaci, lemmatem bude nerekonstruovaný tvar na.*nou (lemma(slyšenou) = slyšenou). U psaných dohromady, tedy u spřežek, navrhujeme homonymní řešení: [POS=[DI]]. Řazení slova nashledanou (příp. naneshledanou) mezi částice patrně souvisí s tím, že jako částice jsou interpretovány na rovině značky různé pozdravy: kromě pá a zdar, která jsou dosud interpretována jako substantiva, tak ahoj, nazdar, čau, čauky a nashledanou jsou částice, viz zde: <https://kontext.korpus.cz/freqs?ctxattrs=word&attr_vmode=visible&pagesize=40&q=~FQhiAihf6B&viewmode=kwic&attrs=word%2Clemma%2Ctag&corpname=syn_v6&attr_allpos=kw&fcrit=lemma_lc%2Fe%200%3C0%20pos%2Fe%200%3C0&flimit=1&freq_sort=&fpage=1&ftt_include_empty=>.

¹⁷ Doporučujeme značkovat jako neživotné maskulinum: drobné [peníze [GEN=I]].

¹⁸ K vážně vypadající nehodě vyjížděli v noci na včerejšek hasiči a policisté do <Hovězí> na Vsetínsku… Rekonstruovány budou například silnice z Horní Lapače do Fryštáku, z Uherského Hradiště do Jarošova nebo z Ústí u Vsetína do <Hovězího>... Brankář Láníček zamířil do <Zubří>...

Sjel ze značené trati až do <Zubřího>.

¹⁹ V připravovaném Akademickém slovníku spisovné češtiny (ASSČ) jsou však tyto tvary řazeny mezi substantiva.

²⁰ Viz případy jako Bylo <teplo>. × Bylo (mi) velmi <teplo>. × Bylo velké <teplo>.

²¹ Italská mafie v Česku „úřaduje“ po <tichu>.

²² Viz F. L. Čelakovský: Což je pánům! Ti na voze/ sedí pěkně v <suše>,/ ale chudý, ten za nimi/ v dešti, blátě kluše.

²³ Tvar je homonymní s nesklonným substantivem označujícím pokrm japonského původu.

²⁴ Tvar má jak interpretaci jmenného tvaru adjektiva (Pak ovázal pro všechno Edgarovy oči, velel přítomným, aby byli <tiši> a nalil bezvědomému zbytek jedu do úst...), tak okrajově i tvaru substantiva feminina tiš: Sám a sám si vyjdu v noční <tiši>, bílá cesta z mlh se vynoří...

²⁵ Domníváme se, že ačkoliv se nabízí interpretace substantivní, jde spíše o idiom adverbiální povahy, a to na základě významu něco je v suchu = něco je v pořádku/DOBŘE vyřešeno.

²⁶ Z korpusu SYN v6 uvádíme doklady na substantivní užití označkované jako tag=D.*:… ňák podezřelý <mrtvo>...,… nové <výtvarno>...,… pečlivě předestřené <pěkno>...,… právě probíhající silná oblačnost, neli úplné <zataženo>… atd. Substantivní užití v těchto případech bude moci být doplňováno do slovníku automatického analyzátoru průběžně podle potřeby. Nemělo by být automaticky přegenerováno.

²⁷ Osoby zemdlelé veletržním <nedýchatelnem> si kousek opodál mohly dopřát masážní kúru…, Výsledkem je až několikatýdenní toxické <nedýchatelno>…, Ze světa atomového <neviditelna>…, Na onom humanitním krásném <nepoznatelnu>…

²⁸ Řada rarit doložených v SYN v6 pochází z básnické tvořivosti Z. Rotrekla:… Podstatná jména (ženský a střední rod) <neobydlitelno> šťastnosti <bydlitelno> v <hledatelnu> bezmocno <hmatatelno> <obydlitelno> překráčivosti Hřebelcárna v iluzionárně tokaniště krváciva zítřství v zauzlovatelnosti včerejškárna trestárna dneškárna hoblovárna vězeňství sobědárnosti kráčenství očistiště sliniště beznadějství <vysvoboditelno vymknutelna> statečnoství v sebepřekročenství <stoupatelno> v krvácno bezmocenství leč neuhybatelnost potřebovatelna dýchatelniště potřebárna <stoupatelna> <zoufatelno> v štěstství pastýřství zranitelnosti vepřoviště odpočiniště <smytelno> hříšství pečovatelství o nezhojenskost dojniště nadzemství účastenství… Taková tvořivost jistě dobře ilustruje možnosti češtiny v celé její kráse. Její zachycení ovšem, jak se domníváme, přesahuje možnosti automatické morfologické analýzy.

²⁹ Stejně jako jsem si přisvojila <posvátno> představované vodou. Volrábka horuje pro <krásno>...

³⁰ A potom jsem pochopil, že ironie, <komično>, humor musí zemřít…

³¹ Desambiguace užití dopadlo to na <beton> dobře (beton je součástí spojení směřujícího k adverbializaci, v případě psaní dohromady má adverbiální spřežka nabeton význam ‚určitě‘) × dopadlo na <beton> tvrdě (beton je tvar substantiva v akuzativu) překračuje rámec možností automatické morfologické analýzy, a to přesto, že ruční desambiguace je patrně snadná.

³² Velmi speciální případ, nedoporučujeme rekonstrukci: lemma(Králové) = králová.

Page updated

Google Sites

Report abuse

08-01 Substantiva

1 Úvodní přehled

1.1 Představení kapitoly

1.2 Kategorie a hodnoty relevantní pro substantiva

2 Značkování substantiv podle kategorie SUB

2.1 Substantiva deverbativní

2.2 Substantiva číslovková

2.3 Substantiva ostatní

3 Značkování kategorie jmenného rodu (GEN)

3.1 Homonymie/Kolísání substantiv v rodě

3.1.1 Substantiva s odlišnými rodovými paradigmaty

3.1.2 Substantiva s výpůjčkami tvarů jiného rodu

3.1.3 Pomnožná substantiva-toponyma

3.1.4 Typ dni/dny, léta, lidé

3.1.5 Typ děti, oči, uši

3.1.6 Jmenný rod koordinované struktury

4 Značkování kategorie čísla (NUM)

4.1 Zvláštní případy

4.1.1 Singularia a pluralia tantum

4.1.2 Duál

4.1.3 Kolísání u toponym: typ Kaplice

5 Značkování kategorie pádu (CAS)

5.1 Nesklonná substantiva

5.2 Kolísání mezi deklinačními vzory

5.3 Inherentní homonymie a její desambiguace

6 Značkování dalších kategorií substantiv – kategorie zkratky, negace a globální a flektivní mutace

6.1 Značkování kategorie zkratky (ABR)

6.2 Značkování kategorie negace (NEG)

6.3 Globální mutace (GMU)

6.3.1 Typy globálních mutací u substantiv[6]

6.4 Flektivní mutace (FMU)

6.4.1 Typy flektivních mutací

7 Lemmatizace substantiv

7.1 Jednoduchá a vícenásobná substantivní lemmata

7.2 Lemma úplného paradigmatu

7.3 Lemma substantiva plurale tantum

7.4 Záporný prefix

7.5 Defektní paradigma

7.6 Rodinná jména

7.7 Přechylování v širším smyslu

7.7.1 Ženské podoby mužských protějšků

7.7.2 Ženská příjmení

8 Slovnědruhové přechody

8.1 Substantivizace adjektiv

8.1.1 Substantivizace adjektiv na -[(ou)|í]cí

8.1.2 Substantivizace adjektiv na -š-í/-(v)-š-í

8.1.3 Substantivizace adjektiv typu na <vysvětlenou>, na <zkušené> a typu mateřská

8.1.4 Substantivizace adjektiv typu nemocný

8.1.5 Substantivizace adjektiv typu popravčí

8.1.6 Substantivizace adjektiv typu bicí

8.1.7 Substantivizace adjektiv typu prostná

8.1.8 Substantivizace adjektiv typu šampaňské

8.1.9 Typ mýtné

8.1.10 Substantiva s adjektivním skloňováním typu odchodné

8.1.11 Substantivizace adjektiv typu taneční

8.1.12 Substantivizace adjektiv typu drobné

8.1.13 Substantiva s adjektivním skloňováním

8.1.14 Propria s měkkým adjektivním skloňováním, typ Veveří

8.1.15 Substantiva na .*sko/.*cko

8.1.16 Substantiva typu Palackého

8.2 Substantivizace adverbií

8.2.1 Typ horko, sucho

8.2.2 Substantiva typu dávno, dýchatelno

8.2.3 Substantiva typu budoucno

8.2.4 Substantiva typu komično

8.2.5 Predikativně užívaná substantiva

8.2.6 Dvouslovná adverbiální určení typu předložka – substantivum

8.3 Substantivizace zájmen

8.3.1 Substantivizace osobních zájmen

8.3.2 Substantivizace posesivních zájmen

8.4 Substantivizace dalších slovních druhů

9 Apelativa vs. propria

10 Webové adresy a emaily

11 Závěr

Literatura

6.3.1 Typy globálních mutací u substantiv^[6]

8.1.15 Substantiva na **.sko/.cko**