V tomto textu je uveden souhrnný popis morfologických kategorií relevantních pro české slovní tvary (a pro cizí slova vyskytující se v českých textech) a pro jejich morfologické značkování.
U každé kategorie jsou uvedeny tyto údaje:
● hodnoty, kterých může nabývat, a jejich popis
● pro jaké druhy slovních tvarů je daná kategorie relevantní (nemá např. smysl určovat jmenný rod adverbií či stupeň přivlastňovacích adjektiv).
Každé morfologické kategorii je přiděleno zkratkové jméno.
Každé hodnotě je přiřazen jednoduchý symbol: písmeno, číslice nebo jiný znak. Tento symbol slouží jen ke kódování hodnoty morfologické kategorie. Kódy vycházejí převážně ze symbolů pro tytéž nebo podobné hodnoty v pražském systému (srov. https://wiki.korpus.cz/doku.php/seznamy:tagy, Hajič 2004).
Není-li nějaká kategorie pro daný slovní tvar relevantní (a nemá tedy smysl určovat její hodnotu), je hodnota této kategorie nedefinovaná. V těchto případech jí přiřazujeme hodnotu „-“ (krátký spojovník). Seznam kategorií je uveden v tabulce 1.
Tabulka 1. Seznam kategorií
#
kategorie
zkratkové jméno
viz
1
slovní druh
POS
§ 1
2
poddruh
SUB
§ 2
3
deixe
DEI
§ 3
4
vid
ASP
§ 4
5
zkratka
ABR
§ 5
6
jmenný rod
GEN
§ 6
7
číslo
NUM
§ 7
8
pád
CAS
§ 8
9
osoba
PER
§ 9
10
stupeň
DEG
§ 10
11
negace
NEG
§ 11
12
slovesný tvar
VRB
§ 12
13
jmenný tvar adjektiv
NOM
§ 13
14
typ agregátu
AGR
§ 14
15
globální mutace
GMU
§ 15.1
16
flektivní mutace
FMU
§ 15.2
Tato kategorie je základní v tom smyslu, že má definovánu alespoň jednu konkrétní hodnotu pro každý slovní tvar.
Hodnoty kategorie:
N: substantivum
A: adjektivum
P: zájmeno
C: číslovka
V: sloveso
D: adverbium
R: předložka
J: spojka
I: citoslovce
T: částice
F: cizí slovo (nové)
S: afixový segment (nové)
Z: symbol (nové)
X: neznámé slovo
(G): agregát (nové)… kód nevyužit – viz dále
V bezprostředně následujícím textu uvádíme charakteristiky jen nových slovních druhů a pojetí neznámého slova. Ostatní slovní druhy jsou tradiční, budeme je nadále považovat za známé a jejich definice uvádět nebudeme.
Cizí slovo je tvar, který se v češtině neohýbá a má význam daný cizím jazykem, není tedy v jazykovém systému češtiny adaptován. Tento tvar má však význam v nějakém jiném jazyce. Většinou se vyskytuje ve víceslovném cizím textu, který se může objevit uprostřed textu českého, nejčastěji jako slovo či sousloví (fait accompli), citát (hic sunt leones, panta rhei) nebo součást vlastního jména (Park City).
Příklady cizích slov: the, you, der, di, du, to, company, fait, raison, Park, City....
Nepatří sem však nesklonná slova, která již jsou součástí české slovní zásoby, jako např. kupé (ten ovšem může mít neobvyklý tvar Isg kupém, který však spíše potvrzuje, že toto slovo nepatří mezi slova cizí, neboť se přece jen skloňuje), lila (barva). Může se stát, že cizí slova, zvláště krátká, jsou homonymní se slovy českými (z uvedených příkladů jsou to slova der – imperativ slovesa drát, di a du jako nespisovné tvary slovesa jít, i slovní tvar to homonymní s českým ukazovacím zájmenem).
Lemma cizího slova je vždy stejné jako slovo samo. U cizího slova neurčujeme žádné další morfologické kategorie.
Cizí slova mohou v českém textu vystupovat v roli jiného slovního druhu, nejčastěji substantiva, protože bývají součástí nějakého vlastního jména. To ovšem neznamená, že jim připisujeme jiný slovní druh než cizí slovo.
Afixový segment je část slova, která je od ostatního textu oddělena nějakým oddělovačem – nejčastěji pomlčkou, mezerou, lomítkem. Může jít o segment prefixový nebo sufixový.
Prefixový segment je začátek slova, který stojí samostatně a teprve někde dál v textu je doplněn na plnovýznamové slovo.
Příklady:
česko a rusko - německý (prefixový segment: česko, rusko)
česko a rusko- německý (prefixový segment: česko, rusko)
česko a rusko-německý (prefixový segment: česko, rusko)
česko- a rusko - německý (prefixový segment: česko, rusko)
česko- a rusko- německý (prefixový segment: česko, rusko)
česko- a rusko-německý (prefixový segment: česko, rusko)
tří až čtyřprocentní (prefixový segment: tří)
tří- až čtyřprocentní (prefixový segment: tří)
Spojovník, který případně může stát bezprostředně za prefixovým segmentem, ať už s mezerou, nebo bez ní, není součástí ani slova, ani lemmatu.
Lemmatem prefixového segmentu je sám prefixový segment. V uvedených příkladech jsou tedy lemmaty slova česko, rusko a tří.
Sufixový segment je konec slova, který se připojením části předchozího textu stane celým slovem.
Příklady:
řekl/a (sufixový segment: a)
malý/á (sufixový segment: á)
Lemmatem sufixového segmentu je sám sufixový segment. Na rozdíl od prefixového segmentu může mít hodnoty některých morfologických kategorií. Ty se odvodí z celého slovního tvaru, který zkratkovitě nahrazují.
Symbol je:
● interpunkční znaménko (tečka, čárka, dvojtečka, středník, výpustka, spojovník, pomlčka, vykřičník, skupina vykřičníků, otazník, skupina otazníků, kombinace a otazníků, uvozovky, lomítko, závorky) nebo
● znak (tilda, zpětné lomítko, hvězdička, rovnítko, negace, menšítko, většítko, ampersand, zavináč, procento, paragraf, teplotní stupeň, matematická znaménka, znaky měn a další).
Neznámé slovo je takový slovní tvar, jehož slovní druh neumíme určit. Tato hodnota kategorie slovní druh už v pražském systému existuje a uživatelé korpusů s ní pracují.
Při ruční anotaci se neznámým může stát pouze takové slovo, které anotátor nezná a nemůže určit, neboť nedává smysl v žádném kontextu. Může to být například nějaká šifra nebo naprosto nesrozumitelný překlep (např. poslední slovo před touto závorkou se posunutím pravé ruky na klávesnici může stát neznámým slovem ořejkeo).
Při automatické morfologické analýze je tato hodnota přiřazena těm slovním tvarům, které nejsou rozpoznány, protože nejsou součástí morfologického slovníku. Z neznámého slova se může stát známé buď přidáním do slovníku, nebo dalšími metodami (guesser).
Neznámé slovo nemůže být součástí morfologického slovníku.
Agregát popisuje slovní tvar, který vznikl z více slov (patřících většinou k různým slovním druhům) a určení jeho slovního druhu je problematické. Vymezení agregátů a jejich podrobný popis jsou uvedeny v kapitole Agregáty # 08-15.
Příklady: zač, oň, byls.
Agregát je jediným slovním druhem, jehož kód nemůže být využit v morfologické značce. Je to proto, že agregát je vždy popsán pomocí vícenásobné morfologické značky, což je uspořádaná množina značek, které popisují jednotlivé složky agregátu. Tyto složky mají ale vždy jiný slovní druh, než je daný agregát. To, že jde o součásti agregátu, se z popisu pozná podle konkrétně určené hodnoty kategorie Typ agregátu (AGR). Podrobně v kapitole Agregáty # 08-15.
Kategorie SUB je relevantní pro všechny slovní druhy kromě předložek, citoslovcí, cizích slov a neznámých slov.[1] V případě nutnosti by nebyl problém hodnoty dodefinovat.
Hodnoty kategorie SUB jsou závislé na slovním druhu.
Poznámka. Podívejme se tedy na možné poddruhy jednotlivých slovních druhů. U každého slovního druhu se uvádí, jaké poddruhy se u něj rozlišují, a přiřazuje se jim kromě názvu i jednopísmenný kód. Tento kód je pokud možno v souladu s kódem 2. pozice v pražském systému morfologických značek, která se shodou okolností také nazývá Poddruh. V koncepci NovaMorf se však tato kategorie chápe zcela odlišně.
Poddruh v dosavadním pražském systému je směs hodnot popisující nejrůznější vlastnosti slovních tvarů. Některé hodnoty se týkají jednotlivých slovních tvarů, jiné celých paradigmat. V NovaMorf je poddruh kategorie striktně globální, a tedy relevantní vždy pro celé paradigma daného tvaru. Totéž platí i o druhém poddruhu, nazvaném Deixe.
Poznámka. Kategorie Poddruh je napříč slovními druhy velmi různorodá, u každého slovního druhu popisuje jiné vlastnosti. Některé vlastnosti, a tudíž i hodnot obou kategorií Poddruh jsou však stejné pro více slovních druhů. V takovém případě mají stejnou hodnotu, které přiřazujeme stejný kód. Ve všech ostatních případech se kódy pro kategorii Poddruh týkají jednoznačně jediného slovního druhu, a mají proto i různé kódy.
Níže je uveden výčet sdílených poddruhů. Přesnější vysvětlení s příklady následuje.
Je to především hodnota Ostatní, která je vždy kódována hodnotou 0 (nula). Týká se slovních druhů substantivum, adjektivum, sloveso, adverbium. Tato hodnota vlastně vyjadřuje jen tu informaci, že dané slovo nemá žádnou z vlastností sledovaných v kategorii. Proto není nutné tuto hodnotu dělit podle slovních druhů.
Poddruh přivlastňovací sdílejí zájmena a adjektiva. Jde o velmi podobnou vlastnost u obou slovních druhů.
Poddruh deverbativní sdílejí substantiva, adjektiva a adverbia. I zde jde o vyjádření podobné vlastnosti, totiž blízké příbuznosti se slovesem, proto je navržen kód V, který je zároveň kódem pro slovní druh sloveso. Poddruh deverbativní mají jen přesně vymezené skupiny slov (viz dále), nikoli všechny slovesné deriváty.
Poddruh číslovkové je relevantní pro substantiva, adjektiva, adverbia a afixové segmenty. Vyjadřuje, že dané slovo má nějakou souvislost s množstvím, mírou, čísly, a proto je navržen kód C, který je označením pro slovní druh číslovka. V některých gramatikách tato slova dokonce představují zvláštní poddruhy číslovek.
Rozlišují se tyto hodnoty poddruhu substantiv:
V: deverbativní (věznění, pokrytí...)
C: číslovkový – slova vyjadřující souvislost s číslovkami, např. pětka.
0: ostatní
Hodnota V náleží substantivům odvozeným ze sloves, vyjadřujícím slovesný děj a končícím v Nsg na -ní nebo -tí. Tato substantiva se mohou chovat ve větě jinak než ostatní substantiva. Jedině ona totiž mohou mít zvratné zájmeno (štítění se práce) a adverbiální rozvití příslovci pravidelně odvozenými od adjektiv (zpívání falešně).
Poznámka. Kopečný (1962) je považuje za slovesa pro jejich naprostou totožnost významovou (obsahovou) a pro paradigmatičnost, s níž se od slovesných základů derivují. Syntakticky i morfologicky ovšem patří mezi substantiva, proto je mezi nimi ponecháme. K vyjádření jejich slovesného základu stačí určení deverbativního poddruhu.
V pojetí NovaMorf se nerozlišují lexikalizovaná deverbativní substantiva, která nevyjadřují slovesný děj. Kopečný (1962) uvádí příklad vázání ječmene – lyžařské vázání. V takových případech patří do slovníku jediný záznam, a to vázání s poddruhem V. Podobně krmení zvířat – krmení pro zvířata.
Poznámka. U substantiv, která jsou sice odvozena od sloves, ale ne pravidelně, se poddruh deverbativní neurčuje. Týká se to např. slov utrpení (jiné je utrpění), koření, mání, osení, šírání.
Poznámka. SUB=V nemají ani kompozita typu krupobití, i když jejichž druhý člen, tj. bití, je samo deverbativní substantivum. Neexistují totiž kompozitní slovesa (*krupobít).
Rozlišují se tyto hodnoty poddruhu adjektiv:
U: přivlastňovací (matčin, otcův...)
G: odvozená od přechodníku přítomného (mající, sedící, beroucí...)
M: odvozená od přechodníku minulého (ušedší, usedší, nakoupivší...)
V: jiná deverbativní (namazaný, nakousnutý, namazán, nakousnut, rozpoznatelný...)
C: číslovkový – lexémy vyjadřující souvislost s číslovkami, např. dvojkový, čtyřčetný, ne však pětinásobný, to je číslovka násobná (viz dále).
0: ostatní (jarní, starý,...)
Poznámka. Adjektiva utvořená od přechodníků nejsou opět podle Kopečného (1962) normální adjektiva, neboť neplní všechny své funkce. Konkrétně nemohou být použita ve funkci jmenného přísudku (*žák je sedící). Tato námitka neplatí obecně, neboť některá tato adjektiva se už lexikalizovala (Ten čaj je vynikající. Žák je neslyšící.)
Poznámka. Poddruh deverbativní se týká adjektiv, která jsou utvořena od sloves pomocí přípon -ný, -tý (rozevřený, zbitý) a jejich jmenných tvarů (vyvolán, zbit) a dále přípony -telný.
Poznámka. Rozhodnutí, která adjektiva jsou deverbativní (SUB=V) a která ostatní (SUB=0), je někdy těžké. Nejednoznačné případy bude třeba řešit jednotlivě. Jako o kandidátech adjektiv, která by neměla mít SUB=V, lze uvažovat o adjektivech: horoucí, žádoucí, živoucí a vroucí ve významu vroucný (kolokace láska, modlitba). Také např. adjektiva šílený, hubený, kýžený, kořený, zkušený, přirozený, vznešený,… nemají poddruh SUB=V. Přestože k nim lze formálně utvořit sloveso, k němuž je lze vztáhnout, jde o vztah dost komplikovaný.
Poznámka. Ještě krátké vysvětlení, proč jmenný tvar adjektiva není poddruhem:
Krátký tvar má stejné lemma jako tvar dlouhý, čili např. lemma(stár)=starý. Poddruh je kategorie globální, tedy by měl blíže určovat celé paradigma nějakého lemmatu. Proto jmenný tvar nemůže být hodnotou kategorie poddruh.
U zájmen je třeba rozlišovat dva poddruhy. Běžné dělení zájmen totiž nebere v úvahu dvojí podstatu užívaných hodnot. Např. zájmeno něčí je zároveň přivlastňovací i neurčité. Druhá vlastnost je hodnotou kategorie, která byla nazvána Deixe.
Dvojí dělení zájmen bylo prvně použito v brněnském systému (https://nlp.fi.muni.cz/raslan/raslan11.pdf, https://nlp.fi.muni.cz/projekty/ajka/tags.pdf?, Jakubíček, Kovář, Šmerk 2011)
Vzhledem k tomu, že Deixe je kategorie společná více slovním druhům, totiž zájmenům, číslovkám, zájmenným adverbiím a substantivu kolikátiny, pojednáme o ní jako o zvláštní morfologické kategorii DEI dále.
Hodnoty obou kategorií, SUB i DEI, se samozřejmě mohou kombinovat (proto byly zavedeny), ovšem ne zcela libovolně. Možné kombinace jsou uvedeny v příloze (zajmena.xlsx).
Rozlišují se tyto hodnoty kategorie SUB pro zájmena:
o: osobní (já, ty, oni, se, si, sebe…)
N: substantivní (kdo, nikdo...)
U: přivlastňovací (můj, čí...)
v: ostatní, včetně vymezovacích (každý, jediný, (v)oba, (v)obé, (v)oboje, (v)obojí, jediný, sám, týž, veškerý, všechen)
Poznámka. Osobní zvratná zájmena sebou, sobě, sebe, se, si nemají nominativ, jejich lemma je stejné jako slovní tvar, tedy sebou, sobě, sebe, se, si.
Rozlišují se tyto hodnoty poddruhu číslovek:
z: základní (jedna, sto,..., kolik, tolik, nula...
r: řadové (druhý, pátý, poprvé, zaprvé…, několikátý, tolikátý...)
n: násobné (dvakrát, pětkrát, nadvakrát, dvojnásobně…, několikanásobně, tolikanásobný, šestinásobný, mnoh[oa]násobný...)
h: dílové (půl, čtvrt, polovina, polovice, třetina, pětina...)
u: vztažené k celku, tedy dohromady:
- úhrnné (dvé, patero...)
- souborové (dvoje, patery...)
- skupinové (dvojice, pětice….)
- druhové (dvojí, paterý...)
=: číslo samo, zapsané arabskými nebo římskými číslicemi (268, VI, MCM, lxii...)
Poznámka. Lexémy následujícího typu pokládáme za adjektiva: dvousetinový, dvojčetný...
Poznámka. Lexémy následujícího typu považujeme za substantiva: pětka, desítka...
Rozlišují se tyto hodnoty poddruhu sloves:
b: pomocná (pouze být,2 bývat, příp. bývávat)
0: ostatní (navštívit, koupat...)
Rozlišují se tyto hodnoty poddruhu adverbií:
P: zájmenná, tj.
místní (kudy, tudy, odkud, kamkoli, odkudkoli, nikudy, nikam...)
časová (kdy, kdykoli, nikdy…, pokaždé...)
způsobová (jak, všelijak, jakkoli, nijak...)
Tyto (sémantické) specifikace se však už v rámci kategorie SUB nerozlišují, neboť je to velmi nesnadné.
s: spřežková (dopředu, namodro, doruda…)3
C: číslovková (mnoho, málo, více, méně, moc, napůl, napolo...)
V: adverbia pravidelně odvozená od slovesných (SUB=V) adjektiv (zamyšleně, zmateně, unaveně, nečekaně, nepozorovaně, neohroženě, nevycválaně, nepokrytě, nehnutě...)
G: adverbia pravidelně odvozená od adjektiv, jež jsou odvozena od přechodníku přítomného (SUB=G) (nevěřícně, kajícně, přejícně, zavazujícně…)
0: ostatní
Poznámka. U zájmenných adverbií se určuje i kategorie deixe (DEI, viz níže) s hodnotami:
určitá
neurčitá
záporná
tázací
vztažná
ukazovací
jako u číslovek a zájmen.
Rozlišují se tyto hodnoty poddruhu spojek:
^ (stříška): souřadicí (a, ale, nebo...)
, (čárka): podřadicí (až, když, -li, protože...)
* (hvězdička): matematické operace (plus, minus/mínus, krát, děleno – neplést s děleno jako jmenným tvarem adjektiva dělený)
Poznámka. Slovní tvary abys, abyste, abychom, kdybych, kdybyste, kdybychom, ale i nespisovné abysem, abysme, kdybysem a kdybysme se v pojetí NovaMorf chápou jako agregáty.
Rozlišují se tyto hodnoty poddruhu částic:
p: přací (ať, kéž, nechť)
o: odpověďová (ano, ne, ba, nikoliv)
d: diskursní marker (cožpak, bohužel, prý)
Rozlišují se tyto hodnoty poddruhu afixových segmentů:
C: prefixový číslovkový (tří až pětipodlažní dům)
e: ostatní prefixové segmenty (česko-...)
p: postfixový segment (manžel -a/ku)
Rozlišují se tyto hodnoty poddruhu symbolů:
z: nepárové interpunkční znaménko (, : čárka)
l: levé párové interpunkční znaménko (( : levá kulatá závorka)
p: pravé párové interpunkční znaménko ( ) : pravá kulatá závorka)
N: substantivní znak (% : procento)
A: adjektivní znak (% : procento v agregátu: 5% – pětiprocentní)
J: matematické znaménko (spojovací znak) (+ : plus)
Agregát nemá poddruh, poddruh mají jen jeho složky, určené jednotlivými morfologickými značkami v rámci vícenásobné morfologické značky. Příslušnost k agregátu je vyjádřena konkrétní hodnotou kategorie Typ agregátu (AGR) v každé ze složek agregátu (podrobně v kapitole Agregáty # 08-15).
Ostatní slovní druhy, tedy předložky, cizí slovo a neznámé slovo, poddruh nemají.
Kategorie Deixe je relevantní pro zájmena, číslovky a zájmenná adverbia, i když ne všechny vyjmenované slovní druhy mohou nabývat všech jejích hodnot. Každé zájmeno, číslovka (s výjimkou čísel psaných číslicemi) a zájmenné adverbium však obdrží právě jednu z těchto hodnot,5 je-li nehomonymní. Konkrétní kombinace možných hodnot pro jednotlivé slovní druhy ukazují tabulky příslušné slovním druhům.
Rozlišují se tyto hodnoty deixe:
U: určitá (všechna osobní zájmena, určité číslovky…)
N: neurčitá (někdo, čísi, několik, poněkolikáté, zaněkolikáté, někdy...)
Z: záporná (nikdo, ničí, nijak...)
T: tázací (zájmena kdo(ž), co(ž), čí, který, jaký, kolik; číslovky pokolikáté, zakolikáté...; zájmenná adverbia kde, kdy...)
V: vztažná (an, jehož, jejichž, jejíž, jenž, kterýžto); slova kdo(ž), co(ž), jaký, který budou označena pouze jako DEI=T, nikoli jako DEI=V.
S: zvratná (se, si, sobě, sebe, sebou)
D: ukazovací (zájmena ten, takový; číslovky tolik, potolikáté, zájmenná adverbia tady, teď...)
Poznámka. Kategorie DEI by se dala využít i pro (i) substantiva a (ii) adjektiva s číslovkovým poddruhem (SUB=C). Hodnoty určitá (U), neurčitá (N), vztažná (V) a tázací (T) by se totiž dala využít též pro bližší určení speciálních adjektiv s číselnou nebo číslovkovou předponou (např. pětičlenný, několikaletý, kolikawattový).
Dokonce by se daly určit tyto hodnoty kategorie i u substantiv typu -násobek s číselnými předponami (pětinásobek, několikanásobek, kolikanásobek) či u některých dalších (např. kolikátka, třicítka, polovička).
Nejzajímavější je v těchto případech hodnota vztažná, neboť uvozuje vedlejší větu, což substantiv ani adjektiv není možné, viz příklady (1) a (2). (Za upozornění na tyto typy adjektiv a substantiv tým děkuje Karlu Olivovi.)
(1) Dopita ještě nemá jasno, kolikaletý kontrakt podepíše.
(2)... koeficienty, jež určují, kolikanásobek této základny budou ústavní činitelé dostávat.
Uvedených možností přesnějšího určení substantiv a adjektiv se však v pojetí NovaMorf nevyužívá. Pro substantiva a adjektiva je tak vždy DEI=-.
Poznámka. Hodnota neurčitá (DEI=N) se projevuje většinou pomocí speciálních předpon a přípon, které se připojují ke slovním tvarům s funkcí tázací (DEI=T).
Kombinovatelnost afixů s kořeny ukazuje schéma níže. Předpony a přípony z levého sloupce lze kombinovat se slovy v pravém sloupci, čímž vznikne slovo s neurčitou deixí (DEI=N).
Některé kombinace možné nejsou, např. nelze *něodkud (pouze odněkud), nepoužívá se *všelikdy, dále se netvoří neurčité číslovky pomocí přípon, pouze pomocí předpon.
Některé kombinace jsou velmi neobvyklé, ale nelze tvrdit, že jsou zcela vyloučené, např. ?kamžkolivěk.
Tabulka 2. Kombinovatelnost předpon a přípon s tázacími zájmeny, číslovkami a zájmennými adverbii při tvoření slovních tvarů s DEI=N (neurčitá), např. ně-kdy
Prefix nebo sufix
Tázací – zájmeno, zájmenné adverbium číslovka
bůhví-, čertví-, kde-, kdoví-, lec-, leda-, ledas-, málo-, ně-, nevím-, pámbuví-, pánbůhví-, sotva-, všeli-, všelis-, zřídka-
-koli, -koliv, -kolivěk, -si, -žkoli, -žkoliv
co, čí, jak, jaký, kam, kde, kdo, kdy, kudy, odkud
některé tázací číslovky
(Upraveno podle Hlaváčové 2009, s. 32)
K rozboru obou poddruhů patří tabulky se zařazením jednotlivých zájmen, zájmenných adverbií a číslovek. Jsou zatím uvedeny zvlášť v příloze (zajmena.xlsx).
Rozlišují se tyto hodnoty vidu:
D: dokonavý (koupit, napsat, doručit, narodit se...)
N: nedokonavý (kupovat, psát, doručovat, chodívat...)
O: obouvidý (referovat, absolvovat, izolovat...)
Poznámka. Stejně jako dosavadní morfologické systémy není ani v pojetí NovaMorf zavedena další hodnota pro iterativní slovesa, i když se, pokud je to možné, pravidelně generují pomocí slovesných derivačních vzorů.
Poznámka. Ve valenčním slovníku VALLEX (viz http://ufal.mff.cuni.cz/vallex) jsou vidové dvojice zpracovány jako jedno slovníkové heslo. V morfologickém slovníku to neděláme.
Členy vidové dvojice se v pojetí NovaMorf nepokládají za dvě různá slova. Bylo by však záhodno jejich slovníkové záznamy propojit zvláštním typem odkazu.6
Tato kategorie je relevantní pro všechny slovní druhy. U popisu jednotlivých slovních druhů ji explicitně neuvádíme.
Kategorie zkratka má pouze jedinou hodnotu, a to:
+: ano
Kladnou hodnotu kategorie dostávají zkratky, ostatní slovní tvary nemají tuto hodnotu definovanou, tedy „-“.
Poznámka. Zkratka může být libovolný slovní druh.
Poznámka. V případě, že zkratka zastupuje jeden konkrétní slovní tvar, je slovním druhem této zkratky slovní druh tvaru, který zkratka zastupuje. Např. č. jako zkratka slovního tvaru číslo je substantivum, a proto jsou pro ni relevantní všechny kategorie relevantní pro nezkratková substantiva, tj. vedle POS=N, ABR=+ i jmenný rod GEN, číslo NUM, pád CAS, negace NEG.7
Poznámka. Zkratky, které nezastupují jedno slovo, ale celé slovní spojení, je třeba hodnotit individuálně. Zastupuje-li např. zkratka jmennou frázi (USA, ODS apod.), je POS=N. U takových zkratek je možno stanovit i jmenný rod, číslo a pád podle toho, co zkratka zkracuje, nebo případně jak se používá. Zastupuje-li zkratka složitější frázi (např. atd., např.), je to agregát typu Z (více viz zkratkové agregáty v kapitole Agregáty # 08-15).
Kategorie je relevantní pro substantiva, adjektiva (včetně příčestí trpných), některé druhy zájmen, některé druhy číslovek, slovesná příčestí (přechodníky a příčestí činná) a agregáty.
Rozlišují se tyto hodnoty jmenného rodu:
M: mužský životný (přátelům)
I: mužský neživotný (náklaďáku)
F: ženský (slavnosti)
N: střední (kolo)
Poznámka. Kromě tradičních hodnot zachováváme i již zavedenou korpusovou praxi uplatněnou v pražském i brněnském systému a rozlišujeme dva mužské rody: životný a neživotný.
Poznámka. Nepřipouštíme proměnné (sdružené hodnoty).
Kategorie je relevantní pro substantiva, adjektiva (včetně příčestí trpných), zájmena, číslovky, slovesa (až na infinitiv), citoslovce a agregáty.
Rozlišují se tyto hodnoty čísla:
S: singulár (novou)
P: plurál (novými)
Duál
Duál se vyjadřuje jako plurál + duálová flektivní mutace FMU=du. Tuto mutaci mají:
A. Substantiva tvořící duální tvary v Ipl, a to u těchto lemmat (a jejich tvarů):
koleno (kolenou), noha (nohou, nohama), nožička (nožičkama), nožka (nožkama), očičko (očičkama), očko (očkama), oko (očima), ouško (ouškama), prs/prsa (prsou, prsama/prsoma), rameno (ramenou), ručička (ručičkama), ručka (ručkama), ruka (rukou, rukama), ucho (ušima), ušičko (ušičkama).
Mutace FMU=du od sebe odliší tvary:
Gpl: kolenou(FMU=du) vs. kolen
Lpl: kolenou(FMU=du) vs. kolenech vs. kolenách
Gpl: nohou(FMU=du) vs. noh
Lpl: nohou(FMU=du) vs. nohách
Ipl: nohama(FMU=du) vs. nohami
Ipl: nožičkama(FMU=du) vs. nožičkami
Ipl: nožkama(FMU=du) vs. nožkami
Gpl: prsou(FMU=du) vs. prsů
Lpl: prsou(FMU=du) vs. prsách vs. prsech
Ipl: prsama/prsoma(FMU=du) vs. prsy
Gpl: ramenou(FMU=du) vs. ramen
Lpl: ramenou(FMU=du) vs. ramenech vs. ramenách
Ipl: ručičkama(FMU=du) vs. ručičkami
Ipl: ručkama(FMU=du) vs. ručkami
Gpl: rukou(FMU=du) vs. ruk
Lpl: rukou(FMU=du) vs. rukách
Ipl: rukama(FMU=du) vs. rukami
I následující tvary mají FMU=du, ač nevyznačují opozici k nějakému jinému tvaru:
Ipl: očima(FMU=du)
Ipl: očičkama(FMU=du)
Ipl: očkama(FMU=du)
Ipl: ouškama(FMU=du)
Ipl: ušičkama(FMU=du)
Ipl: ušima(FMU=du)
B. Adjektiva, zájmena a číslovky s adjektivním skloňováním, která jsou v Ipl zakončena na -ma, a základní číslovky dva (dvěma), oba (oběma), tři (třema) a čtyři (čtyřma) v Ipl:
Ipl: krásnýma(FMU=du) vs. krásnými
Ipl: kterýma(FMU=du) vs. kterými
Ipl: dvěma(FMU=du) vs. dvěmi (hyperkorektní nespisovný tvar, který se ovšem může vyskytnout v textu)
Ipl: oběma(FMU=du) vs. oběmi (hyperkorektní nespisovný tvar, který se ovšem může vyskytnout v textu)
Ipl: třema(FMU=du) vs. třemi
Ipl: čtyřma(FMU=du) vs. čtyřmi
Ostatní tvary nemají FMU=du.
Příklady:
Šel do <kolen>(Gpl) / <kolenou>(Gpl).
Klečel na <kolenou>(Lpl) / <kolenách>(Lpl).
Zde tvar kolenou má flektivní mutaci FMU=du oproti neduálovým tvarům kolen a kolenách.
Zájem však vzbudil svými(Ipl) <dvěma/oběma>(Ipl) knihami(Ipl).
Zde tvar dvěma má duálovou mutaci FMU=du. Hyperkorektní tvar dvěmi/oběmi textu) a spisovný tvar dvěma jsou odlišeny právě absencí, resp. přítomností duálové mutace.
Podobně:
Hleděla na ni <upřenýma>(Ipl), <nevidoucíma>(Ipl) <očima>(Ipl, GEN=F), <které>(Npl) ani nezamrkaly.
Zde mají tvary upřenýma, nevidoucíma a očima přiřazenu FMU=du oproti tvarům neduálovým: upřenými(Ipl), nevidoucími(Ipl), které(Npl), jež mají mutaci nulovou. Flektivní mutací 0 / du se tak vyřeší opozice:
neduálové -mi / duálové -ma.
Podobně:
<Nohám>(Dpl), <kterýma>(Ipl) kopal do vzduchu…
Zde má tvar kterýma přiřazenu FMU=du oproti tvaru neduálovému: kterými(Ipl).
Tímto způsobem se tedy bez problémů zachytí shoda a koreference v duálu.
Poznámka k homonymii. Tvary syntaktických adjektiv zakončených v Ipl na -ma jsou ovšem také obecněčeské (neduálové) tvary, a tedy homomymní s tvary duálovými. Rozdíl v interpretaci je vystižen právě odlišnými hodnotami flektivní mutace FMU=oč vs. FMU=du.
Ve větě:
Zabejvali se <hroznejma pitomostma>(Ipl).
nemají tvary hroznejma a pitomostma hodnotu flektivní mutace FMU=du, jsou pouze obecněčeské. Obecněčeský morf -ma je tu vystižen obecněčeskou mutací FMU=ma.
Při konkurenci duálové vs. neduálové interpretace dáváme přednost duálové, takže navrhujeme toto značkování:
Ronaldo vstřelil gól <svejma(FMU=du) miliónovejma(FMU=du)> nohama.
jelikož se tyto tvary, byť také obecněčeské, shodují s duálovým tvarem nohama. Tvary svejma i miliónovejma jsou tak v uvedeném kontextu popsány dvěma mutacemi: obecněčeskou flektivní mutací (ej) a flektivní mutací duálovou (du).
Kategorie je relevantní pro substantiva, adjektiva, zájmena, číslovky, předložky a některá adverbia (odložil to na zítra). U předložek je význam kategorie CAS odlišný – vyjadřuje rekci. V tomto případě to sice není morfologická kategorie (je to kategorie syntaktická), avšak její přiřazení předložkám je velmi užitečné.
Rozlišují se tyto hodnoty pádu:
1: nominativ (chlapec, vítězní jachtaři)
2: genitiv (starobylých hradů, ohledně)
3: dativ (nadaným chlapcům, k)
4: akuzativ (dívku, přes)
5: vokativ (člověče!)
6: lokál (na řešeních)
7: instrumentál (monumentálními stavbami)
Inherentní homonymie
Pro případy inherentní homonymie nevyužíváme staršího konceptu sdružené hodnoty (proměnné) a tyto případy budeme řešit buď:
(i) buď disjunkcí, tj. že i po desambiguaci bude ponecháno víc hodnot,
(ii) nebo se při desambiguaci rozhodne ve prospěch častějšího případu – preferovaná varianta.
Existují tyto typy inherentní homonymie (přehled však patrně není vyčerpávající):
a) mezi genitivem a akuzativem:
ve větě
Užívá <stavení>
kde stavení lze interpretovat jako Gsg (užívá hezkého <stavení> [CAS=2]), nebo jako Asg (užívá hezké <stavení> [CAS=4]). Tento případ nastává u sloves, příp. deverbativních adjektiv s dvojí rekcí (genitiv a akuzativ) přímého předmětu;
b) mezi nominativem a instrumentálem:
ve větě
Při požáru byli <muži>
kde muži lze interpretovat jako Npl (Při požáru byli praví <muži> [CAS=1]), nebo jako Ipl (Při požáru byli pravými <muži> [CAS=7]);
c) mezi nominativem a akuzativem:
ve větě
Viděl město <Rychnov>
kde Rychnov je v Asg, nebo Nsg (nominativ jmenovací);
d) mezi nominativem a lokálem:
ve větě
Hovořil o městečku <Lštění>
kde Lštění je v Lsg, nebo Nsg (nominativ jmenovací);
e) mezi genitivem a dativem:
ve větě
Byl blíž <řešení> úkolu
kde řešení je v Gsg, nebo Dsg. Tento případ nastává u sloves, deverbativních adjektiv a předložek s dvojí rekcí (genitiv a dativ).
Kategorie je relevantní pro zájmena, slovesa, citoslovce a agregáty slovesného a spojkového typu.
Rozlišují se tyto hodnoty osoby:
1: první (já, sedím, abychom)
2: druhá (vy, připravujete, kdybyste)
3: třetí (ona, nim, chovají)
Kategorie je relevantní pro adjektiva, adverbia a číslovku první (prvnější).
Rozlišují se tyto hodnoty stupně:
1: pozitiv – i pro nestupňovatelná adverbia (krásný, zítřejší)
2: komparativ (výraznější, strměji)
3: superlativ (nejvýstižnější, nejodvážněji)
s: typ sebe + komparativ (sebelepší, sebenáročněji)
Poznámka. U stupňování se vedou spory, zda patří do morfologie, nebo spíše do slovotvorby. Oba přístupy mají svá pro i proti. Především s ohledem na korpusovou tradici se přikláníme k první možnosti.
Poznámka. První tři hodnoty, vyjádřené čísly, nepotřebují komentář. Čtvrtá hodnota, tedy s, však není běžná. V mluvnicích se do stupňování nezařazuje. Tvoření adjektiv a adverbií tímto způsobem je však velmi pravidelné a týká se všech stupňovatelných lexémů. Je tedy přirozené zachytit takto vytvořené tvary lemmatem společným i se stupňovanými tvary. V dosavadní praxi se tyto typy adjektiv a adverbií lemmatizují jako samostatné jednotky, např. sebepodivnější. Mnoho takových slov, např. sebechaotičtější, v pražském morfologickém slovníku dosud není, a tak zůstávají nerozpoznána.
Vzhledem k naprosté pravidelnosti jejich tvoření, vysoké produktivitě a zjevné příslušnosti k pozitivu adjektiv či adverbií je přirozené je začlenit do paradigmatu příslušného pozitivu.
Kategorie DEG je pro takový popis nejvhodnější. Pokračovat v číselné stupňovací řadě, jak by se na první pohled mohlo zdát přirozené, nám však nepřipadá vhodné, neboť slova typu sebekrásnější nezapadají logicky do řady 1., 2. a 3. stupně. Mají totiž odlišný význam. Proto jsme zvolili pro tento typ kód mimo číselnou řadu.
Poznámka. Oproti dosavadním zvyklostem ale nezahrnujeme pod společné lemma slovní tvary, které nemají stejný slovní základ (supletiva). Tedy např. tvar dříve lemmatizujeme jako dříve, nikoli brzy. Hodnota stupeň je u něj DEG=2, přestože neexistuje tvar s DEG=1. Slovní tvar nejdříve má rovněž lemma dříve a DEG=3. Brzy má lemma brzy a DEG=1 a žádné další stupně nemá. Podobně pro adjektiva brzký a dřívější. Přehledně:
lemma(brzy) = brzy [DEG=1]
lemma(dříve) = dříve [DEG=2]
lemma(nejdříve) = dříve [DEG=3]
lemma(brzký = brzký [DEG=1]
lemma(dřívější) = dřívější [DEG=2]
Poznámka. Nestupňovatelná lemmata mají mít vždy hodnotu DEG=1, i když jejich další stupně neexistují.
Seznam lemmat 2. stupně: dřív(e), dřívější, méně, míň, neméně, prvnější (první je číslovka, tedy POS=C), spíš(e), víc(e). Adjektiva (zájmenná) jiný, jinší, jinačí, onačí mají pouze DEG=1. Následující adjektiva budou lemmatizována takto: lemma(jinaký) = jinaký, lemma(jinačejší) = jinačejší, lemma(nejjinačejší) = jinačejší, lemma(jinější) = jinější, lemma(nejjinější) = jinější, lemma(onačejší) = onačejší, lemma(nejonačejší) = onačejší, lemma(onaký) = onaký.
Poznámka. U adjektiv rovný, stejný, poslední se rozlišováním přesného (zájmenného) a vágního (adjektivního) významu nelze zabývat, tudíž mají POS=A a jsou stupňovatelná (tvary komparativu a superlativu se v úzu prezentovaném korpusy vyskytují).
Tato kategorie je relevantní pro adjektiva, číslovky, slovesa a adverbia v omezené míře i pro některé číslovky (nemnoho) a substantiva (hlava nehlava).
Rozlišují se tyto hodnoty negace:
N: pro záporné slovní tvary substantivní, adjektivní, slovesné a adverbiální které začínají záporkou ne- (nevýhoda, nekonstruktivní, nepracuje, nejistě), a pro některé číslovkové a zájmenné lexémy: nejeden, nemnoho; nejiný, nekaždý.
A: pro ostatní substantivní, adjektivní, slovesné a adverbiální tvary (výhoda, konstruktivní, pracuje, jistě)
Pro číslovky jiné než nejeden, nemnoho a zájmena jiná než nejiný, nekaždý se negace neurčuje.
Poznámka. Kategorie negace úzce souvisí s lemmatizací. Podrobně je negace popsána v příslušných kapitolách o jednotlivých slovních druzích.
Kategorie je relevantní pro slovesa, adjektiva (trpné příčestí) a spojky aby, kdyby.
Rozlišují se tyto hodnoty slovesného tvaru:
P: indikativ prézentu (je, kolíbá)
B: budoucí čas (bude, ponese, půjde)
F: infinitiv (otevřít, péci, připraviti, říct)
I: imperativ (peč)
L: příčestí činné (byl, strouhal)
T: příčestí trpné (zavřen)
K: kondicionál (by)
p: přechodník přítomný (starajíc)
m: přechodník minulý (vstoupiv)
Poznámka. Podobnou množinu hodnot má i brněnský systém pro kategorii Mód.
Poznámka. Nekódujeme tradiční kategorie sloves, jako je Čas a Slovesný rod, protože existuje jen několik málo smysluplných kombinací hodnot těchto kategorií. V dosavadním pražském systému to jsou kombinace hodnot tří kategorií, a to:
Detailní určení slovního druhu (SUBPOS – pozice 2)
Čas (TENSE – pozice 9)
Aktivum/pasivum (VOICE – pozice 12)
Jediné kombinace, které se mohou vyskytnout, uvádí Tabulka 3.
Tabulka 3. Kombinace kategorií SUBPOS (2. pozice), TENSE (9. pozice) a VOICE (12. pozice) v dosavadním pražském systému.
Pozn.
Pozice
Označení tvaru
VRB (nové)
2
9
12
*
B
P
A
přítomný čas
P
*
B
F
A
budoucí čas
B
*
f
-
-
infinitiv
F
*
i
-
-
imperativ
I
*
p
R
A
příčestí činné (včetně přidaného -s)
L
1
s
H
P
pasivní příčestí se zakončením -s
*
s
X
P
pasivní příčestí
T
*
e
-
-
přechodník přítomný
p
*
m
-
-
přechodník minulý
m
*
c
-
-
lemma by, tedy kondicionál slovesa být
K
2
q
R
A
minulý čas archaický (vstalť)
3
t
F
A
archaický budoucí čas s -ť (buduť)
4
t
P
A
archaický přítomný čas s -ť (dávámť, ale i poradímť)
Kombinace hodnot, u nichž je v tabulce uvedena hvězdička (*), jsme sdružili do jedné hodnoty nové kategorie, kterou nazýváme „Slovesný tvar“, zkratka VRB.
Řádky tabulky bez hvězdičky jsme očíslovali a postupně je probereme:
1. řádka s názvem „pasivní příčestí“ se zakončením -s zahrnuje slova typu rytas, propuštěnas. Nejsou časté, v korpusech současné češtiny se téměř nevyskytují.
V pojetí NovaMorf je chápeme jako slovesný agregát (viz kapitola Agregáty # 08-15).
Poslední tři řádky s číslem 2 až 4, kde je na druhé pozici q nebo t, jsou archaické, s -ť na konci slovního tvaru. Zde není třeba zvláštní značky. Rozdíl oproti slovnímu tvaru bez -ť zachycujeme pomocí kategorie Flektivní mutace FMU (viz níže).
Místo uvedených tří kategorií (pozic 2, 9, 12 pražského systému) tedy zavádíme jedinou, jejíž hodnoty odpovídají všem jejich možným kombinacím. Je jich jen 9 – ty, které jsou v tabulce označeny jako *.
Tyto kombinace se tedy staly hodnotami nové kategorie nazvané slovesný tvar – hodnoty jsou uvedeny v posledním sloupci tabulky.
Níže popisujeme některé z hodnot kategorie VRB.
Tato hodnota kategorie VRB se neurčuje u slovního druhu sloveso. V pojetí NovaMorf byla totiž všechna příčestí trpná zařazena mezi jmenné tvary adjektiv. Formálně se tak chovají a často je velmi obtížné rozlišit, zda jde o příčestí trpné slovesa, nebo o jmenný tvar adjektiva. Pro jejich řazení k adjektivům hovoří i to, že u příčestí trpného rozlišujeme pro všechna čísla a rody nominativ a akuzativ:
Několik příkladů z korpusu, kde se objevují jmenné tvary adjektiv i příčestí trpná – jsou vesměs v akuzativu:
Za hodinu jsme měli <připravenu> hromadu klestí.
... měl <najatu> restauraci.
Hranol má hranu podstavy <rovnu> a=24 cm.
... máme... <hotovu> dokumentaci.
Psychotesty již máme <hotovy>.
Základní návrh chceme mít <hotov> v březnu.
Musíme mít <připraven> mírový plán.
Budeme mít <připravena> i vodní děla.
Přestože příčestí trpné vzniklo od slovesa tvoří protiklad k příčestí činnému a většinou vystupuje ve větě v její přísudkové části, formálně je možné ho vždy nahradit jmenným tvarem adjektiva.
Jelikož je obtížné stanovit slovnědruhovou příslušnost trpného příčestí, je jednodušší, považujeme-li je vždy za adjektivum.
Ve snaze zachovat těsnou vazbu ke slovesu však uvádíme u těch jmenných tvarů adjektiv, která jsou zároveň příčestím trpným, i tuto hodnotu kategorie VRB. Slovní tvar otevřen má tedy tyto morfologické hodnoty:
POS=A (Slovní druh: adjektivum)
SUB=V (Poddruh: deverbativní)
GEN=M/I (Rod: mužský životný nebo neživotný)
NUM=S (Číslo: singulár)
CAS=1 (Pád: nominativ nebo akuzativ v závislosti na kontextu)
VRB=T (Slovesný tvar: příčestí trpné)
NEG=A (Negace: pozitivní)
NOM=J (Jmenný tvar adjektiva)
Pro snazší určení, ke kterému slovesu se dané adjektivum váže, využíváme koncept vícenásobného lemmatu (viz kapitola Lemmatizace # 04):
lemma(otevřen)={otevřený, otevřít}
Bude-li třeba vytvořit dotaz na vyhledání všech sloves, včetně příčestí trpných, lze to učinit takto:
POS=V or (POS=A and VRB=T).8 Vyhledají se všechny slovesné tvary (POS=V) a ta adjektiva (POS=A), která jsou zároveň trpnými příčestími (VRB=T).
Hodnota „budoucí čas“ se týká jen tvarů budoucího času slovesa být (tedy budu, budeš, bude, budem, budeme, budete, budou) a nedokonavých sloves tvořících budoucí čas pomocí předpony po-/pů-.
Všechna dokonavá slovesa, byť sémanticky vyjadřující budoucí čas, mají hodnotu „indikativ prézentu“ (VRB=P).
Tedy: nesu (VRB=P), ponesu (VRB=B), ale přinesu (VRB=P).
Ostatní nedokonavá slovesa tvoří budoucí čas pouze opisně, tedy pomocí složených slovesných tvarů, a nemají tedy VRB=B nikdy.
Hodnotu „kondicionál“ má slovesný tvar by, spojky aby, kdyby, jakoby, dále slovesné agregáty bych, bys, bychom… a spojkové agregáty abych, abys, abychom…, kdybych, kdybys, kdybychom…
Tvar by se v NovaMorf považuje za neagregátový slovesný tvar, určuje se u něho VRB=K, lemma(by) = by.
V tabulce 4 je obsažen popis tvaru by.
Tabulka 4. Morfologický popis slovního tvaru by
Slovní tvar
Lemma
Morfologický popis
by
by
POS=V (slovesný tvar)
SUB=b (pomocné)
ASP= -
GEN= -
NUM= -
PER= -
NEG=A
VRB=K (kondicionál)
AGR= - (neagregát)
Tvar by může vyjadřovat všechny hodnoty osoby a čísla, tj. nejen 3. osobu obou čísel, ale i 1. a 2. osobu obou čísel, srov.:
Já by (j)sem to neudělal. (1. osoba)
Ty by sis to nepřál. (2. osoba)
Ty by (j)si to neudělal. (2. osoba)
On by si to nepřál. (3. osoba)
My by (j)sme to neviděli. (1. osoba)
Vy by (j)ste to neviděli. (2. osoba)
Oni by si to nepřáli. (3. osoba)
Tyto hodnoty se tvaru by nepřipisují (NUM= - & PER= -), z kontextu je však lze snadno odvodit.
Kondicionálové agregáty
Kondicionál může tvořit agregát, viz tabulka 5.
Tabulka 5. Typy kondicionálových agregátů
Agregát
typ
příklad
viz
{by, být}
slovesný agregát typu V (slovesný), podtyp kondicionálový
bys, bychom, bysme, byste
{aby, být}, {kdyby, být}
slovesný agregát typu J (spojkový), podtyp kondicionálový
abys, kdybychom, abysme, kdybyste
Za kondicionálové agregáty se považují tyto tvary:
● spisovné: bych, bys, bychom, byste
● nespisovné: bysem, byjsem, bysi, byjsi, bysme, byjsme, byjste
Morfologický popis agregátu bych, bys, bychom, byste, bysem, byjsem, bysi, byjsi, bysme, byjsme, byjste je uveden v kapitole Agregáty # 08-15, § 3.2.5 typ V.b (Tabulka 2 a 3).
Přechodník přítomný určujeme pouze u nedokonavých sloves, přechodník minulý pouze u sloves dokonavých. U obouvidých sloves se mohou vyskytovat oba typy přechodníků.
Podobně přechodníky pomocného slovesa být mohou být buď přítomné (jsa, jsouc, jsouce mají VRB=p), nebo minulé (byv, byvši, byvše mají VRB=m).
Vzhledem k tomu, že přechodníky se v současné době často nepoužívají v souladu se spisovnou normou, bylo by vhodné zahrnout do slovníku i případné nespisovné tvary.
Kategorie je relevantní pro adjektiva, některá zájmena vymezovací, číslovky vztažené k celku se jmennými tvary a některá adverbia.
Kategorie NOM může nabývat hodnot:
J: jmenný tvar (hotov, unesena)
-: irelevantní
Poznámka. Jmenné tvary adjektiv jsou v pražském systému popsány pomocí 2. pozice SUBPOS jako poddruh adjektiv. Pojetí poddruhu v NovaMorf je odlišné (viz výše § 2). Hlavní rozdíl spočívá v tom, že poddruh je globální kategorií, popisující všechny slovní tvary příslušející k jednomu lemmatu. Kdybychom popisovali jmenné tvary adjektiva pomocí kategorie Poddruh, nemohli bychom jmenný rod zahrnout pod společné lemma dlouhého tvaru.
Chceme-li, aby např. lemma slovních tvarů sláb i slabý bylo vždy stejné, tedy slabý, musíme tuto kategorii vyčlenit zvlášť.
Mezi jmenné tvary adjektiv zahrnujeme i tvary příčestí trpného sloves, neboť je často velmi obtížné je od sebe odlišit. Slovní tvar ukryt mohl být odvozen jak z adjektiva ukrytý, tak ze slovesa ukrýt. Podobně slovní tvar spokojen můžeme chápat jako odvozeninu od spokojit i od spokojený.
Vzhledem k tomu, že se ve větě chovají tyto tvary stejně jako jmenné tvary ostatních, tj. nedeverbativních adjektiv (např. mlád), a rozlišují pád (nominativ / akuzativ všech rodů a čísel), zařazujeme je mezi jmenné tvary adjektiv. Jejich slovním druhem tak není sloveso, nýbrž adjektivum.
Abychom však zachytili v popisu jejich slovesný charakter, je pro ně relevantní morfologická kategorie VRB, a to s hodnotou T (příčestí trpné), viz výše. Zároveň mají vícenásobné lemma, které jako své složky obsahuje:
adjektivum v dlouhém tvaru
infinitiv fundujícího slovesa
Uvědomujeme si, že toto řešení není zcela v souladu s běžným chápáním trpného příčestí (v mluvnicích se řadí ke slovesům), ale podařilo se nám tak jednoznačně popsat sporné případy, kdy není jasné, zda jde o adjektivum či o sloveso, aniž by se tím ztratila jakákoliv informace.
Poznámka. Jmenný tvar (NOM=J) mají i tvary přivlastňovacích adjektiv otcův, otcova, otcovo, otcovu, otcově, otcovi, otcovy, matčin, matčina, matčino, matčinu, matčině, matčini, matčiny. Odlišíme tím substandardní varianty typu máminá (sukně), dceřiný (podnik) apod., které tuto hodnotu kategorie Jmenný tvar mít nebudou (budou mít tedy NOM= -).
Poznámka. Jmenný tvar (NOM=J) mají i tvary číslovek vztažených k celku a majících jmenné tvary: čtvery boty.
Poznámka. Jmenný tvar (NOM=J) mají i příslovečné spřežky typu vytřít do <sucha>[NOM=J] a vytratit se po <anglicku> [NOM=J].
Tato kategorie je relevantní jen pro agregáty a je probrána v kapitole Agregáty # 08-15.
Mutace jsou takové dvojice slovních tvarů, které mají stejné lemma a které nelze rozlišit hodnotou žádné morfologické kategorie. Jinými slovy, jsou to takové dvojice slovních tvarů, pro které mají všechny ostatní morfologické kategorie stejnou hodnotu. Pojem mutace je širší než varianta, mezi mutace řadíme totiž nejen varianty (v obvyklém významu), ale můžeme mezi ně zařadit např. i dvojici vokalizované a nevokalizované předložky.
Také rozdílné tvary osobních zájmen, např. jeho, ho, něho, něj, jej, nejsou pravými, tj. libovolně zaměnitelnými variantami, přestože hodnoty všech jejich klasických morfologických kategorií jsou stejné.
V takových případech bychom sice mohli zavést nové kategorie se speciální sadou hodnot, které uvedené tvary rozliší, ale zavedení konceptu mutace umožní vyřešit tento problém pro všechny podobné případy naráz.
Rozlišujeme dva druhy mutací:
globální
flektivní
Tato kategorie je relevantní pro všechny slovní druhy.
Globální mutace jsou takové mutace, které se projevují ve všech tvarech paradigmatu, a to všude stejně, např. ortografická mutace komunismus – komunizmus. Z toho mimo jiné vyplývá, že globální jsou všechny mutace neohebných lemmat. Jde především o mutace adverbií, která se nestupňují, tedy např. zítra – zejtra.
Mezi globální mutace zahrnujeme i vyjádření (ne)vokalizovaných podob předložek (od – ode, k – ke – ku). Uvědomujeme si, že toto je zcela jiný typ mutací než např. mutace ortografické. Opět je třeba připomenout, že nám jde o co nejjednodušší a nejobecnější popis, takže kategorie mutace, zde konkrétně mutace globální (GMU), využíváme k rozlišení slovních tvarů, jejichž ostatní relevantní kategorie nabývají totožných hodnot.
Zajímavější jsou slova ohebná. Mnoho globálních mutací je specifických, týkajících se jednoho konkrétního lemmatu. I zde však existuje několik systematických typů variantních dvojic, které se mohou uplatnit u mnoha, někdy dokonce u všech lemmat určitých vlastností. Asi nejznámější jsou mutace cizích slov přejatých do češtiny, kde se v původním jazyce (většinou latina) píše s, ale v češtině vyslovuje z. Podle doporučení posledního vydání Pravidel českého pravopisu (Hlavsa et al. 1993) existuje několik pravidel a mnoho výjimek, jak taková slova správně psát, ale uživatelé jazyka je píšou různě. Tvary se z se někdy považují za spisovné, mutace se s za knižní nebo zastaralé, ale v textech se setkáme s oběma. Všechny takové dvojice považujeme za mutace.
Nejznámější mutace se týkají přípon -ismus – -izmus. Zde však připouštějí Pravidla možnosti obě a používá se více mutace -ismus, a to i tehdy, když se vyskytuje ve slově s více možnými s/z, např. lexémy izomorfismus (74) – isomorfismus (20). Čísla v závorce udávají frekvenci v korpusu SYN v8.
Další systematické mutace vznikají přidáním protetického v- před lexémy začínající na o-.
Důležitou vlastností globálních mutací je to, že všechny mohou být použity při vytváření odvozenin. Např. z mutací substantiv okno – vokno lze utvořit mutace adjektiva okenní – vokenní. Tyto mutace jsou opět globální.
Z uvedeného vyplývá, že základní tvary globálních mutací jsou vždy variantními lemmaty vícenásobného lemmatu.
Neplatí to však naopak – existují i taková vícenásobná lemmata, jejichž prvky nejsou globálními mutacemi (např. vícenásobné lemma {myslit, myslet} – zde jde o mutaci flektivní, viz dále), nebo nejsou mutacemi vůbec, což je případ všech agregátů.
Následující tabulka 6 ukazuje hlavní typy globálních mutací v češtině bez ohledu na jejich klasifikaci, to znamená, že nedělá rozdíl mezi kodifikovanými a nekodifikovanými mutacemi.
Tabulka 6. Hlavní typy globálních mutací
Typ
Příklad
Hodnoty GMU
o-vo
okno-vokno
0-v
ý-ej
mýdlo-mejdlo
0-j
z-s
klauzule-klausule
z-s
t-th
tema-thema
0-h
é-í
kolébka-kolíbka
e-i
é-ý
okénko-okýnko
e-y
á-e
originální-originelní
a-e
á-a
Abrahám-Abraham
d-k
é-e
acetylén-acetylen
ó-o
salón-salon
ý-y
apetýt-apetyt
í-i
alexandrín-alexandrin
ů-u
přezůvky-přezuvky
ú-u
Plútarchos-Plutarchos
s-š
student-študent
t-m
t-ť
vlaštovka-vlašťovka
n-ň
šnůra-šňůra
d-ď
dolík-ďolík
e-ě
Bardejov-Bardějov
z-ž
zbrzďování-zbržďování
jiné
Afganistan-Afghanistán
0-1
Interpretace znaků v tabulce 6. Poslední sloupec tabulky uvádí navržené kódy pro hodnoty kategorie GMU.
Kódy v horní části tabulky vyjadřují hláskovou změnu v mutacích.
Kód d zastupuje dlouhé mutace, k krátké.
Podobně m znamená měkké, t tvrdé.
Mutace, které se vymykají běžným typům, se označují čísly, jak ukazuje poslední řádek tabulky.
Hromadění typů mutací v jednom lemmatu se vyjádří více hodnotami, viz tabulka 7.
Tabulka 7. Hromadění mutací v lemmatu
Lemma
GMU
bluza
kz
blůza
dz
blúza
1z
blusa
ks
blůsa
ds
V tabulce 7 jsou zde naznačeny možné kombinace tří typů globálních mutací: s-z a d-k, přičemž dlouhá mutace se v tomto případě rozpadá na další dvě možnosti, a to ú-ů. Tento poslední typ není zcela typický, proto jsme ho nezahrnuli do tabulky s výčtem nejběžnějších globálních mutací. Mutaci s -ů- jsme tedy ponechali jako dlouhou s hodnotou d, mutaci s -ú- jsme označili číslicí 1.
Poznámka. Pro lemmata, která se vyskytují v mnoha mutacích (většinou jde o cizí vlastní jména), je nejvýhodnější označit mutace pomocí čísel, přestože by někdy bylo možné i v těchto jménech vystopovat uvedené typy. Může totiž dojít k tomu, že se v jednom lemmatu uplatní jeden typ vícekrát. V tom případě by označování mutací mohlo být krkolomné.
Příkladem takových mutací je množina různých zápisů země Afghánistán, kde se projevuje typ jiný a dva typy a – á. V korpusu SYN v8 se vyskytuje v osmi možných mutacích: Afghánistán, Afgánistán, Afganistán, Afghanistán, Afghanistan, Afganistan, Afghánistan, Afgánistan.
Kdybychom chtěli i v takových případech rozlišovat typy globálních mutací, bylo by třeba jejich hodnoty udávat i s místem v konkrétním lemmatu, kde k rozlišení typu dochází. Z uvedeného příkladu je ale zřejmé, že takto podrobný popis globálních mutací by byl pravděpodobně zbytečný.
Poznámka. Zvláštním typem globální mutace jsou případy, kdy se ve vulgarismu jedno signifikantní písmeno v kořeni nahradí hvězdičkou (*): ku*va místo kurva.
Flektivní mutace jsou takové mutace, které se projevují jen v některých tvarech paradigmatu. Jsou většinou systematické a projevují se především v koncovkách. Podle definice se nikdy netýkají celého paradigmatu, vždy jen některých kombinací hodnot gramatických kategorií. Systematické hodnoty kategorie FMU jsou z velké části zahrnuty přímo do ohýbacích vzorů.
Mezi flektivní mutace zahrnujeme i nekodifikované koncovky, které se však běžně používají, takže by se do systému paradigmat měly zahrnout jako varianty (mutace) koncovek spisovných. Příkladem je koncovka -ma v Ipl všech skloňovaných slov, nebo používání -ej u tvrdého adjektivního skloňování. V současném pražském systému nespisovné varianty většinou zahrnuty jsou a my je zachováváme. Pojetí NovaMorf se liší jen v jejich značení.
K mutacím dochází navíc u všech slov, jejichž skloňování kolísá mezi dvěma vzory stejného rodu, např. stroj a hrad, muž a pán, kost a píseň. Některé kombinace morfologických kategorií vytvoří podle obou vzorů stejný slovní tvar, u jiných je tvar odlišný. Právě tehdy je kategorie FMU relevantní. Příkladem je lemma kotel, které má v Lpl tvary kotlích, kotlech, nebo lemma popel, které má v Gsg tvary popela, popele i popelu.
Toto však není případ lemmat s kolísajícím rodem (např. kredenc). Přestože se z lingvistického hlediska může jednat o varianty, není třeba zde tvary odlišovat pomocí kategorie FMU, neboť jsou rozlišeny hodnotou kategorie rod (GEN=F/I). (Připomenutí: mutace se zavádějí jen pro rozlišení slovních tvarů, které mají hodnoty všech ostatních morfologických kategorií stejné.)
Nesystematické mutace frekventovaných slov mohou mít své vlastní, specifické hodnoty, ostatní navrhujeme značit pomocí číslic.
Poznámka. Pro ilustraci se tu ještě zmiňme o několika nepravidelných, leč četných mutacích.
Jde o tvary slovesa jít, které v přítomném a budoucím čase a v imperativu ztrácejí počáteční j-, např. jdu – du, půjdu – pudu, jděte – děte. Přiřazujeme jim FMU=g.
V první osobě plurálu se zde dokonce kombinují dva druhy mutace, oba flektivní. Jeden je pravidelný, tedy ztráta koncového -e, druhý nepravidelný, ztráta počátečního j-: jdeme, jdem, deme, dem. Tato kombinace hodnot gramatických kategorií lemmatu jít má tedy čtyři různé flektivní mutace (jednu spisovnou, ostatní nespisovné).
Mezi flektivní mutace zařazujeme i mutace skloňování osobních zájmen. Jde o krátké a dlouhé tvary: tebe – tě, mne – mě, mně – mi, jeho – jej. Odlišujeme je opět hodnotami FMU=D a FMU=K.
Mutace mají také osobní zájmena 3. osoby singuláru i plurálu, tedy on, ona, ono, oni, ony. Předchází-li těmto zájmenům předložka, mění se ve všech pádech počáteční j- na n-, případně je- na ně-. Dostáváme tedy dvojice jeho – něho, jej – něj, ji – ni, jimi – nimi atd. s hodnotami FMU=J a FMU=N. Pro Asg lemmatu on tak máme dokonce pět různých slovních tvarů: ho, jeho, něho, jej, něj, s hodnotami po řadě FMU=K, Dj, Dn, Kj, Kn. (Tvary typu doň, zaň sem nenezařazujeme, neboť je chápeme jako agregáty s jiným (vícenásobným) lemmatem, viz kapitola Agregáty # 08-15.)
Poznámka. Při označování hodnot kategorie FMU většinou nepřiřazujeme hodnotu mutacím, které se užívají v psaném textu nejběžněji. Považujeme je za tzv. nulové mutace. Alternativní přístup by mohl všem takovým mutacím přiřadit FMU=0, což ale považujeme za zbytečné. Příkladem může být flektivní mutace infinitivu sloves {-t, -ti}, kde se např. pro vyjádření lemmatu používá výrazně běžnější tvar -t. Seznam těchto „implicitních“ mutací je uveden pro jednotlivé slovní druhy v příslušných kapitolách.
Poznámka. Typy mutací je možno v případě potřeby doplňovat.
Poznámka. Je otázka, zda zahrnovat do obecného morfologického slovníku i mutace nářeční. V této verzi NovaMorf nářeční mutace zahrnuty nejsou, ale pro potřeby speciálních korpusů lze nářeční hodnoty mutací dodefinovat a uplatnit je v morfologickém značkování.
Poznámka. Zvláštním typem flektivní mutace jsou případy, kdy se ve vulgarismu jedno signifikantní písmeno v koncovce/kořeni nahradí hvězdičkou (*):
Mně to strašně <se*e>. místo: Mně to strašně <sere>.
Námitka, že právě popsaný způsob označování mutací je složitý, je oprávněná. Nicméně vzhledem k tomu, že jde problém variant je velmi komplexní a mnohotvárný, domníváme se, že jednoduché řešení ani neexistuje. Naším cílem bylo navrhnout jednoznačné odlišení mutací slovních tvarů a lemmat, aby bylo vždy splněno Zlaté pravidlo morfologie.
Hajič, J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum. je někde jako pdf??
Hlaváčová, J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: Univerzita Karlova. (Disertační práce.) Dostupná z: <http://utkl.ff.cuni.cz/phpBB3/viewtopic.php?f=11&t=1>
Hlavsa, Z. et al. (1993): Pravidla českého pravopisu. Praha: Academia.
Jakubíček, M. – Kovář, V. – Šmerk, P. (2011): Czech Morphological Tagset Revisited. In: Horák, A. – Rychlý, P. (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, s. 29–42. (https://nlp.fi.muni.cz/raslan/raslan11.pdf, https://nlp.fi.muni.cz/projekty/ajka/tags.pdf?)
Kopečný, F. (1962): Základy české skladby. Praha: Státní pedagogické nakladatelství.
VALLEX (viz <http://ufal.mff.cuni.cz/vallex>).
[1] Zájmena, číslovky a adverbia mají dva poddruhy: poddruh (SUB) a druhý poddruh, který jsme nazvali Deixe, viz kategorie DEI.
2 Včetně kondicionálového tvaru by.
3 Hodnotu „s“ mají adverbia, jež vznikla z ustrnulých spřežkových tvarů jmen (namodro, zatepla, kvečeru, pomálu, zticha...) s výjimkou zájmenných adverbií (odkdy, dokdy, beztak, odevšad...) a vztažných zájmenných příslovečných spřežek (načež, začež, očež, přičemž).
4 Dříve Poddruh II (SU2) a prapůvodně Funkce (FCE). Jde o název kategorie, nikoli o označení deiktických slov!
5 Nezájmenná adverbia a čísla psaná číslicemi budou mít hodnotu DEI=„-“ (= undef).
6 Kromě sloves se vid může určovat u deverbativních substantiv a adjektiv (ta mají SUB=V), např. spící, dělání (ASP=N), usnuvší, vydělání (ASP=D). V pojetí NovaMorf se však vid u deverbativních substantiv, adjektiv a adverbií neurčuje.
7 Tyto kategorie je v případě zkratek vhodné podspecifikovat (ponecháním nedesambiguovaných alternativ), tedy nesnažit se za každou cenu jim přiřadit konkrétní hodnotu.
8 Dokonce by stačilo jen POS=V nebo VRB=T, protože hodnota T jako hodnota slovesného tvaru je relevantní pouze pro adjektiva (POS=A).