Každému tvaru je přiřazen reprezentativní tvar, tj. lemma, které:
● je základní jednotkou morfologického slovníku
● zastupuje celé paradigma slovních tvarů.
Lemma spolu se značkou jednoznačně popisuje jediný slovní tvar. Lemma lze tedy matematicky chápat jako zobrazení vystihující tzv. Zlaté pravidlo morfologie:
(lemma, značka) → slovní tvar
Zobrazení znamená, že dvojici (lemma, značka) se přiřadí právě jeden slovní tvar.
Obráceně však může být týž slovní tvar popsán větším počtem dvojic (lemma, značka) – v takovém případě je morfologicky homonymní.
Lemmata v pojetí NovaMorf jsou dvojího typu:
● jednoduchá: např. lemma(hustotě) = hustota, lemma(vyrobíme) = vyrobit
● vícenásobná (jako množina variantních lemmat): např. lemma(ačkoli) = lemma(ačkoliv) = {ačkoli, ačkoliv}
V § 2 pojednáváme o konceptu jednoduchého a vícenásobného lemmatu a v § 3 stručně popisujeme typickou lemmatizaci jednotlivých slovních druhů (podrobně je popsána v kapitolách věnovaných značkování jednotlivých slovních druhů).
Dosud se ve značkování korpusů používalo výhradně lemma jednoduché, například
lemma(pocukrovaným) = pocukrovaný
což vedlo v některých případech k porušení Zlatého pravidla morfologie (např. v pražském systému). Koncept jednoduchého lemmatu však není vhodný např. při zachycení pravopisných a flektivních dublet, triplet… Proto přichází NovaMorf s konceptem variantních jednoduchých lemmat – tzv. vícenásobného lemmatu (Hlaváčová 2009, s. 7nn.)
Existují slovní tvary, kterým je možné (vhodné) přiřadit více lemmat. Rozlišujeme tři typy vícenásobného lemmatu:
● vícenásobné lemma mutací1
● vícenásobné lemma agregátu2
● vícenásobné lemma trpného příčestí3
(1) Vícenásobné lemma globální mutace
Vezměme si např. slovní tvary diskuze a diskuse. Mají se analyzovat jako dvě různá lemmata, nebo varianty lemmatu jednoho? Kterého?
Tato otázka má závažné praktické pozadí. Jestliže bude např. uživatel korpusu vyhledávat slovní tvary lemmatu diskuze, mají se zobrazovat jen slovní tvary se -z-, nebo i tvary se -s-?
S problémem se potýká i syntéza. Podle čeho se má z více vygenerovaných slovních tvarů se stejnými charakteristikami vybrat jeden? Výběr správného tvaru z více stejně označených alternativ je totiž obecně nemožný.
Ideální by bylo, kdyby lemma vždy odpovídalo slovnímu tvaru, ale kdyby se zároveň všechny varianty jednoho lemmatu sdružily, aby se daly například snadno vyhledat v korpusech.
Toho lze dosáhnout zavedením konceptu vícenásobného lemmatu.
Vícenásobným lemmatem z našeho příkladu je tedy dvouprvková množina {diskuze, diskuse}. Prvkům této množiny říkáme variantní lemmata.
Vícenásobné lemma zavádíme i pro taková variantní lemmata, která jsou nespisovná, zastaralá nebo jinak příznaková. Máme tedy např. i vícenásobné lemma {otevřít, votevřít}, {okénko, okýnko, vokýnko}, {blůza, bluza, blusa, blůsa, blúza}.
Všechny výše uvedené příklady obsahují tzv. globální mutace. Pojem globální mutace je nerozlučně spjat s pojmem vícenásobného lemmatu:
(i) Platí, že je-li tvar popsán globální mutací, je lemmatizován vícenásobným lemmatem.
(ii) Pro všechny tvary značkované vícenásobným lemmatem tohoto typu platí, že jsou zároveň popsány i globální mutací (třeba i nulovou)
Poznámka o implementaci. Při implementaci vícenásobného lemmatu mutací je z ryze praktického hlediska vhodné umožnit uživateli pracovat s vícenásobným lemmatem (např. {okénko, okýnko, vokýnko} či {komunismus, komunizmus} prostřednictvím jediného jednoduchého reprezentativního lemmatu. Ve víceslovném lemmatu tedy navíc vždy specifikujeme jeden z členů lemmatu jako reprezentující celé vícenásobné lemma – tímto reprezentantem je vždy první jednoduché lemma ve vícenásobném lemmatu. Umožňuje to následující implementační možnosti, mezi nimiž by si uživatel mohl vybírat. Mějme například vícenásobné lemma {komunismus, komunizmus}, které představuje množinu, jež je sjednocením paradigmatu lexému komunismus a lexému komunizmus. Na dotaz [lemma="komunismus"] či [lemma="komunizmus"] může uživatel obdržet tyto alternativní výsledky:
(i) [lemma="komunizmus"] = [lemma="komunismus"] → všechny tvary obou paradigmat (se "z" i se "s"); v tomto případě by tedy reprezentativní jednoduché lemma komunismus nehrálo žádnou roli, ale plně by se využil potenciál víceslovného lemmatu;
(ii) [lemma="komunismus"] → všechny tvary pouze na "s", [lemma="komunizmus"] → všechny tvary pouze na "z"; zde by se nevyužilo ani potenciálu víceslovného lemmatu, ani reprezentativnosti lemmatu komunismus;
(iii) reprezentativní [lemma="komunismus"] → všechny tvary obou paradigmat (se "z" i se "s") – zde se právě uplatní reprezentativní lemma komunismus oproti nereprezentativnímu lemmatu komunizmus: nereprezentativní [lemma="komunizmus"] → všechny tvary pouze na "z".
Není ovšem vždy zcela jasné, které z lemmat jako reprezentativní zvolit, ale obdržet v nějakém frekvenčním seznamu vícepoložkový seznam lemmat místo lemmatu jednoduchého není uživatelsky praktické. Reprezentantem může být lemma s nulovou globální mutací; bude-li takových více, pak případně lemma frekventovanější. Vhodné reprezentanty navrhujeme u popisu jednotlivých slovních druhů.
Návrh vhodného reprezentanta není jen záležitostí té které implementace návrhu NovaMorf. Jde totiž o to, aby pražští a brněnští (a případně další) tvůrci korpusů užívajících značkování NovaMorf nerozhodovali nezávisle na sobě, kterého reprezentanta zvolit. Mohl by tak vzniknout nežádoucí rozdíl. V NovaMorf tedy navrhujeme takového reprezentanta, který by měl být vždy týž ve všech implementacích (pražské, brněnské, případné další...).
V souvislosti s variantami (ii) a (iii) výše je, jak se ukazuje, pro implementaci vícenásobného lemmatu mutací vhodné pracovat mimo reprezentativní lemma ještě s pojmem paradigmatického reprezentativního lemmatu / paradigmatického lemmatu (ne nutně jednoduchého). Toto lemma reprezentuje část tvarů zahrnutých pod vícenásobné lemma a tvořících jedno paradigma: takovým paradigmatem je například množina tvarů substantivního lexému komunismus psaných s -s – zde je jednoduché paradigmatické lemma komunismus; jiným pak množina tvarů substantivníko lexému komunizmus psaných s -z – zde je jednoduché paradigmatické lemma komunizmus. Složitější je lemmatizace sloves. Například lemmatizace
slovesného tvaru omyl, kde:
lemma(omyl) = {omýt, omejt, vomýt, vomejt}
reprezentativní lemma: omýt
paradigmatické lemma: {omýt, omejt} – reprezentuje subparadigma tvořené tvary lexému omýt a lexému omejt
a
slovesného tvaru vomyl, kde:
lemma(vomyl) = {omýt, omejt, vomýt, vomejt}
reprezentativní lemma: omýt
paradigmatické lemma: {vomýt, vomejt} – reprezentuje subparadigma tvořené tvary lexému vomýt a lexému vomejt
Uživateli se tak umožní vyhledávat třeba jen spisovné, nebo jen obecněčeské tvary.
Jiným případem jsou tvary slovesa myslet/myslit.
Tvary prézentní (myslím, myslíš...) a tvary imperativní (mysli, mysleme, myslete) patří do paradigmatu lexému myslet myslit;
infinitiv myslet a tvary l-ových příčestí (myslel, myslela...) patří do paradigmatu lexému myslet;
infinitiv myslit a tvary l-ových příčestí (myslil, myslila...) patří do paradigmatu lexému myslit.
Uveďme nyní příklady lemmatizace uvedených typů tvarů (myslím, myslet, myslit, myslela, myslila):
(a) lemma(myslím) = {myslet, myslit}
reprezentativní lemma: myslet
paradigmatické lemma: {myslet, myslit} – reprezentuje subparadigma tvořené tvary lexému myslet a lexému myslit
(b) lemma(myslet) = {myslet, myslit}
reprezentativní lemma: myslet
paradigmatické lemma: myslet – reprezentuje subparadigma tvořené tvary lexému myslet
(c) lemma(myslit) = {myslet, myslit}
reprezentativní lemma: myslet
paradigmatické lemma: myslit – reprezentuje subparadigma tvořené tvary lexému myslit
(d) lemma(myslela) = {myslet, myslit}
reprezentativní lemma: myslet
paradigmatické lemma: myslet – reprezentuje subparadigma tvořené tvary lexému myslet
(e) lemma(myslila) = {myslet, myslit}
reprezentativní lemma: myslet
paradigmatické lemma: myslit – reprezentuje subparadigma tvořené tvary lexému myslit
Podrobněji uvedeme reprezentativní lemmata (a případně i lemmata paradigmatická) ve složitějších případech u jednotlivých slovních druhů.
U jednoduchých lemmat je pochopitelně reprezentativní i paradigmatické lemma stejné jako samo jednoduché lemma.
(2) Vícenásobné lemma flektivní mutace základního tvaru
Zvláštním podtypem jsou vícenásobná lemmata, jejichž složky obsahují mutaci flektivní. Tento typ lemmatu se použije pouze v případě, že se flektivní mutace týká základního tvaru, který se užívá pro označení celého paradigmatu. (Jde tedy spíše o vícenásobný tvar lemmatu.) Jde např. o vícenásobná lemmata {báj, báje}, {dělat, dělati}, {myslit, mysliti, myslet, mysleti}.
Pro všechny tvary v rámci tohoto typu platí, že jsou značkované jak vícenásobným lemmatem, tak každou z jeho složek (tj. tyto tvary náleží ke každému z variantních lemmat).
Koncept vícenásobného lemmatu se nepoužije v případě, že se flektivní mutace týkají jiného než základního tvaru. Například v paradigmatu se může táž kombinace jmenného rodu, čísla a pádu vyjádřit různými morfy, jež jsou popsány odlišnými flektivními mutacemi: např. substantivum maskulinum neživotné popel má tři podoby genitivu singuláru: popela, popele, popelu, které jsou rozlišeny jen značkami, lemma je však jednoduché:
lemma(popela) = lemma(popele) = lemma(popelu) = popely
K vícenásobným mutacím těchto typů u sloves viz též Osolsobě (2020).
Koncept vícenásobného lemmatu jakožto množiny lemmat přiřazené jednomu slovnímu tvaru poslouží i pro popis lemmat agregátů. Vícenásobné lemma agregátu obsahuje lemmata jednotlivých složek agregátu (viz kapitola Agregáty # 08-15).
Slovní tvary s hodnotou kategorie VRB=T (slovesný tvar je trpné příčestí) zahrnujeme oproti dosavadním systémům značkování mezi adjektiva. Tyto tvary mají navíc vždy NOM=J (= jmenný tvar). Vzhledem k tomu, že může být užitečné vědět, z jakého slovesa dané trpné příčestí vzniklo, je rozumné příslušné sloveso přidat do vícenásobného lemmatu. Vyhovíme tak i tradičnímu chápání trpného příčestí jako slovesného tvaru.
Například tvar uzavřen je lemmatizován takto:
lemma(uzavřen) = {uzavřený, uzavřít}.
Tvar myšlena bude lemmatizován takto:
lemma(myšlena) = {myšlený, {myslet, myslit}}, neboť tvar je odvozen od fundujícího slovesa myslet/myslit lemmatizovaného vícenásobným lemmatem.
reprezentativní lemma: {myšlený, myslet}
paradigmatické lemma: {myšlený, {myslet, myslit}} – reprezentuje paradigma adjektivního lexému myšlený i fundujícího slovesa myslit/myslet.
Podoba lemmat je podrobně popsána v kapitolách věnovaným jednotlivým slovním druhům. Zde uveďme jen několik obecných zásad v souvislosti s některými slovními druhy a podrobnější rozbor lemmatizace zájmen.
Mají-li substantiva, adjektiva a číslovky úplné paradigma nebo je-li v paradigmatu tvar nominativu singuláru (Nsg), je lemmatem tento tvar (příp. tyto tvary jako variantní lemmata). U pluralií tantum je lemmatem nominativ plurálu (Npl), existuje-li. Pod lemma (= tvar Nsg maskulina v pozitivu) budou, tak jak tomu bylo doposud, zahrnuty tvary prvního, druhého a třetího stupně a navíc tvary s prefixoidem sebe- tvořené pravidelně od jednoho kmene (nový/novější/nejnovější/sebenovější), byť i redukovaného (hluboký/hlubší/nejhlubší/sebehlubší).
Další podrobnosti viz kapitola Adjektivum, # 08-02, § 2.2. U adjektiv buď neexistujících v pozitivu, nebo u adjektiv se supletivním tvořením komparativu a superlativu je lemmatem příslušný komparativ.
Lemmatem zájmenného tvaru je tvar Nsg, existuje-li.
U osobních zájmen (i osobních vztažných) se ctí osoba a číslo, ve 3. osobě i jmenný rod, například:
lemma(mně) = já
lemma(tě) = ty
lemma(mu) = lemma(jeho_PronPers) = on/ono (konkrétní lemma, tj. on nebo ono, se určí disambiguací, podobně níže)
lemma(ní) = ona
lemma(ono_PronPers) = ono
lemma(je_PronAsg) = ono
lemma(nás) = my
lemma(vámi) = vy.
Ve třetí osobě plurálu osobních rodových zájmen je lemmatem tvar Npl oni pro tvary osobního rodového zájmena maskulin životných v plurálu, tvar Npl ony pro tvary osobního rodového zájmena maskulin neživotných a feminin v plurálu, tvar Npl ona pro tvary osobního rodového zájmena neuter v plurálu: např. lemma(jich) = oni/ony/ona (konkrétní lemma, tj. oni nebo ony nebo ona, se určí disambiguací, podobně níže).
Osobní vztažná:
lemma(jehož_PronPersRel) = jenž/jež
lemma(jíž) = jež
lemma(jichž) = lemma(je_PronPers) = jenž/jež
U posesivních zájmen (i posesivních vztažných) se ctí posesivnost a osoba (u první a druhé osoby), u posesiv s posesorem ve třetí osobě navíc jmenný rod a číslo posesora:
lemma(mého) = můj
lemma(mých) = můj
lemma(tvému) = tvůj
lemma(tvoji) = tvůj
lemma(našeho) = náš
lemma(našimi) = náš
lemma(vašeho) = náš
lemma(vašim) = váš
lemma(jeho_PronPoss) = jeho
lemma(jejím) = její
lemma(jehož_PronPossRel) = jehož
lemma(jejímž) = jejíž
lemma(jejich) = jejich
lemma(jejichž) = jejichž
Obecně platí, že lemma tvaru je tomuto tvaru co nejbližší (z hlediska kategorií: například u osobních a posesivních zájmen). Vyčerpávající podrobnosti viz kapitola Zájmena # 08-03, § 2.
Lemma sloves je vždy vícenásobné, protože tvar infinitivu má vždy dvě možné koncovky: -t a -ti, nebo -ct a -ci. Jako reprezentanta vícenásobného lemmatu navrhujeme:
-t pro typ -t / -ti
-ci pro typ -ci / -ct
Pod lemma (tvar v pozitivu) budou, tak jak tomu bylo doposud, zahrnuty tvary prvního, druhého a třetího stupně a navíc tvary tvořené prefixoidem sebe- tvořené pravidelně od jednoho kmene (nově/nověji/nejnověji/sebenověji), byť i redukovaného (hluboce/hlouběji/nejhlouběji/sebehlouběji).
Další podrobnosti viz kapitola Adverbia # 08-06, § 3.5. U adverbií buď neexistujících v pozitivu, nebo u adverbií se supletivním tvořením komparativu a superlativu je lemmatem příslušný komparativ.
U ostatních slovních druhů je lemmatem typicky jednoduché lemma (= daný tvar), pro zachycení variant se užívá vícenásobného lemmatu (např. u synonymních podob předložek typu poblíž/poblíže).
Je-li značkovaný tvar tvarem defektního paradigmatu, typicky nerekonstruujeme Nsg a lemmatem je značkovaný tvar. Jako defektní paradigma pojímáme i adverbia po předložkách v kolokacích (např. na zítra, na sucho, k stáru). U těchto adverbií se značí pád (kategorie CAS) a lemmatem je tento značkovaný tvar (oproti např. adverbiu zítra, u nějž se hodnota CAS neurčuje).
Příklad:
Materiál připravil <na>(CAS=4) <zítra>(CAS=4).
Materiál připravil <na>(CAS=4) <zítra>(CAS=-) chystané zasedání.
Materiál bude předložen <na>(CAS=6) <zítra>(CAS=-) konaném zasedání.
Hlaváčová, J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: UK. (Disertační práce.) Dostupná z: <http://utkl.ff.cuni.cz/phpbb/viewtopic.php?f=11&t=1>
http://utkl.ff.cuni.cz/phpbb/viewtopic.php?f=11&t=1&sid=7356568cd923407468280b41797dabff
Osolsobě, K. (2020): Synonymní/variantní tvary infinitivu jako problém konzistentní lemmatizace. In: Bílková, J. - Kolářová, I. - Vondráček, M. (eds.), Lingvistika – korpus – empirie. Praha: ÚJČ.
1 Srov. odst. Globální mutace # 05, § 15.1 a Flektivní mutace # 05, § 15.2 v kapitole Morfologické kategorie a hodnoty.
2 Srov. kapitolu Agregáty # 08-15.
3 Srov. kapitolu Agregáty # 08-15 a Slovesa # 08-05.