08-15 Agregáty

Obsah

Podrobný obsah

1 Úvodní přehled

2 Lemmatizace a značkování agregátů

3 Typy agregátů

4 Vyhledávání agregátů v korpusech

5 Příklady morfologického popisu některých typických agregátů

1 Úvodní přehled

1.1 Představení kapitoly

Agregát popisuje slovní tvar, který zastupuje dva nebo více slovních tvarů (složek agregátu) a většinou mu není možné přiřadit jednoduše slovní druh.

Příklady:

naň = na něj… agregát naň má dvě složky: na a něj,

byls = byl jsi.

Agregát vzniká spojením těchto slovních tvarů, nejde však o prosté zřetězení – viz příklady výše. Většinou lze agregát ve větě původními slovními tvary nahradit, aniž by se změnil smysl věty. Agregátu nelze přiřadit žádný z klasických slovních druhů, až na slovesný agregát typu V (viz dále).

Agregátem není slovo, které vzniklo jedním z tradičních způsobů slovotvorby – skládáním. Takové slovo má svůj vlastní význam a již se jednoznačně přiřadilo k některému slovnímu druhu. Agregáty tedy například nejsou slova černobílý, novotvar, spolupořádat, přestože také vznikla složením různých slov. Mají totiž vlastnosti jediného slovního druhu (v uvedených příkladech po řadě adjektivum, substantivum, sloveso), a to jak morfologické, tak i syntaktické.

V § 1.2 je představena kategorie typ agregátu.

§ 2 Lemmatizace a značkování agregátů sse věnuje pojetí lemmatu agregátu (§ 2.1) a pojetí vícenásobné morfologické značky (§ 2.2).

V § 3 je uveden podrobný přehled všech typů agregátů (hodnoty kategorie AGR).

Problematice vyhledávání agregátů v korpusech se věnuje krátký § 4.

Závěrečný § 5 ukazuje na příkladech, jak bude vypadat popis některých typických agregátů.

1.2 Kategorie typ agregátu

U každé z částí agregátu se určují jednak hodnoty kategorií odpovídající slovnímu druhu, který nese daná část agregátu, jednak hodnota morfologické kategorie typ agregátu (AGR). Agregáty se dělí do tří základních skupin (agregáty zájmenné, slovesné a zkratkové) a v jejich rámci potom na typy (hodnoty kategorie AGR), viz tabulka 1.

Tabulka 1: Typ agregátu (AGR)

SUB

vysvětlení

příklady

viz

zájmenný agregát typu c

zač, nač, načpak

§ 3.1.1

zájmenný agregát typu n

zaň, naň, proň

§ 3.1.2

slovesný agregát typu N

oknas, latinys

§ 3.2.1

slovesný agregát typu A

věrnýs, podobnas

§ 3.2.2

slovesný agregát typu P

ses, sis, tys

§ 3.2.3

slovesný agregát typu C

koliks, pěts

§ 3.2.4

slovesný agregát typu V standardní

bylas, koupils

§ 3.2.5

slovesný agregát typu V kondicionálový

bych, byjste

§ 3.2.5

slovesný agregát typu D

včeras, jaks

§ 3.2.6

slovesný agregát typu T

snads, vždyťs

§ 3.2.7

slovesný agregát typu J standardní

nebos, protožes

§ 3.2.8

slovesný agregát typu J kondicionálový

abych, kdybysme

§ 3.2.8

slovesný agregát typu G

začs, načs

§ 3.2.9

zkratkový agregát typu B

atd., tj., čp.

§ 3.3.1

2 Lemmatizace a značkování agregátů

2.1 Lemma agregátu

Pro lemma agregátu využíváme nově zavedeného konceptu vícenásobného lemmatu. Lemma agregátu je tedy vícenásobné a jeho prvky jsou lemmata jednotlivých složek agregátu. U agregátů je však rozumné požadovat, aby jednotlivé prvky vícenásobného lemmatu byly uspořádány podle svého výskytu ve složkách agregátu. Lemmatem je tedy uspořádaná množina – seznam. Lemmatem agregátu naň je tak seznam {na, on}, nikoli {on, na}.

Použití vícenásobného lemmatu pro popis agregátů je výhodné pro vyhledávání jednotlivých lemmat v korpusech. Vícenásobné lemma zajistí, že agregát se bude nacházet ve výsledku vyhledávání podle lemmatu libovolné své složky. To neplatí pro konkrétní slovní tvary: např. dotaz na slovní tvar jemu nezahrne slovesný agregát jemus, což je ale správné, protože se skutečně jedná o dva různé slovní tvary. Dotaz na lemma on již ale oba slovní tvary najde, neboť lemma on je součástí vícenásobného lemmatu ({on, být}) slovního tvaru jemus.

2.2 Vícenásobná morfologická značka

Agregáty vyskytující se v současné češtině je možno jednoznačně popsat pomocí vícenásobného lemmatu a jediné morfologické značky. Takový popis ovšem není v některých aspektech úplně intuitivní, a především při vyhledávání ve značkovaných korpusech by mohl činit uživatelům potíže. Proto jsme se rozhodli ustoupit tlaku ze strany potenciálních uživatelů korpusů a navrhnout alternativní způsob, který přiřadí každému agregátu tolik morfologických značek, kolik má složek. Vznikl tak koncept vícenásobné morfologické značky, který je analogický vícenásobnému lemmatu.

Dalším důvodem pro zavedení vícenásobné morfologické značky je to, že agregáty byly v minulosti pravděpodobně mnohem četnější, a není tedy vyloučeno, že by původně navržený způsob jejich morfologického značkování nemusel vyhovovat značkování starších podob češtiny. Jestliže chceme udržet značkování synchronních i diachronních českých textů co nejpodobnější, je rozumné přistoupit na řešení, které bude obecnější. Zavádíme tedy vícenásobnou morfologickou značku.

Podobně jako vícenásobné lemma i vícenásobná morfologická značka se vztahuje k celému slovnímu tvaru agregátu. Je to tedy seznam morfologických značek, které popisují morfologické kategorie jednotlivých složek agregátu. A stejně jako u vícenásobného lemmatu agregátu je rozumné požadovat, aby byly prvky vícenásobné morfologické značky uspořádané podle složek agregátu, ke kterým se vztahují.

Popis agregátu naň bude tedy vypadat takto:

Lemma: {na, on}

Morfologická značka: {M1, M2}, kde M1 a M2 jsou morfologické značky slovních tvarů na a něho (v tomto pořadí), obě obohacené o informaci, že se jedná o součást agregátu.

Slovní druh agregát totiž nemůže být hodnotou kategorie POS pro jednotlivé složky, protože ty mají svůj vlastní slovní druh (v našem příkladě je to předložka na a zájmeno on). Jestliže tedy přistoupíme na označení jednotlivých složek agregátu samostatnými morfologickými značkami, musíme zachovat i označení jejich slovního druhu. Jinými slovy, morfologická značka v sobě nemůže mít zakódovanou hodnotu agregát pro kategorii slovního druhu.

Přesto je důležité umět agregát rozpoznat. K tomu využijeme nově zavedené kategorie AGR (Typ agregátu). Jednotlivé typy agregátů probereme níže.

Použití vícenásobné morfologické značky je podobné jako použití vícenásobného lemmatu. Korpusové manažery by měly být schopny prohledat celý seznam obsažený ve vícenásobné morfologické značce a zareagovat na hledanou hodnotu v její libovolné složce.

Např. dotaz na zájmeno v dativu (POS=P & CAS=3) by měl mít ve výsledku jak slovní tvar jemu, tak i jemus. Vyhledání všech slovních tvarů ve 3. os. sg. (PER=3 & NUM=S) by mělo mít ve výsledku opět oba tvary, tedy jemu i jemus. Slovní tvar jemus odpovídá navíc i dotazu na 2. os. (PER=2), protože druhou složkou tohoto agregátu je slovní tvar jsi.

3 Typy agregátů

Agregáty dělíme do tří základních skupin – agregáty zájmenné, slovesné a zkratkové – a v jejich rámci potom na typy.

Typ agregátu (AGR) je morfologickou kategorií, která je relevantní pouze pro agregáty. Všechny morfologické značky, které jsou součástí vícenásobné morfologické značky popisující daný agregát, mají stejnou hodnotu kategorie AGR.

Níže uvádíme možné hodnoty kategorie AGR.

3.1 Zájmenné agregáty

[AGR=[cn]]

Zájmenné agregáty jsou slovní tvary vzniklé spojením předložky a substantivního zájmena co nebo substantivního určitého (osobního) zájmena on. Podle toho rozlišujeme dva typy, které jsou tvořeny uzavřenou množinou tvarů. Můžeme je tedy zadat výčtem.

3.1.1 Zájmenný agregát typu c

[AGR=c]

Zájmeno co v agregátu typu c je tázací (DEI=T). Předložky, které tvoří první složku agregátu typu c, mají vždy akuzativní rekci.

Výčet všech agregátů typu c:

zač = za co, lemma: {za, co}
nač = na co, lemma: {na, co}
oč = o co, lemma: {o, co}
več = v co, lemma: {v, co}
začpak = za copak, lemma: {za, copak}
načpak = na copak, lemma: {na, copak}
očpak = o copak, lemma: {o, copak}
?večpak = v copak, lemma: {v, copak}
Xzač = za Xco, lemma: {za, Xco}
Xnač = na Xco, lemma: {na, Xco}
Xoč = o Xco, lemma: {o, Xco}
?Xveč = v Xco, lemma: {v, Xco}

Za X v posledních řádcích seznamu je možné dosadit některé ze slov, která se podílejí na tvorbě neurčitých zájmen, číslovek a příslovcí, totiž kdoví, bůhví, a další. Jejich seznam je uveden v tabulce v kapitole Zájmena # 08-03 (zajmena-prislovce-cislovky.xlsx).

Mezi agregáty nepatří proč, protože jde už o lexikalizovanou spřežku, kterou nelze zaměnit za pro co.

Tvary označené otazníkem jsou archaické a v dnešní češtině velmi řídké.

3.1.2 Zájmenný agregát typu n

[AGR=n]

Předložky, které tvoří první složku agregátu typu n, mají buď akuzativní (za, na, o, pro, v), nebo genitivní (do) rekci.

Výčet všech agregátů:

zaň = za něho, lemma: {za, on}
naň = na něho, lemma: {na, on}
oň = o něho, lemma: {o, on}
proň = pro něho, lemma: {pro, on}
veň = v něho, lemma: {v, on}¹

6.doň = do něho, lemma: {do, on}

U agregátů typu n není jasné, zda jeho druhá složka je něho, nebo něj. Tento rozdíl je u samostatných tvarů něho a něj vyjádřen pomocí flektivní mutace. V případě agregátu tento rozdíl v morfologické značce nezachycujeme, protože stejně není nijak vyjádřen.

3.2 Slovesné agregáty

[AGR=[NAPCVDTJG]]

Slovesné agregáty mají jako první složku nějaké slovo téměř libovolného slovního druhu, zatímco druhá složka je vždy sloveso být, a to

i) buď jako enklitické -s vyjadřující 2. osobu prézentu jednotného čísla (jsi): převrátils, jehos,

ii) nebo jako řetězce vyjadřující další kombinace osoby a čísla indikativu prézentu, ovšem pouze u kondicionálových spojek aby a kdyby (abys, kdybychom…, viz dále § 3.2.8 Typ J & VRB=K) a u kondicionálového slovesného tvaru by (bys, bychom…, viz dále § 3.2.5 Typ V & VRB=K). Na tento podtyp slovesných agregátů budeme dále odkazovat jako na kondicionálový.

Typ slovesného agregátu vyjadřujeme znakem, který kóduje příslušný slovní druh.

Slovesné agregáty se netvoří z předložek, citoslovcí, prefixových segmentů a obvykle ani z cizích slov (jako nového slovního druhu).

Slovesné agregáty nemůžeme zadat výčtem, jako jsme učinili u předchozích, zájmenných typů. Jde totiž o otevřenou třídu. Přesto můžeme slovesné agregáty rozdělit do několika typů podle slovního druhu jejich první složky.

Přes vysokou produktivnost tvoření slovesných agregátů jejich výskyt není příliš častý. Do morfologického slovníku je nezařazujeme, mohou se rozpoznávat pomocí guesseru. Jejich rozpoznání je velmi snadné – odtržení koncového -s u neznámých slov ponechá rozpoznatelný slovní tvar. Pokud jsou splněny podmínky (nečetné) uvedené dále, jde o slovesný agregát.

Než vyjmenujeme a popíšeme jednotlivé typy, poznamenejme, že slovesné agregáty bez ohledu na typ obvykle nevznikají ze slov, u nichž by přidané -s činilo potíže s výslovností:

*vlass, *pařezs.

Pro rozpoznávání slovesných agregátů v průběhu morfologické analýzy může být důležité ještě jedno zjištění, a to pořadí slovesného agregátu v klauzi. Slovní tvar jsi, který je implicitně přítomen ve slovesném agregátu (kromě kondicionálů), má většinou funkci pomocného slovesa a jako takový je příklonkou. Slovesný agregát tedy většinou stojí v klauzi na jejím začátku, aby bylo splněno Wackernagelovo pravidlo o druhé pozici příklonky v klauzi.

Toto pravidlo však není absolutně spolehlivé, jak ukazují následující příklady z korpusu SYN v6:

To není tak samozřejmé, jak říkals.

Někam jsem za Tebou prostě šla, kde docela určitě a úplně volně stáls.

Seňko, Seňuško, ty jedinej mně zůstals.

Zpívej, jako jsi zpíval, ještě než zešedivěls.

Doznals, co nečinils.

Blesku, český Blesku, nevím, kolik lidí již svou září osvítils.

Podle slovního druhu první složky agregátu rozeznáváme typy slovesných agregátů. Tyto typy označujeme podle kódu pro příslušný slovní druh.

3.2.1 Slovesný agregát typu N

[AGR=N]

První složku slovesného agregátu typu N tvoří podstatné jméno.

Příklady, které uvádíme, jsou vymyšlené, neboť tento typ se příliš často nevyskytuje, a vzhledem k tomu, že dosud nebyl v korpusech značkován, není snadné ho cíleně vyhledat.

Pouze poslední příklad je z korpusu SYN v6:

Bez oknas/okens nemohl vidět ven.

Oknus/Oknůms přidělal okenice.

To oknos/Ta oknas rozbil ty.

O okněs/oknechs nemluvil.

Oknems/Oknys viděl dobře.

Z latinys měl reparát loni.

3.2.2 Slovesný agregát typu A

[AGR=A]

První složku slovesného agregátu typu A tvoří přídavné jméno.

Ani tento typ agregátu se příliš často nevyskytuje, podařilo se nám však nalézt v korpusu SYN v6 příklad, kde implicitní jsi není pomocným, ale plnovýznamovým (zde sponovým) slovesem:

Věrnýs jak kůň, jak býk všaks vášnivý.

Tvar jsi je totiž většinou slovesem pomocným, jako např. v tomto případě:

Věrnýs nikdy nebyl.

Další příklad ukazuje slovesný agregát typu A utvořený ze jmenného tvaru přídavného jména:

Salome, podobnas úponku (z písně Karla Kryla)

3.2.3 Slovesný agregát typu P

[AGR=P]

První složku slovesného agregátu typu P tvoří zájmeno.

Příklady na slovesný agregát typu P již tak řídké nejsou.

Např. tvarů [tT]ys se v korpusu SYN2000 vyskytuje 1068, převážná většina pochopitelně v beletristické části. Ve slovesných agregátech typu P se však vyskytují i jiná zájmena, jak ukazují příklady:

Copaks to musel řešit zrovna takhle?

Tos řekl ty, já ne.

Všechno, o čems mluvil...

Mezi slovesné agregáty typu P se zároveň řadí dva frekventované agregáty, jejichž první složku tvoří zvratná zájmena se, si. Jsou to slovní tvary: sis, ses.

3.2.4 Slovesný agregát typu C

[AGR=C]

První složku slovesného agregátu typu C tvoří číslovka.

Nejčastější případy jsou zřejmě číslovky tázací, ale možné jsou i jiné číslovky:

Koliks jich koupila?

Kolikráts to viděl? (Internet)

Pěts jich nemohl porazit. (vymyšleno)

3.2.5 Slovesný agregát typu V

[AGR=V]

První složku slovesného agregátu typu V tvoří sloveso. Agregát má dva podtypy:

a. Standardní

První složku tvoří příčestí minulé a druhou složku tvoří enklitické -s.

Slovesné agregáty se slovesy vyžadují sloveso v příčestí minulém činném (VRB=L) (agregáty s pasivem jsou řazeny mezi agregáty typu A) a jednotném čísle (NUM=S).

Nelze tedy např. *kupujis, *kupuješs, *kupujs ani *kupovalis.

Příklonný tvar -s 2. os. sg. prézentu slovesa být v agregátu je v tomto případě vždy pomocné sloveso, protože není možné, aby v jedné klauzi byla dvě finitní slovesa.

Příklady:

... má milá ženo, bylas tak statečná...

Koupils ho Ireně.

b. Kondicionálový

První složku tvoří kondicionálový slovesný tvar by (VRB=K) a druhou složku tvoří tvary slovesa být nesoucí hodnoty indikativu prézentu (VRB=P).

Za kondicionálové agregáty se slovesným tvarem -by se považují tyto tvary:

● spisovné: bych, bys, bychom, byste

● nespisovné: bysem, byjsem, bysi, byjsi, bysme, byjsme, byjste

Morfologický popis agregátu bych, bys, bychom, byste, bysem, byjsem, bysi, byjsi, bysme, byjsme, byjste je uveden v tabulkách 2 a 3).

Tabulka 2: Vícenásobné lemma a morfologický popis slovních tvarů bych, bys… jakožto agregátů

Slovní tvar

Lemma

Morfologický popis

bych, bysem, byjsem

POS=V (slovesný tvar)

SUB=b (pomocné)

NEG=A

VRB=K (kondicionál)

AGR=V (slovesný agregát typu V)

být

POS=V (sloveso)

SUB=b (pomocné)

ASP=N (nedokonavé)

NUM=S

PER=1

NEG=A (kladné)

VRB=P (prézens)

AGR=V (slovesný agregát typu V)

FMU=flektivní mutace pro rozlišení -ch, -sem, -jsem

Tvary bych, bysem, byjsem a podobně pro další kombinaci osoby a čísla budou odlišeny flektivní mutací. Pro další tvary platí táž tabulka 2 až na odlišné hodnoty kategorií osoba, číslo, flektivní mutace, jež jsou dány jednotlivými tvary a uvedeny v tabulce 3.

Tabulka 3: Osoba, číslo a flektivní mutace všech agregátových kondicionálových tvarů: bych, bysem, byjsem, bys...

Slovní tvar

Osoba

Číslo

Flektivní mutace

bych

bysem

byjsem

bys

bysi

byjsi

bychom

bysme

byjsme

byste

byjste

Poznámka ke sloupci Flektivní mutace. Nespisovné tvary se od spisovných neliší v žádné morfologické kategorii, je třeba je tedy rozlišit pomocí Flektivní mutace. Zvolené kódy nemusí být definitivní. Jsou navrženy jako mnemotechnická pomůcka: D = dlouhý tvar, j = navíc s písmenem j. Spisovné tvary flektivní mutaci nemají, ale mohly by mít, třeba v opozici k dlouhému tvaru K = krátký tvar. Je otázka, je-li to nutné.

3.2.6 Slovesný agregát typu D

[AGR=D]

První složku slovesného agregátu typu D tvoří příslovce.

Vytváření slovesných agregátů typu D nemá patrně žádná omezení, jak je vidět z příkladů:

Včeras měl narozeniny.

Posledněs říkala, že...

A ještěs mě nikdy neodměnil.

Nikdys nechtěla vařit.

Jaks k tomu došla?

3.2.7 Slovesný agregát typu T

[AGR=T]

První složku slovesného agregátu typu T tvoří částice.

Příklady:

To mi neříkej. Snads ji neznala?

Vždyťs povídal, že sis ji sám vymyslel.

A určitěs to ztratila?

Možnás jim radši vůbec neměl dávat!

3.2.8 Slovesný agregát typu J

[AGR=J]

První složku slovesného agregátu typu J tvoří spojka. Agregát má dva podtypy:

a. Standardní

První složku tvoří spojka a druhou složku tvoří enklitické -s.

Některé spojky patrně nemohou být součástí slovesného agregátu. Jsou to zejména *as, *is,?ales,?čis. Z většiny ostatních spojek slovesné agregáty utvořit lze, např. nebos, protos, neboťs, protožes, zdas.

Jak je vidět, nezáleží to na jejich souřadnosti nebo podřadnosti.

Příklady pocházejí z korpusu SYN v6:

... kdyžs teda říkal,...

... neměls už čas se zase stejnou cestou vrátit, nebos na to zapomněl.

Nevím, jestlis ho vůbec znal.

b. Kondicionálový

První složku tvoří kondicionálová spojka (aby, kdyby) (VRB=K) a druhou složku tvoří tvary slovesa být nesoucí kategorie indikativu prézentu (VRB=P).

Tvary kondicionálových agregátů se spojkou aby:

spisovné: abych, abys, abychom, abyste

nespisovné: abysem, abyjsem, abysi, abyjsi, abysme, abyjsme, abyjste

Tvary kondicionálových agregátů se spojkou kdyby:

spisovné: kdybych, kdybys, kdybychom, kdybyste

nespisovné: (k)dybysem, (k)dybyjsem, (k)dybysi, (k)dybyjsi, (k)dybysme, (k)dybyjsme, (k)dybyjste

dybych, dybys, dybychom, dybyste

V tabulkách 4 a 5 je popsáno morfologické určení jednotlivých forem.

Tabulka 4: Vícenásobné lemma a morfologický popis agregátů abych, abys...

Forma: abych, abys, abychom, abyste, abysem, abyjsem, abysi, abyjsi, abysme, abyjsme, abyjste

Slovní tvar

Lemma

Morfologický popis

abych, abys...

aby

POS=J

SUB=, (podřadicí)

VRB=K (kondicionál)

AGR=J (slovesný agregát typu J)

být

POS=V

SUB=b (pomocné)

ASP=N

NEG=A

VRB=P (prézens)

AGR=J (slovesný agregát typu J)

Tabulka 5: Vícenásobné lemma a morfologický popis agregátů (k)dybych, (k)bybys…

Forma: (k)dybych, (k)dybys, (k)dybychom, (k)dybyste, (k)dybysem, (k)dybyjsem, (k)dybysi, (k)dybyjsi, (k)dybysme, (k)dybyjsme, (k)dybyjste

Slovní tvar

Lemma

Morfologický popis

kdybych, kdybys...

kdyby

POS=J

SUB=, (podřadicí)

VRB=K (kondicionál)

AGR=J (slovesný agregát typu J)

být

POS=V

SUB=b (pomocné)

ASP=N

NEG=A

VRB=P (prézens)

AGR=J (slovesný agregát typu J)

Hodnoty ostatních kategorií (osoba, číslo, flektivní mutace) tvaru slovesa být viz tabulky 2 a 3 výše. Tvary dybych, dybys… (tedy bez k na začátku) je nutno popsat zvláštním typem globální mutace.

3.2.9 Slovesný agregát typu G

[AGR=G]

První složku slovesného agregátu typu G tvoří agregát.

Vícenásobné lemma těchto agregátů má tři prvky: dvouprvkové vícenásobné lemma prvního agregátu a lemma být příklonného slovního tvaru -s (2. os. sg. prézentu slovesa být). Stejně tak i vícenásobná morfologická značka je tříprvková.

Jde o tvary vytvořené ze zájmenných agregátů, tedy např. začs.

Že nejde o pouhý teoretický případ, dokazuje úryvek z textu písně Hany Zagorové:

... o čem snil jsi ty, načs přísahal…

3.3 Zkratkový agregát

[AGR=B]

V NovaMorf se za zkratkový agregát považuje pouze takový vybraný jednoslovný výraz, který zastupuje několik slov, ve své základní podobě je psán malými písmeny a zároveň buď (i) zajišťuje textovou návaznost (např. např., atd., tj., apod., tzn., aj. aj.), nebo (ii) zastupuje frekventovaná spojení apelativ (čp.).

3.3.1 Zkratkový agregát typu B

[AGR=B]

Zkratkový agregát B (B podle aBreviace) se skládá vždy ze zkratky a dále z alespoň jedné další složky, jíž může, ale nemusí být zkratka (viz např. atd. se dvěma zkratkami t, d a jednou nezkratkou a). Každé ze složek agregátu je přiřazena hodnota AGR=B.

Navrhujeme dvě řešení lemmatizace:

1. Se zkratkami v rámci agregátu se zachází stejným způsobem jako s dalšími zkratkami: Jsou jim přiřazeny hodnoty slovního druhu, který zastupují. Záverečná tečka se při tokenizaci přiřazuje k slovnímu tvaru celého agregátu (vyjma případu, kdy je uvedena na konci věty) a zároveň se s ní při lemmatizaci zachází stejně jako u zkratek neagregátových (tj. tečka je částí tvaru, nikoliv lemmatu).

Příklad je uveden v tabulce 6.

Tabulka 6: Vícenásobné lemma a morfologický popis agregátu atd. (1. řešení)

atd. {a, t, d}, atd {a, t, d}

Slovní tvar

Lemma

Morfologický popis

atd., atd

POS=T

SUB=

ABR=-

AGR=B (zkratkový agregát)

POS=T

SUB=

ABR=+

AGR=B (zkratkový agregát)

POS=T

SUB=

ABR=+

AGR=B (zkratkový agregát)

2. Zkratky jsou lemmatizovány lemmatem, které zastupují.

Příklad je uveden v tabulce 7.

Tabulka 7: Vícenásobné lemma a morfologický popis agregátu atd. (2. řešení)

atd {a, tak, dál}

Slovní tvar

Lemma

Morfologický popis

atd

POS=J

SUB=^

AGR=B (zkratkový agregát)

tak

POS=D

SUB=P

AGR=B (zkratkový agregát)

dál

POS=D

AGR=B

Uvedená zkratka však může zkracovat i sousloví a tak dále, takže lemma by mělo být přísně vzato vícenásobné: {dál, dále}. Nebude-li použito vícenásobné lemma, je nutno pro volbu jednoduchého lemmatu zavést nějaké zjednodušující pravidlo.

4 Vyhledávání agregátů v korpusech

Agregáty nemůžeme hledat pomocí kategorie POS (slovní druh), neboť ta je v morfologické značce obsazena hodnotami jednotlivých složek agregátu. K jejich vyhledávání je tedy třeba použít kategorii AGR, která je relevantní právě jen pro agregáty. Stačí tedy požadovat AGR≠undef.

Konkrétní typy agregátů se hledají podle svých kódů uvedených výše (např. AGR=n, AGR=T, AGR=G).

Hledání podle ostatních morfologických kategorií je přímočaré – jakmile alespoň jedna složka vícenásobné morfologické značky odpovídá hledané hodnotě nějaké morfologické kategorie, příslušný slovní tvar musí být zahrnut do výsledku vyhledávání. Z toho např. konkrétně vyplývá, že při vyhledávání sloves budeme mít mezi výslednými konkordancemi i všechny slovesné agregáty. Pokud bychom je chtěli odstranit, je třeba přidat podmínku, aby ve výsledku agregáty nebyly (AGR≠G).

Podobně dotaz na předložky zahrnuje i všechny zájmenné agregáty.

Vyhledávání podle lemmatu je obdobné – pokud se lemma vyskytuje ve vícenásobném lemmatu, je příslušný agregát zahrnut do výsledku.

Na zahrnutí agregátů do výsledků dotazů je třeba dávat pozor, protože agregáty nejsou nikdy součástí paradigmat lemmat. Přesto se nám např. na dotaz lemma=být do výsledku zahrnou všechny slovesné agregáty.

Problematický může být dotaz na poddruh pomocné sloveso (SUB=b).

Ve většině případů je jsi ve slovesném agregátu pomocné, ale není tomu tak vždy.

Výjimkou mohou (ale nemusí) být agregáty se jménem v 1. pádě, viz příklady se sponovým -s:

Drahoušku, ale tys moje žena!

Tys nejen blázen, ale ke všemu ještě pitomec!

Věrnýs jak kůň, jak býk všaks vášnivý.

Salome, podobnas úponku (z písně Karla Kryla)

Ve větě Tys blázen má implicitní jsi SUB=0, zatímco ve větě Tys byl blázen má SUB=b. Rozlišit tyto případy lze jen na základě kontextu, stejně jako u vět, kde je jsi vyjádřeno explicitně: Ty jsi blázen vs. Ty jsi byl blázen. Tato nejistota nastává pouze u agregátů, kde je první složka v prvním pádě. Vyloučením prvního pádu tedy můžeme vymezit agregáty, kde jsi vždy vystupuje jako pomocné, ale nedostaneme tak všechny případy.

5 Příklady morfologického popisu některých typických agregátů

Níže uvádíme příklady morfologického popisu agregátových slovních tvarů pomocí tabulky s uvedením hodnot jen relevantních morfologických kategorií.

připravils

Lemma: {připravit, být}

Slovní tvar

Lemma

Morfologický popis

připravils

připravit

POS=V

SUB=0 (plnovýznamové)

ASP=D

GEN=M (případně nepravděpodobné GEN=I)

NUM=S

PER=-

NEG=A

VRB=L (minulé příčestí)

AGR=V (slovesný agregát typu V)

být

POS=V

SUB=b (pomocné)

ASP=N

NUM=S

PER=2

NEG=A

VRB=P (prézens)

AGR=V (slovesný agregát typu V)

zač

Lemma: {za, co}

Slovní tvar

Lemma

Morfologický popis

zač

POS=R

CAS=4

AGR=c (zájmenný agregát typu c)

POS=P

SUB=N

DEI=T

NUM=S

CAS=4

AGR=c (zájmenný agregát typu c)

začs

Lemma: {za, co, být}

Slovní tvar

Lemma

Morfologický popis

začs

POS=R

CAS=4

AGR=G (slovesný agregát typu G)

POS=P

SUB=N

DEI=T

NUM=S

CAS=4

AGR=G (slovesný agregát typu G)

být

POS=V

SUB=b (pomocné)

ASP=N

NUM=S

PER=2

NEG=A

VRB=P (prézens)

AGR=G (slovesný agregát typu G)

naň

Lemma: {na, on}

Slovní tvar

Lemma

Morfologický popis

naň

POS=R

CAS=4

AGR=n (zájmenný agregát typu n)

POS=P

SUB=o

DEI=U

NUM=S

CAS=4

AGR=n (zájmenný agregát typu n)

abysme

Lemma: {aby, být}

Slovní tvar

Lemma

Morfologický popis

abysme

aby

POS=J

SUB=, (podřadicí)

VRB=K (kondicionál)

AGR=J (slovesný agregát typu J)

být

POS=V

SUB=b (pomocné)

ASP=N

NUM=P

PER=1

NEG=A

VRB=P (prézens)

AGR=J (slovesný agregát typu J)

FMU=flektivní mutace pro sme

dybych

Lemma: {kdyby, být}

Slovní tvar

Lemma

Morfologický popis

dybych

kdyby

POS=J

SUB=, (podřadicí)

VRB=K (kondicionál)

AGR=J (slovesný agregát typu J)

GMU=globální mutace pro dyby

být

POS=V

SUB=b (pomocné)

ASP=N

NUM=S

PER=1

NEG=A

VRB=P (prézens)

AGR=J (slovesný agregát typu J)

¹ Neobvyklý archaický tvar veň jsme skutečně nalezli v Ottově slovníku naučném:

... na krátko byv zbaven svého úřadu v Irsku a znova <veň> uveden jako tajemník...

Příklady lze ale nalézt i v korpusu SYN v4: „ možno <veň> vtěsnati celé veškerenstvo“, „vkládajíce <veň> svou individualitu“.

Page updated

Google Sites

Report abuse