08-09 Citoslovce
1 Úvodní přehled
1.1 Představení kapitoly
Citoslovce jsou slova neohebná, která se vymezují především na základě sémantického a syntaktického hlediska. Napodobují, resp. jazykově ztvárňují zvuky, jaké vydávají lidé (škyt, hepčí, prd), zvířata (haf, mňau, bú, kokodák) nebo předměty (žbluňk, plesk, skříp), a rovněž zvuky, jakými se lidé obracejí na zvířata, což je určitý druh výzvy či navazování kontaktu ((na) pipi, čiči, kšá). Mohou vyjadřovat nálady a city mluvčího (ach, ó, brr), nebo označují hlasy a zvuky, které provázejí děje (checheche, bác, cink, prásk). Citoslovce se nezapojují do větné stavby, avšak dokážou utvořit samostatnou nevětnou výpověď (Au! Prr!), což je též případ jednoslovných pozdravů (Ahoj! Čau! Nazdar!).
V § 1.2 představujeme kategorie citoslovcí v pojetí NovaMorf a jejich hodnoty.
Popisu citoslovcí v literatuře ve srovnání s pojetím NovaMorf je věnován § 2.
V § 3 se stručně vyjádříme k otázce lemmatizace některých specifických případů (§ 3.1) a popíšeme morfologické kategorie a hodnoty, které navrhujeme určovat (v § 3.2 číslo a osobu, v § 3.3 globální mutace).
Poté se v § 4 pokusíme přehledně popsat chyby, na něž naráží současný korpusový uživatel při vyhledávání citoslovcí.
Nejdůležitější součástí této kapitoly je pak přiložený seznam citoslovcí (Citoslovce_soupis.xlsx), jenž by měl sloužit jako základ pro jejich automatickou analýzu v rámci projektu NovaMorf. Představen je v § 5.
Kapitolu uzavírá krátký § 6.
1.2 Kategorie a hodnoty relevantní pro citoslovce
Citoslovce (POS=I) nejsou v NovaMorf dále členěny na poddruhy. Ačkoli citoslovce jsou slova neohebná, u některých pozorujeme dotváření plurálových tvarů, a proto budou v těchto případech zaznamenány hodnoty kategorií číslo (NUM) a osoba (PER). K popisu variability, která se týká psané podoby mnoha citoslovcí, použijeme kategorii globální mutace (GMU). Relevantní kategorie a příslušné hodnoty jsou uvedené v tabulce 1.
Tabulka 1: Seznam relevantních kategorií a jejich hodnot u citoslovcí
#
kategorie
značka kategorie
hodnoty
1
slovní druh
POS
I
7
číslo
NUM
[SP]
9
osoba
PER
[12]
15
globální mutace
GMU
d-k, t-m, 0-ď, e-a...
2 Popis citoslovcí v literatuře ve srovnání s pojetím NovaMorf
V české mluvnické tradici se citoslovce třídí do různých podskupin, a to podle původu (primární: jé, baf, ble, fuj, hop; sekundární: panebože, prokristapána, zatraceně, hrůza; slova cizího původu: hergot, krucifix), podle funkce (citoslovce emocionální: jupí, hurá; citoslovce kontaktová: haló, viď, pardon; citoslovce zvukomalebná: žuch, tút, vrr) či podle toho, zda jde o jednoslovné či víceslovné výrazy (no nazdar, pro rány boží, pane jo, kiš kiš, dobrý den).
Citoslovce, jež zaznamenávají zvuky, se nacházejí na hranici jazykových a nejazykových prostředků. Neustálené zápisy originálních zvuků se za součást jazyka nepovažují, ovšem objevují se, především v beletrii, povětšinou pro svou ozvláštňující funkci, kterou text obohacují. Podobně se někdy uplatňují přejímky z cizího jazyka (grrr, wow, ding).
Jakkoli podrobná třídění citoslovcí nalézáme, autoři se obvykle opírají o funkční kritéria. Používá se i rozlišení na základě komunikačního cíle, tedy na koho nebo za jakým účelem jsou citoslovce zaměřena. Jde o vybídnutí (hyjé, alou), rozkaz (aport), povzbuzení (do toho!), omluvu (pardon, bohužel), varování (pozor, bacha), souhlas či odmítnutí (ano, ne, hovno) apod.
Pozdravy, zejména jednoslovné (ahoj, čau, nazdar), bývají někdy klasifikovány jako částice, jindy jako citoslovce. Popis NovaMorf zavádí u citoslovcí kategorii čísla a osoby pro rozlišení tvarů jako ahoj-ahojte, a proto jednoslovné pozdravy řadíme k citoslovcím. Naproti tomu specifické ano, ne definujeme jako poddruh částic, tzv. „odpověďové částice“.
Citoslovce se vyznačují vysokou variabilitou zapsaných forem. Při zápisu dochází k opakování grafémů (é, éé, ééé; uá, uáá, uááá; fr, frr), ale také k opakování celých slabik (bla bla / bla-bla; bla bla bla / bla-bla-bla / bla, bla, bla) či slov (ty ty ty / tytyty; blik-blik; bu bu bu / bu-bu-bu / bububu). V mluvnicích se též upozorňuje na víceslovné citoslovečné výrazy (cupy dupy; herdek filek; hej rup), případně citoslovečné frazémy (do prkenný vohrady, starou belu, houby s octem). Citoslovcí se někdy používá k analytickému vyjadřování děje, obzvláště při mluvě s dětmi (udělat hačí, bác, pápá).
Citoslovce se často vyskytují v těsné blízkosti částic (ó ano, ach tak, no vida) a mnohdy je obtížné rozhodnout, jak jednotlivé části těchto víceslovných výrazů slovnědruhově klasifikovat, neboť jejich význam nelze segmentovat (ale no tak; no tak to teda ne; tak to prr). Účelem projektu NovaMorf je ovšem automatická slovnědruhová analýza na úrovni jednotlivých slov, resp. tokenů. Problematiku víceslovných spojení tedy bude třeba řešit zvlášť, v navazující výzkumné činnosti.
3 Lemmatizace a značkování citoslovcí
3.1 Lemmatizace
Lemmatem citoslovce je v zásadě sám jeho neohebný tvar. V případě nepůvodních citoslovcí, kdy je zřejmá homonymie např. s podstatnými jmény, budou u tvaru určeny všechny morfologické kategorie a hodnoty původního slovního druhu. Spojení Ach bože! tedy NovaMorf analyzuje jako citoslovce ach a vokativ substantiva bůh. V intenzifikačních slovních spojeních ach bože přebože či podobném ach bože rozbože1 bude slovnědruhová analýza vypadat takto:
ach (POS=I) bože (POS=N, NUM=S, CAS=5) přebože (POS=I, lemma=přebože)
ach (POS=I) bože (POS=N, NUM=S, CAS=5) rozbože (POS=I, lemma=rozbože)
V podobném ach běda přeběda se ve všech třech případech jedná o citoslovce:
ach (POS=I) běda (POS=I) přeběda (POS=I, lemma=přeběda).
Výrazy ksakru, kčertu, tyvole jsou citoslovce, stejně jako složitější výrazy psané dohromady propánakrale, prokristapána či prokristovyrány. Při psaní k čertu, ty vole jde o kombinaci předložky a podstatného jména, pro neexistenci substantiva *sakro lemmatizujeme jako sakru (POS=I). Podobně zvolání Nádhera! bude rozpoznáno jako podstatné jméno a výkřiky Krásně! Výborně! Úžasné! Neuvěřitelné! budou analyzovány jako příslovce, resp. adjektiva.
Homonymní případy analyzujeme všemi způsoby, desambiguace proběhne v návazném kroku. U citoslovcí se to týká tvarů homonymních například se substantivy (klepy, krucifix, chrupy chrup, božíčku) či slovesy (hleďme). Problematické je v mnoha případech rozlišení citoslovcí a částic.
3.2 Značkování kategorií číslo (NUM) a osoba (PER)
Existuje skupina citoslovcí, která vyjadřují kategorii čísla a osoby: tumáš/tumáte, na/nate, ahoj/ahojte, viď/viďte, hele/heleme, helemese/heleďtese, helejte, halejte. Tyto případy značíme následovně:
hele: NUM=-, PER=-, lemma(hele) = hele
heleď: NUM=S, PER=2, lemma(heleď) = heleď
heleďme: NUM=P, PER=1, lemma(heleďme) = heleď
heleďte: NUM=P, PER=2, lemma(heleďte) = heleď
heleďse: NUM=S, PER=2, lemma(heleďse) = heleďse
heleďmese: NUM=P, PER=1, GMU=Ď, lemma(heleďmese) = heleďse
helemese: NUM=P, PER=1, GMU=0, lemma(helemese) = heleďse
heleďtese: NUM=P, PER=2, lemma(heleďtese) = heleďse2
helejte: NUM=P, PER=2, GMU=E, lemma(helejte) = helejte
halejte: NUM=P, PER=2, GMU=A, lemma(halejte) = helejte
na: NUM=-, PER=-, lemma(na) = na
nate: NUM=P, PER=2, lemma(nate) = na
tumáš: NUM=S, PER=2, lemma(tumáš)= tumáš
tumáte: NUM=P, PER=2, lemma(tumáte)= tumáš
ahoj: NUM=-, PER=-, lemma(ahoj) = ahoj
ahojte: NUM=P, PER=2, lemma(ahojte) = ahoj
3.3 Globální mutace (GMU)
Jsou případy, kdy vedle sebe existuje několik pravopisných variant citoslovcí, jež se liší délkou samohlásky (ježiš, jéžiš; ježiši, jéžiši; ježišikriste, ježíšikriste)3 nebo počtem souhlásek (pr, prr; pst, psst, pssst) či samohlásek (hurá, huráá, hurááá...). K jejich odlišení použijeme kategorii globální mutace (GMU). Naproti tomu existují případy, kde délka vokálu rozlišuje významy (prask vs. prásk), a o globální mutaci se tedy nejedná.
Pro rozhodnutí o maximálním počtu opakujících se hlásek či slabik, který lze považovat za smysluplný pro rozlišování mutací, jsme použili frekvenční kritérium. Všechny níže uvedené mutace (viz tabulka 2) se v SYN v7 vyskytují alespoň pětkrát.
Tabulka 2: Přehled globálních mutací u citoslovcí
lemma
tvar
hodnota GMU*
aa
aa, aaa, aaaa
1, 2, 3
ahá
ahá, aha
D, K
ách
ách, áách, ááách, áááách, ááááách
1, 2, 3, 4, 5
aleluja
aleluja, alleluja
1, 2
bé
bé, béé, bééé, béééé, bééééé
1, 2, 3, 4, 5
brr
brr, brrr, brrrr, brrrrr
1, 2, 3, 4
čauki
čauki, čauky
M, T
čehý
čehý, čehy
D, K
éé
éé, ééé
1, 2
elá
elá, ela
D, K
haha
haha, hahaha, hahahaha, hahahahaha
1, 2, 3, 4
haló
halo, haló, halóó, halóóó
1, 2, 3, 4
hm
hm, hmm, hmm
1, 2, 3
houbelec
houbelec, houbeles
1, 2
hr
hr, hrr, hrrr, hrrrr, hrrrrr
1, 2, 3, 4, 5
hurá
hurá, huráá, hurááá, huráááá, hurááááá, huráááááá
1, 2, 3, 4, 5, 6
hyjé
hyjé, hyje
D, K
chacha
chacha, chachacha, chachachacha
1, 2, 3
chachá
chachá, chachachá, chachachachá
1, 2, 3
cheché
cheché, cheche
D, K
jéminánku
jéminánku, jeminánku
D, K
jémine
jémine, jemine
D, K
jéminkote
jéminkote, jeminkote
D, K
ježiš
jéžiš, ježiš
D, K
jéžiši
jéžiši, ježiši
D, K
ježíšikriste
ježíšikriste, ježišikriste, jéžišikriste, jéžíšikriste
1, 2, 3, 4
ježišmarjá
ježišmarjá, ježíšmarjá, jéžišmarjá, ježíšimarjá
1, 2, 3, 4
jó
jó, jóó, jóóó, jóóóó, jóóóóó, jóóóóóó
1, 2, 3, 4, 5, 6
juchú
juchú, juchu
D, K
kiš
kiš, kyš
M, T
krindapána
krindapána, kryndapána
M, T
kšc
kšc, kššc, kšššc
1, 2, 3
kvák
kvák, kvak
D, K
kvík
kvík, kvik
D, K
kykyryký
kykyryký, kykyryky, kikirikí, kikiriki
TD, TK, MD, MK
mm
mm, mmm
1, 2
mordyje
mordie, mordije, mordijé, mordyje, mordyjé
1, 2, 3, 4, 5
nene
nene, nenene, nenenene
1, 2, 3
né
né, néé, nééé, néééé, nééééé, néééééé
1, 2, 3, 4, 5, 6
nono
nono, nonono, nononono
1, 2, 3
ólala
ólala, olala
D, K
páááni
páni, páááni
1, 2
panenkomarjá
panenkomarjá, panenkomarja
D, K
pchá
pchá, pcha
D, K
pí
pí, pi
D, K
pipi
pipi, pipipi
1, 2
pomóc
pomóc, pomoc
D, K
pr
pr, prr
1, 2
probůh
probůh, proboha
1, 2
pst
pst, psst, pssst, psssst, pssssst
1, 2, 3, 4, 5
pšt
pšt, pššt, pšššt, pššššt, pšššššt
1, 2, 3, 4, 5
puťa
puťa, puta
M, T
ss
ss, sss, ssss, sssss, ssssss
1, 2, 3, 4, 5
šmarjápano
šmarjápano, šmarjápanno
1, 2
šmik
šmik, šmiky
1, 2
tralala
trala, tralala, tralalala, tralalalala
1, 2, 3, 4
ts
ts, tss, tsss, tssss
1, 2, 3, 4
tú
tú, tů
1, 2
uá
uá, uáá, uááá, uáááá, uááááá, uáááááá, uááááááá
1, 2, 3, 4, 5, 6, 7
uf
uf, uff, ufff, uffff, ufffff
1, 2, 3, 4, 5
uí
uí, uíí, uííí, uíííí
1, 2, 3, 4
uj
uj, ujujuj
1, 2
urá
urá, uráá, urááá, uráááá
1, 2, 3, 4
úú
úú, úúú, úúúú, úúúúú
1, 2, 3, 4
živijó
živijó, živijo
D, K
*Pozn.: D-dlouhá, K-krátká, M-měkká, T-tvrdá
4 Nekonzistence v dosavadním morfologickém slovníku pro jednotlivá slova
V korpusech najdeme se značkou citoslovce řadu případů, kdy se o citoslovce nejedná, a naopak některá citoslovce rozpoznána nejsou (brm, bumtarata, hačí, hají). Chyby lze roztřídit do několika skupin.
4.1 Citoslovce vs. zkratka
Zkratky jsou zdrojem mnoha nepřesností. Řada „citoslovcí“ v SYN v7 jsou ve skutečnosti zkratkami či redakčními zkratkami, které jsou homonymní s frekventovanými, krátkými citoslovci (hoj).
Pokud zkratka umožňuje vícero interpretací, frekvence bizarního „citoslovce“ narůstá. V tabulce 3 jsou nejfrekventovanější chyby tohoto typu ze SYN v7, řazené podle absolutního počtu výskytů.
Tabulka 3: Zkratky chybně označené jako citoslovce
lemma
interpretace
zú/ZÚ
zeměměřičský ústav
ZZ/zz
hudební skupina ZZ Top, zlomek zámělský, zdravotnické zařízení, zdvihací zařízení, zdražení zakázky, (100+1) zahraniční zajímavost
ss
soudruzi, sanctissima (ss. Annunziata ve Fiumedinisi), stránky (ss. 30-31), stejnosměrný proud
puta
lemma(puť, put)=puta, homonymie s angl. put, ekon. termín „put opce“
PŠ
praktická škola, iniciály
mek
přepis anglického Mc (mek guláš, mek kabanos) nebo důsledek tokenizace chybně zapsaných výrazů jako poze-mek, zá-mek, zná-mek
kap
zkratka pro „kapitola“
bah
zkratka pro Bosna a Herzegovina, lemma(BaH)=bah (!)
Cf, Confer
lemma(Cf)=Confer
4.2 Tvary obsahující spojovník a jednoduché citoslovce
Jako citoslovce je v SYN v7 označen vysoký počet výrazů složených z několika slov, která jsou spojena spojovníkem. Jejich společným formálním rysem je, že obsahují jednoduché, nejčastěji dvoj- až trojpísmenné citoslovce, které se jinsk samo o sobě vyznačuje relativně vysokou četností (fi, duc, che, ho, hi, ju…). Nejčastější chybné interpretace těchto slov lze roztřídit do následujících podskupin.
4.2.1 Akronyma či zkratky (někdy terminus technicus)
Ani v jednom z případů uvedených v tabulce 4 se nejedná o citoslovce.
Tabulka 4: Akronymy či zkratky chybně označené jako citoslovce
slovní tvar
interpretace nebo sousloví, jehož je tvar součástí
fi
wi-fi, Wi-fi, WI-fi, Wi-Fi/Wi-fi, WLAN/Wi-fi, LAN/Wi-fi, Internet/Wi-fi, DLNA/Wi-fi, Bluetooth/Wi-fi, swi-fi
lo-fi, Lo-fi, LO-fi
X-fi, Li-fi, Hard-fi
ss
Waffen-ss, Waff en-SS
tý
Tý-tý, tytý (televizní cena)
tú
ou-tú (přepis názvu obchodní společnosti O2)
chm
TRI-CHM (zkratka pro utkání Třinec-Chomutov)
inu
check-inu, lemma(check-inu)=check-inu (!)
chi
Chi-Chi, lemma(Chi-Chi)=chi-chi (módní značka)
4.2.2 Názvy
Narazili jsme i na několik názvů hudebních skupin, písní či divadelních spolků mylně interpretovaných jako citoslovce.
Tabulka 5: Chybné značkování názvů
slovní tvar
interpretace
basta
hud. skupina Gang-ala-basta/Gang-Ala-basta
ha
hud. skupina A-ha, družstvo A HA Děčín
uff
Cirk-uff (divadelní/cirkusová skupina)
zz
ZZ Top
4.2.3 Vlastní jména cizího původu
V korpusu SYN v7 je jako citoslovce označena též celá řada vlastních jmen, která nejčastěji pocházejí z asijských jazyků. Jejich soupis v tabulce 6 řadíme podle krátkých citoslovcí, jež jsou součástí složených výrazů, neboť se tím jasně poukazuje na zdroj tohoto problému.
Tabulka 6: Chybné značkování jmen cizího původu
citoslovce
slovní tvar označený v SYN v7 jako citoslovce
ah
Hyun-ah
au
Port-au
beng
časopis Big Beng!
bum
Su-bum
duc
le-duc (součást názvu Bar-le-Duc)
he
He-ho
ho
Jun-ho, Jang-ho, „skanduje Ho, Ho, Ho Či Min“
hoj
Ču Hoj, Hoj Či
hi
Kun-hi (zakladatel Samsungu), Hong-hi, Hjon-hi, Lin-hi, Kjong-hi
hou
Hou-hou (hrdina knihy)
hu
Čo Sung-hu
cha
Pru-cha
che
Chuang-che, Pej-taj-che, Tchien-che, Sia-che, Siao-che, Čeng-che, I-che, chai-che, Čching-che, Liang-ťia-che, Eun-che
chi
kim-chi, Tran-chi, pchi-pcha, Chien-chi
inu
shiba-inu, Shiba-inu
ju
Hae-Ju (hrdina knihy Atlas mraků), Ju-na, Seok-ju, Sun-ju
kuk
Čong-kuk, Tong-kuk
na
Si-šuang-pan-na
oh
Yu-Gi-Oh
ou
Li-ou
pa
lemma(GA-PA)=GA-pa (Garmisch-Partenkirchen), Li-Pa (genitiv od Li-Po), Siao-pa, Šao-pa
pi
[Žž]en-min-pi (čínská lidová měna)
4.2.4 Homonymie s jinými slovními druhy
V tabulce 7 je několik zajímavých případů, které jsou chybně označeny jako citoslovce.
Tabulka 7: Chybné značkování jiných slovních druhů
slovní tvar
interpretace
ju
nářeční podoba zájmene ji: Kdo ju včil postiská, kdo ju zařeje?
cha-cha
vždy jen název společenského tance
cha-chi
genitiv slova cha-cha
4.3 Nepřípustná kombinace slovních druhů
Domníváme se, že v zásadě není možné, aby citoslovce následovalo po předložce. Snad až na specifické spojení do aleluja, které je neurčitým vyjádřením míry, nikoli citoslovcem. Mezní jsou případy, kdy se citoslovce stává součástí názvu a svou citoslovečnou platnost ztrácí (Haló noviny, Mňam TV, Joj TV, Sorry). Objevují se však i případy složitější, kde se projevuje homonymie s cizími slovy (viz tabulka 8), nebo se jedná o homonymii jiného druhu: za tú stodolú, pro HÚ AČR.
Tabulka 8: Homonymie s cizími slovy
vida
agentura Pro (POS=R) Vida (POS=I)
hip
chodí na (POS=R) hip (POS=I) hop (POS=X)
ecce
účast na (závodě)/v (organizaci) Ecce (POS=I) Homo
hot
jít pro (POS=R) hot (POS=I) dog, jít na (POS=R) Hello (POS=I) Dolly.
Výčet případů, kdy SYN v7 nalezl sekvenci (POS=R) (POS=I), je v podstatě seznamem chyb, viz tabulka 9.
Tabulka 9: Chybné značkování sekvence (POS=R) (POS=I)
slovní tvar
výskyt v sekvenci (POS=R) (POS=I) a interpretace
ho
není v uvedené sekvenci nikdy citoslovce!
že před ho nimi schovává,
drama, ja k ho vidí Činoherák
přirovnáváme k ho tovému dortu
tak k ho rozhodně nepropásněte
vs. SKI TEAM Dolní Žleb společně s HO Grünmock zve všechny na 1. ročník
o jé
vždy citoslovce + citoslovce
předl. + hip hop
k hip hopu, o hip hopu, hip hopový, s hip hopem; hip není citoslovce
předl. + la/La
la/La je součást cizojazyčného názvu
k la, o la, u la, do la Coruni, pro La Scalu, přes La Manche;
předl. + název
po Hello Dolly, na Ecce Homo přijelo, s Hello Kitty
podle Haló novin, pro Hopsa hejsa do Brandejsa (=festival), pro JOJ TV, prostřednictvím Mňam TV, až se to v Sorry (=časopis) objeví
jiná homonymie
za tú stodolú, pro HÚ AČR, fronta na hot dog, na OH (=olymp. hrách), najdete na oh.idnes.cz, do hola (= dohola)
nehledě (POS=R) na (POS=I), „Do pi… “ vypadne z ženy...
fotit na pink, vlasy na pink růžovou, o au pair
4.4 Jiné zjevné chyby
Na závěr stručně uvádíme v tabulce 10 další slovní tvary chybně značené jako citoslovce, jež mnohdy souvisejí s chybnou tokenizací.
Tabulka 10: Jiné zjevné chyby
hý
na dru (N) hý pokus, tic hý, druhý hý, o pou hý vlásek
tý
x-tý díl, x-tý rok, n-tý
ha
Ně-ha
hle
Ten-hle, To-hle, ty-hle, to-hle
ho
to-ho
ts
Za-ts (typ zemědělského stroje s označením ZA-TS)
inu
tosa-inu, opt-inu
oh
SD-oh (SD-OH, polit. strana Svobodní demokraté-Občanské hnutí), I-Profi-oh (součást obchodního názvu barvy)
cr
alessandro-cr (součást webové adresy www.alessandro-cr.cz)
vida
In-A-Gadda-Da-vida
pa
OS-PA (označení skupiny družstev)
5 Soupis citoslovcí
V příloze (Citoslovce_soupis.xlsx) uvádíme deklarativní soupis citoslovcí, který vychází z několika zdrojů. Jednak z pražského morfologického slovníku, konkrétně z nejfrekventovanějších tvarů, jež jsou příslušně označeny v korpusu SYN v7, jednak z příkladů, které uvádějí odborné publikace (VAGSČ I., AGSČ, MSČ, PMČ, MČ2, SSJČ). Vzhledem k tomu, že popisy i záběr použitých publikací a zdrojů se různí, do soupisu zahrnujeme jen výrazy, u nichž v otázce zařazení konkrétního slova mezi citoslovce převažuje shoda. Soupis je založen na výsledku ruční desambiguace všech citoslovcí, jež se v korpusu SYN v7 vyskytují alespoň pětkrát. Výsledný seznam obsahuje více než 700 položek.
6 Závěr
Díky manuálně sestavovenému seznamu citoslovcí, jehož základem je pražský systém, resp. výstup korpusu SYN v7, jsme nalezli mnoho chyb, které jsme klasifikovali tak, aby bylo možné se jim napříště vyvarovat. Tento seznam by měl být hlavním přínosem pro přesnější automatickou detekci citoslovcí v rámci NovaMorf, stejně jako zavedení kategorií čísla, osoby a globální mutace u tohoto slovního druhu.
Literatura
Cvrček, V. et al. (2010): Mluvnice současné češtiny I.: Jak se píše a jak se mluví (MSČ). Praha, Karolinum.
Čermák, F. (2007): Povaha a úzus interjekcí: případ češtiny. In Levická, J. & R. Garabík (eds.), Computer Treatment of Slavic and East European Languages, 299–307.
Havránek, B. – Jedlička, A. (1981): Česká mluvnice (ČM). Praha, SPN.
Karlík, P. – Nekula, M. – Rusínová, Z. (eds.) (1996): Příruční mluvnice češtiny (PMČ), Praha.
Komárek, M. – Kořenský, J. – Petr, J. – Veselková, J. (eds.) (1986): Mluvnice češtiny II. Tvarosloví (MČ 2). Praha, Academia.
Vondráček, M. (1998): Citoslovce a částice – hranice slovního druhu, Naše řeč, 81(1), s. 29–37.
Slovník spisovné češtiny (SSJČ) (1974). Praha, Academia.
Štícha, F. et al. (2013): Akademická gramatika spisovné češtiny (AGSČ). Praha, Academia.
Štícha, F. et al. (2018): Velká akademická gramatika spisovné češtiny I., Morfologie. Druhy slov, tvoření slov (VAGSČ I.). Praha, Academia.
Korpusy řady SYN
Český národní korpus – SYN v7. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: <http://www.korpus.cz>.
1 Za upozornění na tyto případy děkuji J. Šimandlovi.
2 V SYN v7 figurují heleďse a heleďmese jako nerozpoznaná slova, zatímco všechny ostatní tvary jsou rozpoznány jako citoslovce.
3 Spojení Ježíš Kristus pokleslo na citoslovečné zvolání ve spoustě podob, z nichž ne všechny tvary jsou v dosavadním značkování SYN v7 správně identifikovány. Na jedné straně jsou obě části vlastního jména popsány jako vokativ (Ježíši Kriste, Jezu Kriste, Kriste Ježíši, Kriste Pane), naproti tomu pravopisná odchylka vede k jiné interpretaci (Kriste Jéžiši (POS=TT), Jéžiši (POS=TT) kriste), či dokonce k tomu, že tvar není rozpoznán (Ježíši kriste, kriste pane, můj ty kriste; ve všech třech případech je značeno kriste (POS=X)). V rámci NovaMorf budou dosud nerozpoznané formy (Jéžiši, kriste) přiřazeny jako variantní tvary k vokativům Ježíši Kriste, resp. Kriste Ježíši.