08-11 Cizí slova

1 Úvodní přehled

1.1 Představení kapitoly

Cizí slovo je v pojetí NovaMorf slovní tvar, který se v češtině neohýbá a má význam daný cizím jazykem, tedy tvar, který není v jazykovém systému češtiny adaptován. K cizím slovům tedy nepatří nesklonná slova, která už jsou součástí české slovní zásoby, jako např. khaki, kupé (které však může mít v Isg tvar ohebný: kupém), lila (barva).

Kategorie a hodnoty cizích slov jsou představeny v § 1.2. V § 2 jsou rozebrány vlastnosti této slovnědruhové kategorie: v § 2.1 výskyt cizích slov, v § 2.2 lemmatizace a homonymie cizích slov a v § 2.3 jsou stručně pojednána zdomácnělá cizí slova.

1.2 Kategorie a hodnoty relevantní pro cizí slova

U cizích slov se určuje pouze hodnota kategorie slovní druh (POS=F) (foreign), žádné další morfologické kategorie, tedy ani například jazyk, z něhož slovo pochází, se neurčují.

2 Vlastnosti cizích slov

2.1 Výskyt cizích slov

V českém textu se mohou objevit slova z nejrůznějších cizích jazyků (zvláště angličtiny, němčiny, latiny, francouzštiny, italštiny). Níže uvádíme typické příklady:

● anglická: and, colours (např. ve spojení Colours of Ostrava), business, company, monkey (např. ve spojení Monkey Business), on, the, to, you....

● německá: alles, gute (např. ve spojení Alles Gute), der, donnerwetter, du, ein, scheisse/Scheisse, sie, zwei

● francouzská: accompli, du

● latinská: ad, in, motu, proprio, sine, vitro

● italská: di, speranza

Cizí slova se mohou vyskytnout ve víceslovném cizím textu, který se může objevit uprostřed textu českého, nejčastěji jako citát (lat. a priori, ad Kalendas Graecas, alea iacta est, a priori, de facto, in nuce, in vitro; angl. by the way, to do list; fr. "à/a propos", "à/a la", raison d’être, acquis communautaire; něm. an sich) nebo jako součást vlastního jména (Colours of Ostrava, Monkey Business, Park City, New York1 City). Typicky se vyskytují pohromadě jako součást víceslovného cizojazyčného úseku v textu českém.

Cizí slova mohou v českém textu vystupovat v roli jiného slovního druhu, nejčastěji substantiva, protože často bývají součástí nějakého vlastního jména.

Cizí slova odlišujeme od těch překlepů, jež nemají žádný význam v jiných jazycích.

2.2 Lemmatizace a homonymie týkající se cizích slov

Lemma cizího slova je vždy totožné se slovem samým.

Jak vidno z výše uvedených příkladů, cizí slova, zvláště krátká, jsou často homonymní se slovy českými (z uvedených příkladů jsou to slova der (něm.) – imperativ slovesa drát; di (it.) a du (fr.) jako nespisovné tvary slovesa jít, slova to a on (angl.) jsou homonymní s českými tvary zájmen. Tato homonymie bude pochopitelně vyjádřena: cizí slovo bude POS=F, české slovo bude mít POS jiné než F.

Zkomolená cizí slova jako ajn, cvaj (ve spojení ajn cvaj), reinsenkrecht / rajnsenkrecht / rajcnkrecht a další nepokládáme za cizí, ale zdomácnělá a budou přiřazena k některému slovnímu druhu jinému než F či X.

Seznam nejfrekventovanějších cizích slov s frekvencí nad 300 v korpusu SYN2015 je obsažen v příloze (Nejfrekventovanejsi_cizi_slova.docx); tato slova budou označkována jako POS=F. Seznam se bude průběžně rozšiřovat. Ostatní cizí slova budou označkována jako neznámá (POS=X).

Je vhodné, aby po standardní morfologické analýze prošel každý text i modulem, který rozpozná cizojazyčné úseky a všem slovním tvarům v těchto úsecích přiřadí hodnotu POS=F (i kdyby tato slova dostala při analýze slovnědruhovou značku jinou než F nebo X. Např. sekvence čtyř tvarů POS=X, POS=I, POS=X, POS=X bude přepsána na sekvenci POS=F, POS=F, POS=F, POS=F). Viz i kapitola Neznámá slova # 08-14.

2.3 Zdomácnělá cizí slova

Zdomácní-li slovo původně cizí, což se projeví například počeštěným pravopisem, řadíme takové slovo k existujícím slovním druhům, a to na základě významu a postavení ve větě (typicky adverbia, částice nebo citoslovce):

Adverbium:

To by prachy byly <ajn> <cvaj>.

Citoslovce:

Dyť máš kruci, holka, <rajcnkrecht> všecko, cos kdy chtěla a co sis byla vůbec štont vymyslet

3 Závěr

V této kapitole jsme popsali značkování cizích slov v českých textech: kritéria cizosti a zdomácnělosti slov (i z frekvenčního hlediska), jejich lemmatizace a homonymie.



1 Slovo York se skloňuje, patří tedy do české slovní zásoby (POS=N). Je však vhodné přidat k jeho běžným morfologickým interpretacím (rod, číslo, pád) i interpretaci maximálně podspecifikovanou, která bude obsahovat pouze [POS=N & GEN=I & NEG=A] pro výskyt právě v kontextech uvedeného typu.