Výstupem projektu NovaMorf (Nová morfologie češtiny) je nová lingvistická koncepce a popis morfologie současné češtiny a související problematiky pro účely morfologického značkování (anotace) českých textů. Představuje snahu o koncepční vylepšení, zpřesnění a unifikaci dosavadních přístupů k morfologickému značkování a o co největší konzistenci popisu i o vytvoření sady značek (tagset) a anotačních zásad. Vychází z popisů dosavadních:
● pražského (https://wiki.korpus.cz/doku.php/seznamy:tagy, Hajič 2004) a
● brněnského (https://nlp.fi.muni.cz/raslan/raslan11.pdf, https://nlp.fi.muni.cz/projekty/ajka/tags.pdf?, Jakubíček, Kovář, Šmerk 2011)
Vypořádává se s jejich nedostatky a snaží se na základě mnohaletých zkušeností o lingvisticky co nejadekvátnější návrh morfologického popisu češtiny, který by sdílela a/nebo využívala relevantní pracoviště v České republice zabývající se morfologickým značkováním českých textů.
Existují tyto možnosti, jak využít výsledků projektu z hlediska zainteresovaných pracovišť (Ústav formální a aplikované lingvistiky MFF UK, Ústav Českého národního korpusu FF UK, Ústav teoretické a komputační lingvistiky FF UK, Katedra českého jazyka FF MU, Ústav pro jazyk český AV ČR) z hlediska shody a sdílení:
a. Sjednocující alternativa opravdu národní
Na koncepci se shodnou všechna relevantní pracoviště. Pracoviště budou využívat téhož morfologického popisu a morfologického slovníku a týchž nástrojů pro tokenizaci, větnou segmentaci, morfologickou analýzu/syntézu a desambiguaci českých textů. V takovém případě se nemusí vyvíjet odlišné nástroje pro ten či onen tagset ani není třeba psát konverzní programy mezi různými tagsety, mít různé nástroje a generátory apod.
b. Sjednocující alternativa střízlivější
Relevantní pracoviště se shodnou na co největším morfologickém jádru, stejné tokenizaci a segmentaci. Jádro by se zpracovalo týmiž softwarovými nástroji, zbytek by se zpracoval specifickými nástroji podle potřeb jednotlivých pracovišť.
c. Převodní alternativa
Lingvistická koncepce umožní aspoň bezproblémové převody mezi pouze formálně odlišnými tagsety (lingvistická koncepce a popis jsou stejné, odlišnosti jsou pouze ve formálním označování lingvistických entit), případně různými tagsety při zachování stejné tokenizace a větné segmentace.
d. Nenárodní alternativa
Lingvistická koncepce bude pouze základem, z níž mohou vycházet různá pracoviště při vývoji morfologického slovníku a nástrojů morfologického zpracování češtiny.
Data a počítačové programy, jež vzniknou na základě této koncepce, by se měly šířit pod licencí, jež by měla být co nejpřístupnější a co nejotevřenější pro neziskovou sféru. Nejlepší a patrně jedinou realistickou variantou je licence Creative Commons s omezeními typu Attribution, Share Alike, Noncommercial – CC BY-NC-SA. Jinými slovy: chceme, aby se citovali majitelé licence, aby byl produkt volně stažitelný pro nekomerční účely a aby bylo možné jeho další šíření, ovšem s touž licencí (včetně všech jejích omezení).
Měl by být navržen mechanismus pro případnou dělbu zisku z prodeje vzniklého produktu, přičemž je třeba zohlednit i možné provize („obchodní marži“) spjaté se zprostředkováním prodeje komerčním subjektům.
Koncepce bude realizována v těchto typech lingvistických dat a počítačových nástrojů:
Data
● slovník morfologické analýzy (příp. související data)
Počítačové nástroje
● tokenizér
● větný segmentátor
● morfologický analyzátor (příp. syntetizátor)
● nástroje pro morfologickou desambiguaci (taggery)
● případné související nástroje
Tato data a nástroje budou sloužit především pro morfologickou anotaci českých textů, typicky obsažených v jazykových korpusech češtiny. Budou ji využívat jako své datové základny parsery (nevyvíjené v projektu NovaMorf) a další nástroje.
Tým pracující na projektu NovaMorf (viz § 6) vycházel:
● z koncepce vypracované v disertační práci Hlaváčové (2009)
● z revelantní bohemistické literatury, zvláště ze starších a hlavně moderních mluvnic
● z dat jazykových korpusů češtiny, zejména korpusů řady SYN
● z dlouholetých zkušeností s prací s jazykovými korpusy anotovanými pražským a brněnským anotačním systémem
Projekt podrobně popisuje, jak morfologicky značkovat jednotlivé slovní tvary češtiny (i cizích slov vyskytujících se v českých textech), tj.:
● jaké má tvar morfologické (v širším smyslu, viz výše) vlastnosti
● jaké má lemma jakožto reprezentativní řetězec tvary
Při morfologické analýze založené na morfologickém slovníku, který bude vytvořen podle předkládané koncepce, bude každému slovnímu tvaru přiřazena množina dvojic:
(lemma, morfologická značka)
kde morfologická značka kóduje morfologické vlastnosti tvaru.
Zvolená koncepce se řídí těmito zásadami:
● Jednoslovnost: Popisují se jednotlivé slovní tvary, nikoli sousloví složená z několika tvarů.
● Flektivní morfologie: Popisuje se především flektivní morfologie, výjimečně i morfologie derivační (negace; stupňování, jež je na pomezí flektivní a derivační morfologie); derivační morfologie je zejména pomůckou pro určení slovního druhu a flektivní morfologie.
● Morfologický plán: Popisují se především morfologické vlastnosti slovních tvarů a jejich lemmatizace; ve výjimečných případech i povrchověsyntaktické vlastnosti tvarů (např. předložková rekce), vlastnosti sémantické (např. se vymezují neurčitá zájmena a zpracovává se opozice afirmace – negace) i fonetické (vokalizace předložek).
● Tokenizace a větná segmentace: Navrhuje tokenizaci a větnou segmentaci, neboť obě procedury s morfologickou anotací úzce souvisejí.
● Morfologická desambiguace: V řadě případů navrhuje/doporučuje, jak morfologicky desambiguovat slovní tvary.
● Systémovost/konzistence: Projekt usiluje o maximální obecnost, systémovost, ekonomii a konzistenci popisu; stejné/podobné jevy se snaží popsat stejným/podobným způsobem a s minimem výjimek.
Na projektu se od roku 2012, kdy byl zahájen, podíleli tito lingvisté a počítačoví lingvisté jakožto reprezentanti relevantních pracovišť:
● doc. PhDr. Klára Osolsobě, Dr.: Katedra českého jazyka FF MU
● RNDr. Jaroslava Hlaváčová, Ph.D.: Ústav formální a aplikované lingvistiky MFF UK
● PhDr. Josef Šimandl, Ph.D.: Ústav pro jazyk český AV ČR
● Mgr. Martin Svášek, Ph.D.
● Mgr. Jan Křivan, Ph.D.: Ústav pro jazyk český AV ČR a Ústav teoretické a komputační lingvistiky FF UK
● doc. RNDr. Vladimír Petkevič, CSc.: Ústav teoretické a komputační lingvistiky FF UK
Výstupy projektu NovaMorf jsou obsaženy v několika webových souborech, vzájemně provázaných odkazy. Tvoří je kapitoly a jejich přílohy, na něž se z nich odkazuje, uvedené v Tabulce 1.
Tabulka 1: Přehled souborů (kapitol).
#
Název kapitoly
# 01
Projekt NovaMorf
# 02
Tokenizace
# 03
Větná segmentace
# 04
Lemmatizace
# 05
Morfologické kategorie a jejich hodnoty
# 06
Porovnání NovaMorf s koncepcí Universal Dependencies (UD)
# 07
Vztah NovaMorf a dosavadního brněnského a pražského systému
08
Rozbor jednotlivých slovních druhů
# 08-01
Substantiva
# 08-02
Adjektiva
# 08-03
Zájmena
# 08-04
Číslovky
# 08-05
Slovesa
# 08-06
Adverbia
# 08-07
Předložky
# 08-08
Spojky
# 08-09
Citoslovce
# 08-10
Částice
# 08-11
Cizí slova
# 08-12
Afixové segmenty
# 08-13
Symboly
# 08-14
Neznámá slova
# 08-15
Agregáty
Poznámky
1. V kapitole Lemmatizace (# 04) jsou shrnuty obecné zásady lemmatizace, které jsou pak aplikovány na jednotlivé slovní druhy.
2. V kapitole Morfologické kategorie a jejich hodnoty (# 05) je uveden podrobný přehled sledovaných kategorií a jejich hodnot a také to, jaké kategorie a hodnoty jsou relevantní pro jednotlivé slovní druhy.
3. V kapitole Porovnání NovaMorf s koncepcí Universal Dependencies (UD) (# 06) je podrobně popsán vztah obou koncepcí, tj. podobnosti a rozdíly, příp. důvody zvoleného pojetí. V kapitole Vztah NovaMorf a dosavadního brněnského a pražského systému (# 07) je pojetí NovaMorf detailně porovnáno s východiskovými anotačními systémy: pražským a brněnským.
Oproti dosavadním anotačním systémům jsou v projektu NovaMorf specifikovány nové či modifikované dosavadní slovní druhy:
● cizí slovo: tak se popisují cizí slovní tvary vyskytující se v českých textech (např. New York)
● afixový segment: tak se popisují části větších ortografických slov (např. česko-německý)
● symbol: zahrnuje dosavadní interpunkční znaménko a nově i znaky, jež nejsou interpunkčními znaménky
● agregát: popisuje slovo složené z více částí, nejde však o kompozita v klasickém smyslu (např. slyšels, zač)
4. Kapitoly věnované slovním druhům obsahují podrobné zásady anotace příslušného slovného druhu a v řadě případů i návrhy značkování a desambiguace konkrétních lexémů a tvarů. Na konci každé kapitoly je uvedena relevantní bibliografie. Popis je detailní proto, aby implementace výstupů projektu NovaMorf, tj. zejména zpracování morfologického slovníku, byla co nejsnazší.
Hajič, J. (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum. je někde jako pdf??
Hlaváčová, J. (2009): Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: UK. (Disertační práce.) Dostupná z: <http://utkl.ff.cuni.cz/phpbb/viewtopic.php?f=11&t=1>
http://utkl.ff.cuni.cz/phpbb/viewtopic.php?f=11&t=1&sid=7356568cd923407468280b41797dabff
Jakubíček, M. – Kovář, V. – Šmerk, P. (2011): Czech Morphological Tagset Revisited. In: Horák, A. – Rychlý, P. (eds.), Proceedings of Recent Advances in Slavonic Natural Language Processing 2011. Brno: Tribun EU, s. 29–42. (https://nlp.fi.muni.cz/raslan/raslan11.pdf, https://nlp.fi.muni.cz/projekty/ajka/tags.pdf?)