03 Větná segmentace

1 Úvodní přehled

Větná segmentace je takové zpracování textu, při němž se text dělí na věty. Zařazujeme jej mezi texty projektu NovaMorf, jelikož velmi úzce souvisí s tokenizací (viz kapitolu Tokenizace # 02). Základní nesnází relativně snadného procesu větné segmentace je homonymie těch interpunkčních znamének, která – mimo jiné – mohou označovat konec věty. Jsou to (viz kapitolu Symboly # 08-13, § 2.1) tato znaménka a žádná jiná (označme tuto množinu jako INTPUNKON):

● tečka

● elipsa,

● jakékoli normalizované uvozovky / normalizované apostrofy

● jakákoli posloupnost vykřičníků a/nebo otazníků

● dvojtečka.

Ostatní interpunkční znaménka větu neukončují.

V § 2 se věnujeme pravidlům větné segmentace z hlediska jednotlivých interpunkčních znamének.

2 Pravidla větné segmentace

Obecně platí:

1. Tvrdá mezera (konec řádky) bezprostředně po znaménku patřícím do INTPUNKON signalizuje konec věty.

2. Je-li za některým znaménkem z INTPUNKON bezprostředně mezera a bezprostředně poté slovo začínající malým písmenem, znaménko neukončuje větu.

Věnujme se nyní stručně jednotlivým interpunkčním znaménkům.

2.1 Tečka

Obecně tečka, za níž následuje mezera, může:

● ukončovat větu

● ukončovat zkratku

● mít případně další význam.

Příklad 1

Mějme text:

Teď se začala elita, tj. vzdělaná menšina, stahovat stranou.

Zde je jasné, že tečka za tj neukončuje větu, a tak správná segmentace je:

<s>Teď se začala elita, tj. vzdělaná menšina, stahovat stranou.</s>

Důvody jsou dva:

● Zkratka tj. nemůže ukončovat větu

● Za tj. následuje slovo psané malým počátečním písmenem.

Příklad 2

Mějme text:

Svědčí o tom i původní název osady Zlaukowerde, který se během staletí změnil v německé Schlackenwerth, tj. Slávkův ostrov.

I zde je jasné, že tečka za tj neukončuje větu, a tak správná segmentace je:

<s>Svědčí o tom i původní název osady Zlaukowerde, který se během staletí změnil v německé Schlackenwerth, tj. Slávkův ostrov.</s>

Příklad 3

Mějme text:

Stalo se to roku 70 př. Kr. Titus dobyl Jeruzalém.

Měl by se správně segmentovat na věty takto:

<s>Stalo se to roku 70 př. Kr.</s>

<s>Titus dobyl Jeruzalém.</s>

nikoli takto:

<s>Stalo se to roku 70 př. Kr. Titus dobyl Jeruzalém.</s>

Po zkratce Kr. následuje slovo začínající velkým písmenem. Abychom správně segmentovali uvedený úsek, potřebovali bychom následující informaci z morfologické analýzy/disambiguace: za slovem Titus je slovesný tvar dobyl a ten nemůže být – při správném pravopise – v téže klauzi spolu s jiným finitním slovesný tvarem: Stalo. Tato informace z až následného zpracování textu není ve fázi segmentace a tokenizace k dispozici.

Problém spočívá v tom, že:

● zkratka Kr. může ukončovat větu

● hned za zkratkou Kr. následuje slovo psané velkým písmenem.

Kdyby za Kr. následovalo slovo psané malým počátečním písmenem, byla byla segmentace snadná:

Text:

Stalo se to roku 73 po. Kr. poté, co roku 70 Titus dobyl Jeruzalém.

se samozřejmě segmentuje takto:

<s>Stalo se to roku 73 po. Kr. poté, co roku 70 Titus dobyl Jeruzalém.</s>

neboť za zkratkou Kr. bezprostředně následuje slovo psané malým počátečním písmenem (poté).

Pro větnou segmentaci je tedy klíčové mít k dispozici co největší disjunktní seznamy takovýchto zkratek:

Zkratky_neukončující: seznam zkratek končících tečkou, které nemohou ukončovat větu (např. tj.)

Zkratky_ukončující: seznam zkratek končících tečkou, které mohou (ne nutně musí!) ukončovat větu (např. Kr.)

Uveďme tu alespoň nejfrekventovanější zkratky a pokus o jejich orientační roztřídění:

Seznam_ukončující: ad., aj., akad., angl., apod., arch., atd., atp., bil., corp., Corp., CSc., čes., D., dem., Dr., ed., eds., Eds., etc., fyz., hist., hod., inc., ing., inž., j., m., mat., max., med., mil., min., ml., mld., mp., nám., násl., par., Ph.D., písm., pl., pod., pol., r., ř., s., sg., sl., st., stol., tech., tis., vyd., vyhl., vých., zák., záp.

Seznam_neukončující:1 adr., brit, býv., ca., círk., č., čís., čl., čp., čs., doc., dr., elektr., ev., event., fr., genmjr., genpor., geol., hl., hosp., hud., chem., inf., it., jaz., jm., kap., kl., křiž., kupř., l., m., mgr., Mgr., mj., mjr., mr., msgr., MUDr., n., něm., např., nar., npor., nprap., o., obj., obr., odst., okr., os., Paedr., ph., PhDr., pí., plk., poč., podst., popř., por., poř., pozn., pplk., ppor., pprap., prap., prof., prom., prům., př., příd., příp., pův., red., resp., roč., roz., rtm., sb., sev., skup., soc., sociál., sp., spol., srov., srv., str., stř., subst., sv., svob., t., tel., tj., tzn., tzv., ul., um., v., vč., voj., vs., vulg., zač., zal., zast., zejm., zkr., zool., zn., zvl.

Platí tedy: Je-li ve větě zkratka končící tečkou, která patří do seznamu Zkratky_neukončující, není bezprostředně za ní konec věty.

2.2 Elipsa

Lze formulovat jen velmi heuristické pravidlo:

Následuje-li těsně po elipse mezera nebo tvrdá mezera (konec řádky) a za mezerou slovo S začínající velkým písmenem, je mezi elipsou a slovem S velmi pravděpodobně větný předěl.

2.3 Uvozovky

Končí-li přímá řeč interpunkčním znaménkem, které může ukončovat větu a které není ani apostrof, ani uvozovky, a uvozovky jsou hned za ním, je velmi pravděpodobné, že uvozovky končí větu.

Příklad 4

Text:

„A potom mi srdce začalo hořet.“ Jakmile to Bruce řekl, Michael se na něj významné podíval.

Je třeba segmentovat takto:

<s>„A potom mi srdce začalo hořet.“</s> <s>Jakmile to Bruce řekl, Michael se na něj významné podíval.</s>

Posloupnost <tečka, horní nebo rovné (normalizované) uvozovky> signalizuje konec věty.

Uvozovky (určitě dolní, ale i rovné), za nimiž těsně následuje slovní řetězec (případně dolní apostrof, nachází-li se hned za uvozovkami úsek textu vymezený apostrofy), signalizují začátek věty.

2.4 Apostrofy

Při větné segmentaci je třeba zacházet s apostrofy velmi opatrně, mají totiž více užití než uvozovky (tj. vykazují větší homonymii). Někdy se chovají jako uvozovky a ohraničují větu, ale ve svých typických užitích jsou přilepené zleva, nebo zleva i zprava k textu (typ nemoh’, McDonald’s) a větu v takových případech neukončují.

2.5 Vykřičník, otazník

Pro vykřičník a otazník i pro jejich shluk platí jen obecná pravidla uvedená výše.

2.6 Dvojtečka

Dvojtečka typicky uvozuje další text. Je otázka, zda rozdělit úsek před dvojtečkou (včetně dvojtečky) a úsek za ní na dvě věty, nebo úsek nedělit.

Příklad 5

Při své berlínské návštěvě Ronald Reagan prohlásil: Sovětský svaz je říše zla.

Tento text lze segmentovat dvěma legitimními způsoby:

Buď:

<s>Při své berlínské návštěvě Ronald Reagan prohlásil: Sovětský svaz je říše zla.</s>

nebo:

<s>Při své berlínské návštěvě Ronald Reagan prohlásil:</s>

<s>Sovětský svaz je říše zla.</s>



1 Některé zkratky z této skupiny se patrně mohou někdy vyskytnout ve skupině druhé.