V českých textech se mimo slova a čísla vyskytují různé symboly. Definice: Symboly jsou výčtem stanovená interpunkční znaménka nebo jejich skupiny (viz tabulka 3) a výčtem stanovené jiné znaky (viz tabulka 4), které po tokenizaci vznikly jako samostatné tokeny.
Kategorie a hodnoty symbolů jsou představeny v § 1.2. V § 2 jsou rozebrány jejich jednotlivé typy. § 3 kapitolu krátce uzavírá.
Symboly se dělí na interpunkční znaménka a znaky. U symbolů se určuje pouze hodnota kategorie slovní druh (POS=Z) a poddruh (SUB), viz tabulky 1 a 2.
Tabulka 1: Seznam relevantních kategorií symbolů a jejich hodnot
#
kategorie
značka kategorie
hodnoty
1
slovní druh
POS
Z
2
poddruh
SUB
[zlpNAJ]
Tabulka 2: Poddruh symbolů (SUB)
SUB
vysvětlení
příklady
viz
z
nepárové interpunkční znaménko
.,:
§ 2.1
l
levé párové interpunkční znaménko
„ (<
§ 2.1
p
pravé párové interpunkční znaménko
“)>
§ 2.1
N
substantivní znak
§ $ %
§ 2.2
A
adjektivní znak1
%
§ 2.2
J
matematické znaménko (spojovací znak)
+ * =
§ 2.2
Symboly se dělí na interpunkční znaménka (§ 2.1) a znaky (§ 2.2).
Jako interpunkční znaménka se značkují tokeny (je to výběr z velkého množství symbolů) uvedené v tabulce 3, kde je u každého znaménka návrh jeho lemmatu a hodnoty jeho poddruhu (SUB).
Tabulka 3: Přehled značkovaných interpunkčních znamének. Ve třetím sloupci jsou mj. vyznačena znaménka s normalizovanou lemmatizací (norm – lemma se nerovná znaménku)
Název
Interpunkční znaménko
Lemma
SUB
tečka
.
.
z
čárka
,
,
z
dvojtečka
:
:
z
středník
;
;
z
elipsa (výpustka)
...
...
z
spojovník (rozdělovník, hyphen)
-
-
z
pomlčka (dash)
–
- (norm)2
z
vykřičník
!
!
z
dva vykřičníky
!!
! (norm)
z
tři vykřičníky
!!!
! (norm)
z
více vykřičníků
!!!!....
! (norm)
z
španělský obrácený (počáteční) vykřičník
¡3
! (norm)
z
otazník
?
?
z
dva otazníky
??
? (norm)
z
tři otazníky
???
? (norm)
z
více otazníků
????....
? (norm)
z
španělský obrácený (počáteční) otazník
¿4
? (norm)
z
vykřičník otazník
!?5
!?
z
otazník vykřičník
?!6
?!
z
jakákoli výše neuvedená posloupnost vykřičníků a/nebo otazníků začínající vykřičníkem
!??!!!?
!? (normalizováno)
z
jakákoli výše neuvedená posloupnost vykřičníků a/nebo otazníků začínající otazníkem
?!!??!!!
?! (normalizováno)
z
dolní (počáteční) české uvozovky (typ 99)
„
" (norm)
[zl]7
horní (koncové) české uvozovky (typ 6)
“
" (norm)
[zp]
horní (počáteční) anglické uvozovky (typ 6)
“
" (norm)
[zl]
horní (koncové) anglické uvozovky (typ 9)
”
" (norm)
[zp]
uvozovky
"
"
[zlp]
francouzské uvozovky
«
" (norm)8
[zl]
francouzské uvozovky
»
" (norm)
[zp]
dolní (počáteční) český apostrof (typ 9)9
,
' (norm)
[zl]
horní (koncový) český apostrof (typ 9)10
’
' (norm)
[zp]
horní (koncový) český apostrof (typ 6)
‘
' (norm)
[zp]
horní (počáteční) anglický apostrof (typ 6)
‘
' (norm)
[zl]
horní (koncový) anglický apostrof (typ 9)
’
' (norm)
[zp]
(rovný) apostrof
'
'
[zlp]
apostrof (psaný jako čárka nad písmenem)
´
' (norm)
[zlp]
lomítko11
(jakožto závorka)
/
/
[zlp]
kulatá závorka levá
(
(
l
kulatá závorka pravá
)
)
p
hranatá závorka levá
[
((norm)
l
hranatá závorka pravá
]
) (norm)
p
složená závorka levá
{
((norm)
l
složená závorka pravá
}
) (norm)
p
šípová závorka levá
<12
((norm)
l
šípová závorka pravá
>13
) (norm)
p
šípová závorka užší levá
⟨
((norm)
l
užší šípová závorka pravá
⟩
) (norm)
p
Poznámky k tokenizaci, lemmatizaci a značkování
1. Ne každý spojovník, rozdělovník, apostrof je interpunkčním znaménkem; může být totiž součástí tokenů, například substantiv, adjektiv, zkratek, afixových segmentů, nikoli samostatným tokenem (srov. i kapitolu Tokenizace # 02).
2. U párových závorek rozlišujeme poddruhem SUB levou (SUB=l) a pravou závorku (SUB=p) (tato vlastnost je dána samým tvarem závorky). Je však vhodné (ač patrně dost obtížné) rozlišovat stejným způsobem i párové, tj. počáteční (levé) a koncové (pravé) uvozovky, apostrofy jakožto odlišné tokeny vzhledem k tomu, že takovéto rozlišení umožňuje vymezit úsek textu v rámci přímé a nepřímé řeči.
Nebude-li možné při tokenizaci (viz podrobněji kapitola Tokenizace # 02) ve významném počtu případů rozlišit na základě kontextu počáteční a koncové uvozovky, apostrofy a lomítka, navrhujeme značkovat všechny uvozovky, všechny apostrofy a všechna lomítka jejich normalizovanými podobami (", '14, /) a bez rozlišení počátečnosti (levosti) a koncovosti (pravosti), tj. jako SUB=z.15
Budou-li se naopak na základě kontextu rozlišovat levá a pravá párová interpunkční znaménka, pak již při tokenizaci:
● levé párové interpunkční znaménko (uvozovky, apostrof, lomítko) dostane SUB=l, je-li bezprostředně před ním mezera / tvrdá mezera a bezprostředně za ním nemezera (tj. interpunkční znaménko je ke slovu přilepeno zleva)16
● pravé párové interpunkční znaménko (uvozovky, apostrof, lomítko) dostane SUB=p, je-li bezprostředně před ním nemezera a bezprostředně za ním mezera / tvrdá mezera (tj. interpunkční znaménko je ke slovu přilepeno zprava);
● SUB=z jinak.17
3. Při tokenizaci se identifikuje jako jedna entita celá webová a emailová adresa a také adresa počítačového souboru v adresářové struktuře (adresářová cesta k počítačovému souboru: C:\windows\tmp), tj. uvozovky, lomítka a zavináče v nich nejsou samostatnými interpunkčními tokeny.
4. Lomítko je homonymní: je to jak interpunkční znaménko (ve významu závorky), tak matematický znak (viz § 3.2). Při tokenizaci:
a) dostane buď SUB=l a nic jiného, nebo SUB=r a nic jiného
nebo
b) se bude chápat jako homonymum a dostane jak SUB=z, tak SUB=N. Při disambiguaci se pak rozhodne mezi SUB=z a SUB=N.
5. Symbol <, resp.> je menšítko, resp. většítko, je-li z obou stran obklopen mezerou, jinak je to levá, resp. pravá závorka.
6. Lemma interpunkčního znaménka je totožné s ním samým, až na interpunkční znaménka, která je vhodné normalizovat (viz tabulka 3).
Navrhujeme normalizačně lemmatizovat:
a. pomlčku a spojovník (rozdělovník) jediným reprezentantem: spojovníkem -
b. tato znaménka (skupiny znamének) normalizovaně:
b1. více vykřičníků jediným vykřičníkem:
lemma („!!“) = lemma („!!!“) = lemma („!!!...“) =!
b2. španělský obrácený (počáteční) vykřičník:
lemma(„¡“) =!
b3. více otazníků jediným otazníkem:
lemma („??“) = lemma („???“) = lemma („???...“) =?
b4. španělský obrácený (počáteční) otazník:
lemma(„¿“) =?
b5. více dvojic vykřičník otazník:
lemma („!?!?!?...“) =!?
b6. více dvojic otazník vykřičník:
lemma („?!?!?!...“) =?!
b7. jakoukoli výše neuvedenou posloupnost vykřičníků a/nebo otazníků začínající vykřičníkem normalizovat podle prvního znaménka:
lemma(!??????!?) =!
b8. jakoukoli výše neuvedenou posloupnost vykřičníků a/nebo otazníků začínající otazníkem: normalizovat podle prvního znaménka:
lemma(?!!!!?!!!?) =?
b9. všechny počáteční a koncové uvozovky včetně francouzských na
rovné uvozovky "
b10. všechny apostrofy (včetně počátečních a koncových) na rovný apostrof: '
b11. všechny typy levých závorek jediným reprezentantem – kulatou závorkou:
lemma(„(“) = („[“) = („{“) = („<“) = (
b12. všechny typy pravých závorek jediným reprezentantem – kulatou závorkou:
lemma(„)“) = („]“) = („}“) = („>“) =)
Jako znaky se značkují tokeny (je to výběr z velkého množství symbolů) uvedené v tabulce 4.
Tabulka 4: Přehled značkovaných znaků
Název
Znak
Lemma
SUB
tilda
~
~
N
plus
+
+
J
minus
–
–
J
plus minus
±
±
J
krát
×
×
J
lomítko
/
/
J
zpětné lomítko
\
\
J
dělítko
:18
:
J
celočíselné dělítko
÷
÷
J
hvězdička
*
*
J
umocňování
^
^
J
rovnítko
=
=
J
nerovnítko
≠
≠
J
negace
¬
¬
N
menšítko
<
<
J
většítko
>
>
J
znak větší nebo rovno
≥
≥
J
znak menší nebo rovno
≤
≤
J
znak integrálu
∫
∫
J
znak odmocniny
√
√
J
znak pro číslo (mříž)
#
#
N
ampersand
&
&
N
svislítko
|
|
J
nekonečno
∞
∞
N
zavináč (komerční at)
@
@
J
procento
%
%
[NA]19
promile
‰
‰
N
dýka
†
†
N
paragraf
§
§
N
teplotní stupeň
°
°
N
průměr
Ø
Ø
N
znak copyrightu
©
©
N
trade mark
™
™
N
registered
®
®
N
znak amerického dolaru
$
$
N
znak britské libry
£
£
N
znak eura
€
€
N
jednoduchá šipka doleva
←
←
J
jednoduchá šipka doprava
→
→
N
jednoduchá šipka obousměrná horizontální
↔
↔
N
jednoduchá šipka dolů
↓
↓
N
jednoduchá šipka nahoru
↑
↑
N
jednoduchá šipka obousměrná vertikální
↕
↕
N
dvojitá šipka doleva
⇐
⇐
N
dvojitá šipka doprava
⇒
⇒
N
dvojitá šipka obousměrná horizontální
⇔
⇔
N
dvojitá šipka dolů
⇓
⇓
N
dvojitá šipka nahoru
⇑
⇑
N
dvojitá šipka obousměrná vertikální
⇕
⇕
N
Poznámky k tokenizaci, lemmatizaci a značkování
1. Ne každý znak bude představovat samostatný token. Například hvězdička (*) bývá součástí kamufláže vulgárních výrazů (typicky někde uprostřed slova), srov. ku*va, p*del, se*e, s*át, h*vno. Tato slova by se měla rozpoznávat a lemmatizovat doplněním písmena nahrazeného hvězdičkou. Totéž se týká například tečky nebo čárky v číslech (5.78 nebo 5,78).
2. Znak % (procento) má význam:
● substantivní (Dostavilo se 10 % uchazečů.) nebo
● adjektivní (Zaznamenali jsme 10% nárůst uchazečů.)
Řetězec 10% lze zachytit dvěma způsoby:
i) Jako (zkratkový) agregát o dvou složkách:
1. složka: 10,
2. složka: %,
značka: POS=Z & SUB=A (adjektivní) & ABR=+
ii) Jako obyčejné neagregátové adjektivum, kde % nebude tokenizován jako samostatný token ani jako složka agregátu.
3. Je patrně vhodné, aby se všechny znaky chápaly jako zkratky, a měly tudíž: ABR=+
V této kapitole jsme představili značkování kategorie Symbol, která oproti minulým pojetím sdružuje interpunkční znaménka a znaky (matematické a jiné).
1 Viz však § 2.2, Poznámky k tokenizaci, lemmatizaci a značkování, bod 2.
2 Normalizované lemma, viz níže Poznámky k tokenizaci, lemmatizaci a značkování, bod 6.
3 V českých textech se vyskytne jen zcela výjimečně.
4 V českých textech se vyskytne jen zcela výjimečně.
5 Vyskytuje se typicky v šachové literatuře.
6 Vyskytuje se typicky v šachové literatuře.
7 Hodnoty SUB=l a SUB=r u uvozovek, apostrofů a lomítka je vhodné zavést pro odlišení počátečních/levých (SUB=l) a koncových/pravých (SUB=r) uvozovek, apostrofů a lomítka. Viz však podrobněji níže poznámka 2 v této kapitole.
8 Volíme tuto normalizaci, neboť v textech existuje uvozovkování typu «...» i »...«. Je to jeden z důvodů, proč na základě pouhé podoby znaménka neoznačujeme tyto uvozovky jako počáteční, resp. koncové.
9 Pojem „apostrof“ užíváme jako zastřešující pojem pro apostrofy a jednoduché uvozovky.
10 Například ve větě: Nemoh’ to udělat líp?
11 Lomítko je totiž i znak (matematický znak pro dělení).
12 Znak je homonymní s menšítkem, uvedeným v tabulce výše. Disambiguací tohoto znaku se však nezabýváme. Menšítko je typicky obklopeno mezerami, závorka nikoli.
13 Znak je homonymní s většítkem, uvedeným v tabulce výše. Disambiguací tohoto znaku se však nezabýváme. Většítko je typicky obklopeno mezerami, závorka nikoli.
14 Takový znak je nezávislý na kvalitě konverze textů. Odsuvníky se v textech vyskytují i ve své prvotní funkci: nemůžem', 'sli sis myslel.
15 Je ovšem jasné, že uvozovky ani apostrofy nemusí vymezovat přímou řeč, ale například zdůraznění: Alexandra Jakovleva nazývali „otcem glasnosti“.
16 Při tokenizaci dojde tedy k disambiguaci interpunkčního znaménka.
17 Je samozřejmě nutno jemně zpracovat i případy kumulace interpunkčních znamének, viz např. větu v předchozí poznámce.
18 Dělítko je homonymní s dvojtečkou jakožto interpunkčním znaménkem.
19 Nebude-li se značkovat řetězec typu 15% jako agregát, pak pouze N.