JMdict: Jaapani-Mitmekeelne Sõnaraamat
James BREEN
Monashi Ülikool
Clayton 3800, Austraalia
Monashi Ülikool
Clayton 3800, Austraalia
Projekti JMdict eesmärk on mitmekeelse leksikaalse andmebaasi koostamine, mille keskpunktiks on jaapani keel. Kasutades XML-i struktuuri, mis on ette nähtud keelte segu ja rikkaliku leksikograafilise teabe kogumi jaoks, on see jõudnud umbes 100 000 kirjeni, enamikul kirjetest on tõlked inglise, prantsuse ja saksa keeles. Kogumik hõlmab teabe taaskasutamist, prantsuse ja saksa tõlked on koostatud eraldi hoitud leksikonitest. Kaasa on pandud ka materjal teistest keeltest. Fail on teadusuuringute jaoks ja sõnastiku rakendustarkvarasse lisamiseks vabalt saadaval ning saadaval mitmes WWW serverisüsteemis.
JMdicti projekti põhieesmärk on jaapani-mitmekeelse sõnastiku koostamine, s.o sõnastik, mille märksõnad on jaapani leksikonist ja tõlked on mitmes muus keeles. Seda võib vaadelda kui jaapani-muukeelsete sõnaraamatute sarja sünteesi, ehkki nagu allpool arutatakse, on selle teabe paigutamisel eelis.
Projekt kasvas välja ja on nüüdseks varasemast jaapani-inglise sõnaraamatute projektist (EDICT: Electronic Dictionary) (Breen, 1995, 2004a) loodud. Kuna jaapani keel on maailmakaubanduses oluline keel ja kuna see on veebis kõige levinum keel, ei ole üllatav, et jaapani keeles koos teiste keeltega on olemas suur huvi elektrooniliste leksiliste ressursside vastu.
Nagu eespool mainitud, kasvas JMdicti projekt välja kakskeelse EDICT sõnastiku projektist. EDICT-projekt sai alguse 1990-ndate alguses suhteliselt lihtsa eesmärgiga toota jaapani-inglise sõnaraamatufail, mida saaks kasutada põhitarkvarakomplektides traditsiooniliste sõnastikuteenuste osutamiseks, ning ka võimalused jaapani teksti lugemiseks. Vorming oli (ja on) üsna lihtne, sisaldades tekstiridasid, mis koosnevad kanji ja/või kana abil kirjutatud jaapani sõnast, selle sõna lugemisest (hääldusest) kana keeles ja ühest või mitmest ingliskeelsest tõlkest.
1990ndate lõpuks oli toimik oma tagasihoidliku päritolu ületanud, jõudnud enam kui 50 000 kirjeni ja käivitanud paralleelprojekti jaapani õigete nimisõnade registreerimiseks (vt allpool). Materjal on osaliselt koostatud üldkasutatavates sõnade loendites, sõnavaraloendites jm ning täiendatud materjaliga, mille on koostanud suur hulk kasutajaid ja teisi vabatahtlikke, kes soovivad oma panuse anda. Ehkki seda oli kasutatud erinevates tarkvarasüsteemides ja leksikaalse materjali allikana paljudes projektides, oli selge, et selle ülesehitus oli kasutajate leksikaalsete nõudmiste jaoks üsna ebapiisav. Eelkõige ei suutnud see kaasata sobivat mitmekesist teavet ega esindada lähtekeele ortograafilisi keerukusi. Sellest lähtuvalt otsustati 1999. aastal käivitada uus sõnastikuprojekt, mis sisaldab EDICT-faili teavet, kuid laiendati teiste keelte tõlgetesse, kusjuures pöördepunktina jäid jaapani kirjed. Projekti eesmärgid olid:
a. failivorming, eelistatavalt tunnustatud standardit kasutades, mis võimaldaks mitmesugustele tarkvararakendustele hõlpsat juurdepääsu ja sõelumist;
b. ortograafiliste ja hääldusvariantide käsitlemine ühe kande piires. See käsitles suurt probleemi EDICT-vormingus, kuna paljusid jaapani sõnu saab kirjutada alternatiivsete kanji ja kanade (okurigana) erinevate osadega ning neil võib olla alternatiivseid hääldusi. EDICT-vormingus oli vaja, et kõiki variante käsitletaks eraldi kirjetena, mis tegi sõnastiku pidamise ja laiendamise keerukaks;
c. grammatilise ja muu teabe täiendav ja sobivam seostamine. Teatud teave, näiteks kõneosa või laensõnade lähtekeel, oli EDICT-faili lisatud sulgudes tõlkeväljadel, kuid ulatus oli piiratud ja teavet ei olnud lihtne sõeluda;
d. säte tõlgete erinevate tunnete eristamiseks. d. Kuna EDICT-failis oli põhiline polüseemia märgitud tõlkegruppidele ette pannes (1), (2) jne, oli tulemust keeruline sõeluda. Samuti ei toetanud see olukordi, kus mingi hääldus oli seotud mingi mõtte või nüansiga, nagu seda juhtub aeg-ajalt jaapani keeles;
e. säte tõlke ekvivalentide lisamiseks mitmest keelest. EDICT-sõnastiku faili kasutati paljudes riikides ning mitmed mitteametlikud projektid olid alustanud samaväärsete failide väljatöötamist jaapani ja muude sihtkeelte jaoks. EDICT-vormingus oli välja antud väike jaapani-saksa fail (JDDICT). Suurt huvi tunti erinevate keelte tõlgete pakkumise vastu, mis võimaldaks luua mitme keele jaoks ühe viitefaili, kannete ristviiteid, keeltevahelise otsingu jne, samuti võimaliku arengu fookustõlked veel esindamata keeltele;
f. säte sõnakasutuse näidete lisamiseks. Faili laienedes taotlesid paljud faili kasutajad faili sõnadega seostamiseks mingisuguseid kasutusnäiteid. EDICT-vorming ei suutnud seda toetada;
g. sätete ristviidete loomine seotud kannetele;
h. EDICT-vormingus failide jätkuv genereerimine. Kuna EDICT-vormingu ümber oli ehitatud suur hulk pakette ja servereid, peeti oluliseks selles formaadis sisu jätkuvat pakkumist, isegi kui teave sisaldas ainult alamhulki sellest, mis oli saadaval.
Varane otsus oli kasutada JMdicti faili vormingus XML-i (Extensible Markup Language), kuna eeldati, et see pakub vormingus asjakohast paindlikkust ning seda toetasid ka rakendused, raamatukogude sõelumine jne.
Uuriti muid saadaolevaid sõnastikuvorminguid, et teha kindlaks, kas sobiv vormingumudel on olemas. Oli teada, et kommertssõnastike kirjastajatel on leksikaalse teabe hästi struktureeritud andmebaasid ja mõned kolisid XML-i ümber, kuid ükski neist üksikasjadest polnud saadaval. Suur hulk kakskeelseid sõnastikufaile ja sõnaloendeid oli avalikus omandis; üldiselt kasutasid nad ainult väga lihtsaid struktuure ja ühtegi ei leitud, mis hõlmaks kõiki projekti sisunõudeid. TEI (Text Encoding Initiative) sõnastikuosa, millel kirjutamise ajal oli kakskeelsete sõnaraamatute jaoks hästi välja töötatud dokumendistruktuur, oli selles etapis üsna piiratud (Sperberg-McQueen jt, 1999). Sellest lähtuvalt töötati välja projekti nõuetele kohandatud XML DTD (Document Type Definition).
EDICT-fail sõeluti ja vormindati ümber JMdicti struktuuriks ning samal ajal tuvastati ja ühendati paljud ortograafilised variandid. DTD- ja XML-vormingus fail anti välja esmakordselt 1999. aasta mais. Selles etapis sisaldasid need ingliskeelseid tõlkeid EDICT-failist ja saksakeelseid tõlkeid JDDICT-failist. Nagu allpool kirjeldatud, on seda alates sellest ajast märkimisväärselt laiendatud, seda nii sissekannete arvu kui ka mitmekeelse katte osas.
JMdicti fail anti välja esmakordselt 1999. aastal ja ajakohastatud versioone antakse välja 3-4 korda aastas koos EDICT-faili versioonidega, mis genereeritakse samal ajal samadest failidest. Failis on nüüd üle 99 300 kirje, s.t keskmise suurusega trükitud sõnastiku maht, ja kannete arvu kasv on nüüd suhteliselt aeglane, enamus värskendusi on seotud olemasolevate kirjete paranduste ja laiendamisega.
Fail on saadaval vaba litsentsi alusel, mis võimaldab seda tasuta kasutada peaaegu igal eesmärgil. Ainus nõue on, et selle kasutamist täielikult tunnustatakse ja et kõik sellest välja töötatud failid jätkuvad samadel litsentsitingimustel.
JMdict XML-i struktuur sisaldab ühte elemendi tüüpi: <entry>, mis omakorda sisaldab järjenumbrit, kanji sõna, kana sõna, teabe- ja tõlkeelemente. Järjenumbrit kasutatakse hoolduse ja identifitseerimise jaoks.
Kanji sõna ja kana sõna elemendid sisaldavad jaapani keelesõnade kahte vormi; esimest kasutatakse esinduste jaoks, mis sisaldavad vähemalt ühte kanji tähemärki, teist aga ainult kana kanalite esitamiseks. Kana sõna on tegelikult hääldus, kuid see on ka oluline võti sõnastiku faili indekseerimiseks, kuna jaapani sõnaraamatud pannakse tavaliselt järjekorda kana sõnade järgi. Nende väljade minimaalne sisu on kana sõna elemendis üks sõna. Lisaks võib iga kirje sisaldada teavet sõnade (ebaharilik ortograafiline variant, arhailised kanji jt) ja kasutamise sageduse kohta. Viimane tuleb seostada tegelike sõnadega, mitte kirjega tervikuna, kuna mõnda kanji ja kana sõnade kombinatsiooni kasutatakse sagedamini kui teisi. (Näiteks 合気道 ja 合氣道 on ühe sõna (aikidô) ortograafilised variandid, kuid esimene on tavalisem.)
Elementides kasutatud kana järgib tänapäevast Jaapani ortograafiat, s.t hiraganat kasutatakse emakeelena jaapani sõnade jaoks ja katakana laensõnade, onomatopoeetiliste sõnade jne jaoks.
Enamikul juhtudel on sissekandes ainult üks kanji ja üks kana sõna (umbes 75%) või ainult üks kana sõna (15%). Umbes 10%-l sissekannetest on ühes elemendis mitu sõna. Mõnel juhul saab kana lugemist seostada ainult kandes sisalduvate kanji sõnade alamhulgaga. Näiteks soyakaze (そよかぜ: kerge tuul) võib kirjutada kas 微風 või そよ風 (viimane on tavalisem, kuna そよ on 微 kanji mittestandardne lugemine). Kuid 微風 võib hääldada ka sama tähendusega bifuu (びふう), kuid selgelt ei saa seda hääldust seostada そよ風 vormiga, kuna kana osa loetakse "soyo". XML ei paku elegantset meetodit kahe elemendi osade vahelise piiratud kaardistamise tähistamiseks, nii et kui selline piirang on vajalik, kasutatakse iga kanji sõna tarniva kana-sõna jaoks täiendavaid silte, millega see võib olla seostatud.
Teabeelement sisaldab üldist teavet jaapani sõna või kande kui terviku kohta. Sisu võimaldab kasutada ISO-639 lähtekeele koode (laensõnade jaoks), murrete koode, etümoloogiat, bibliograafilist teavet ja värskenduste üksikasju.
Tõlkeala koosneb ühest või mitmest sensoorsest elemendist, mis sisaldavad vähemalt ühte tõlget. Iga tähendusega on seotud elementide kogum, mis sisaldab kõne osa, ristviidet, sünonüümi/antonüümi, kasutust jne. Mõistega võivad olla seotud ka piirangukoodid, mis seovad
mõtte jaapani sõnade alamhulgaga. Näiteks võib 水気 hääldada suiki (すいき) ja mizuge (みずけ); mõlemad tähendavad "niiskus", kuid ainuüksi esimene võib tähendada ka "tursed".
Tõlkeelemendil on tunnus, mis näitab tõlke sihtkeelt. Selle puudumisel eeldatakse, et tõlge on inglise keeles. Samuti on olemas sugu märkiv tunnus, kui näiteks kõneosa on nimisõna ja tõlge on soopõhiste nimisõnadega. Joonisel 1 on kande pisut lihtsustatud näide. Elemendid <ke_pri> ja <re_pri> näitavad, et sõna kuulub teatud tavaliste sõnade komplekti.
<entry>
<ent_seq>1206730</ent_seq>
<k_ele>
<keb>学校</keb>
<ke_pri>ichi1</ke_pri>
</k_ele>
<r_ele>
<reb>がっこう</reb>
<re_pri>ichi1</re_pri>
</r_ele>
<sense>
<pos>&n;</pos>
<gloss>school</gloss>
<gloss g_lang="nl" g_gend="fg">school</gloss>
<gloss g_lang="fr" g_gend="fg">école</gloss>
<gloss g_lang="ru" g_gend="fg">школа</gloss>
<gloss g_lang="de" g_gend="fg">Schule</gloss>
<gloss g_lang="de" g_gend="fg">Lehranstalt</gloss>
</sense>
</entry>
Joonis 1: JMdicti sisestuse näide
Võimalus, et kandes on mitu kanji ja kana sõna, pöörab tähelepanu homonüümia, homograafia ja polüseemia probleemidele ning nende käsitlemise poliitikale, eriti kriteeriumidele, mis käsitlevad kanji ja kana sõnade ühte kirjet. Kuna jaapani keeles on suhteliselt vähe foneeme, on seal palju homofoonilisi sõnu. Näiteks üle kahekümnel erineval sõnal kana esitus う じょう (kôjô). Kui me käsitleme homograafiat ainult nende sõnade puhul, mis on täielikult või osaliselt kirjutatud kanjiga, siis on seda suhteliselt vähe, kuid siiski, nt. 川柳 lugedes tähendab せんりゅう (senryû) koomilist luuletust, lugedes かわやなぎ (kawayanagi) aga pajupuu sorti.
JMdicti faili kompileerimisel on kasutatud järgmist reeglit:
a. käsitlege iga põhikannet kolmnurgana, mis koosneb: kanji esitusviisist, kana esitusviisist, tundest;
b. kui mõne põhikande puhul on kolm või enam kolmiku liiget ühesugused, siis ühendage need üheks kandeks;
i. kui kanded erinevad kanji või kana esituses, lisage need alternatiivsete vormidena;
ii. kui sissekanded erinevad sisult, käsitlege seda polüseemia juhtumina;
c. muudel juhtudel jäta kanded eraldi.
Seda reeglit on enamikul juhtudel edukalt kohaldatud. Põhiprobleemid tekivad siis, kui tähendused on sarnased või omavahel ühenduses, nagu sissekannete puhul: (放す, はなす, et eraldada; vabastada; lahti lasta) ja (離 す, は な;, osade jagamiseks; poolitamiseks; eraldamiseks), kus kana sõnad on samad ja tähendused kattuvad. Jaapani sõnaraamatud jagunevad 放す ja 離す; ühed hoiavad neid eraldi sõnadena ja teised panevad need kahe põhitõlkega ühe sisestusena. (Need kaks sõna tulenevad ühest allikast.)
Kuna keeled erinevad oma kõneosades (POS), võib probleemiks osutuda nende detailide salvestamine kakskeelsetes sõnaraamatutes (Al-Kasimi, 1977). Tavaliselt väldivad jaapani keeles kasutatavad kakskeelsed sõnaraamatud POS-teabe salvestamist, jättes kasutajale võimaluse selle teabe tõlkimisest ja näidetest (kui neid on) järelduse teha. EDICT projekti algusjärgus hoiti POS-teavet tahtlikult minimaalsena, nt. osutades, kus tegusõna oli transitiivne või mittetransitiivne, kui see tõlkest ei ilmnenud, peamiselt salvestusruumi säästmiseks. Kuna elektroonilise sõnastiku failis POS-teabe märkimisel on mitmeid eeliseid, lisati JMdicti struktuuri POS-i element ja suur osa POS-klassifikatsioonide failist pandi avalikult kättesaadavaks. Ligikaudu 30% kannetest on endiselt klassifitseerimata; enamasti nimisõnad või lühikesed nimisõnafraasid.
Ruumi kokkuhoiu huvides tehti varajane otsus hoiduda tuletatud sõnavormide loetlemisest. Näiteks jaapani omadussõnast 高い (takai), mis tähendab "kõrge, pikk, kallis", on tuletatud vormid 高さ (takasa) "kõrgus" ja 高く (takaku) "äärmiselt". Kuna see protsess on väga regulaarne, ei sisalda paljud Jaapani sõnaraamatud tuletatud vormide kirjeid ja mõned kakskeelsed sõnastikud järgivad seda. Teine selline näide on tavaline tegusõnavorm, kus lisatakse tegusõna る (suru) "tegema" sobivatele nimisõnadele. Tegusõna "õppima" on 勉強する (benkyôsuru), kus 勉強 on nimisõna, mis selles kontekstis tähendab "õppimine". Ka Jaapani sõnaraamatud ei sisalda neid vorme sageli märksõnadena, eelistades kande kehas osutada, et moodustamine on võimalik.
Selliste tuletatud vormide väljajätmine tähendab, et tõlgete konstrueerimisel tuleb olla ettevaatlik, et kasutajatel oleks hõlpsasti võimalik tuvastada ühe tuletatud vormi sobiv tõlge.
Mitmekeelses kontekstis võib tuletatud vormide väljajätmisel olla muid probleeme. Tegusõnade ainult nimisõna baasvormingus registreerimine tekitab saksa kasutajate seas teatavat ebamugavust, kuna saksa keele ortograafilises konventsioonis on suurtähtede esitähed, kuid mitte tegusõnad (WaDokuJT failis on sel põhjusel する tegusõnad eraldi kirjetena).
Nagu eespool mainitud, tulenes osa huvist omada sissekannete tõlkeid erinevate keelte kirjetest, mitme EDICT-failil põhineva või sellega sarnase sõnastikufaili koostamisest. Muude sõnaraamatufailide materjali kaasamisega on seotud mitu küsimust, eriti need, mis on seotud komplekteerimispoliitikaga: katvus, mõjutatud vormide käsitlemine jne (Breen, 2002) Samuti on toimetamise ja materjali korrashoid, mis võib iga keele integreerimisel muutuda keerukamaks.
JMdicti puhul on kasutatud järgmist lähenemisviisi:
a. hoida jaapani-inglise peafaili, millel on hästi dokumenteeritud struktuur ja kaasamise ja redigeerimise põhimõtted;
b. ergutada samaväärsete failide arendamist ja haldamist teistes keeltes koos jaapani keelega, mis saavad vastavalt vajadusele tugineda JMdict/EDICT materjalile;
c. perioodiliselt koostada erinevatest komponentidest täielik mitmekeelne JMdict.
See lähenemisviis on osutunud edukaks seetõttu, et see on eraldanud faili koostamise komponentide pidevast redigeerimisest ja jätnud viimase nende kätte, kellel on ülesande täitmiseks vajalikud oskused ja motivatsioon.
Selle kirjutamise ajal oli JMdicti failis üle 99 300 kande (jaapani ja inglise keeles), millest 83 500-l on tõlked saksa keeles, 58 000-l on tõlked prantsuse keeles, 4800-l on tõlked vene keeles ja 530-l tõlked hollandi keeles. Hetkel on ette valmistamisel umbes 4500 hispaaniakeelse tõlke komplekti, mis ennustuste kohaselt jõuavad varsti ka 20 000-ni.
Nende täiendavate tõlgete peamised allikad on:
a. Prantsuse tõlked kahest projektist:
i. Dictionnaire français-japonais Project (Desperrier, 2002), projekt, mille eesmärk on tõlkida EDICT-faili kõige levinumaid jaapani sõnu prantsuse keelde, on saadetud umbes 17 500 tööd.
ii. veel 40 500 kirjet, mis on pärit programmist 仏語補完計画 (Prantsuse-Jaapani Täiendusprojekt) aadressil http://francais.sourceforge.jp/ (see projekt põhineb ka EDICT-failil.)
b. Saksakeelne tõlge projektist WaDokuJT (Apel, 2002). See on mahukas fail, milles on üle 300 000 kirje; erinevalt JMdictist sisaldab see aga paljusid fraase, õigeid nimisõnu ja tegusõnade käändevorme jne. JMdicti katvus on üsna suur, mistõttu JMdicti faili on kantud palju kirjeid.
Üks probleemidest, mis võib teiste projektifailide tõlgete lisamisel probleeme tekitada, on tõlgete joondamine, kui sisestusel on mitu tähendust. Prantsusekeelsete tõlgete puhul on projekti koordinaator märkinud polüemiliste kirjete tõlked mõtekoodiga, võimaldades tõlked lõpliku faili koostamisel õigesti sisestada. Muude keelte jaoks on tõlked lisatud komplekteeritud ingliskeelsetele tõlgetele. Mitme tähenduse asjakohane käsitlemine on tulevase töö objekt.
Kui projekt algas ja DTD välja töötati, oli kavas lisada kakskeelsete näidete komplektid sisestatud sõnade kasutamiseks. Sel põhjusel seostati iga tähendusega element <example>, mis võimaldas lisada selliseid näitelauseid, fraase jne.
Praktikas on võetud üsna erinev lähenemisviis. Kuna alates 2001. aastast on saadaval suur jaapani/inglise paralleelsete lausete korpus (Tanaka, 2001), otsustati korpus säilitada puutumatuna ja näha ette selle asemel korpusest valitud lausete seostamine sõnastiku kirjetega sõnastiku rakendustarkvara kaudu (Breen, 2003b). See strateegia, mis nõudis korpuse sõelumist, et eraldada iga lause indekssõnade komplekt, on rakenduse tasemel osutunud tõhusaks. Selle eeliseks on ka sõnastikufaili korrashoid ja näidiskorpuse eraldamine.
Lisaks mõnele väiksele mitme euroopa keelega sõnaloendile on Papilloni projekt ainus teine suurem projekt, mis üritab koostada põhjalikku mitmekeelset andmebaasi (nt Boitet et al, 2002). Väljaannete täieliku loetelu leiate aadressilt http://www.papillon-dictionary.org/. Papilloni kujundus hõlmab sõna-tähendusel põhinevaid seoseid, nagu on soovitatud (Sérasset, 1994), peenema leksikaalse struktuuriga, mis põhineb tähendusteksti teoorial (MTT) (Mel'cuk, 1984–1996). Selle kirjutamise ajal on Papilloni andmebaas endiselt leksikaalse teabega asustatud.
JMdicti projektiga on tihedalt seotud Jaapani Mitmekeelse Nimega Entiteedi Sõnaraamatu (JMnedict) projekt. See on andmebaas umbes 400 000 jaapani kohanime ja isikunimega ning mitte-jaapanikeelsete nimede kohta nende jaapanikeelses ortograafilises vormis koos jaapanikeelse transkriptsiooniga ladina keelest (Breen, 2004b). Mõnel geograafilisel nimel on ingliskeelsed kirjeldused: neem, saar jne, mida laiendatakse teistele keeltele. JMnedicti fail on XML-vormingus, sarnase struktuuriga nagu JMdict.
Veel üks mitmekeelne leksikaalne andmebaas on KANJIDIC2 (Breen, 2004c), mis sisaldab laias valikus teavet JIS X 0208, JIS X 0212 ja JIS X 0213 märgistandardite 13 039 kanji kohta. Iga kanji kohta leiate teavet jaapani, hiina ja korea keeles ning iga kanji laia tähendust inglise, saksa ja hispaania keeles. Portugalikeelset tähenduste komplekti ollakse ette valmistamas. Andmebaas on XML-vormingus.
Kuigi JMdicti faili kasutavad mitmed eksperimentaalsed süsteemid, on Papilloni projektiserver praegu ainus rakenduse süsteem, mis kasutab täielikku mitmekeelset faili. Joonis 2 näitab selle serveri pilti sõna 川柳 otsimisel. Autori WWWJDIC-server (Breen, 2003a) kasutab faili jaapani-inglise komponente. Joonis 3 on väljavõte sõna 小人 WWWJDIC-serverist, mis on näide mitme kana sõna sisestusest ja tähendusest, mida piiratakse lugemisega. (Markerid (P) tähistavad tavalisemaid näiteid.)
Joonis 2: Papilloni näide 川柳 kohta
Joonis 3: WWWJDIC näide 小人 kohta
Jaapani-inglise sõnastiku EDICT fail, mis on loodud samast andmebaasist kui JMdicti fail, on jätkuvalt peamine mitteäriline jaapani-inglise keele leksiline ressurss ja seda kasutatakse paljudes rakendustes ja serverites, aga ka mitmetes teadusprojektides.
JMdicti projekt on edukalt välja töötanud mitmekeelse leksikaalse andmebaasi, mille pöördekeeleks on jaapani keel. Seejuures on see jõudnud keskmise suurusega trükisõnastikega võrreldava leksikaalale ja selle komponente kasutatakse paljudes rakendustes ja uurimisprojektides. Samuti on see näidanud seotud ja koostööd tegevate leksikoniprojektide materjalide taaskasutamise potentsiaali. JMdicti projekti failid on teadlastele ja arendajatele hõlpsasti kasutamiseks kättesaadavad ning võivad olla mitmekeelses kontekstis oluliseks leksikaalseks ressursiks.
Viited
Al-Kasami, A.M. 1977 Lingvistika ja kakskeelsed sõnaraamatud, E.J. Brill, Leiden
Apel, U. 2002. WaDokuJT - Jaapani-saksa sõnaraamatute andmebaas, Papillon 2002 Seminar, NII, Tokyo
Boitet, C, Mangeot-Lerebours, M, Sérasset, G. 2002 PAPILLONi projekt: mitmekeelse leksikaalse andmebaasi ehitamine ühistööna avatud lähtekoodiga sõnaraamatute ja leksikonide saamiseks, Proc. 2. töötoa NLPXML 2002, Post COLING 2002 töötuba, toim. Wilcock, Ide & Romary, Taipei, Taiwan.
Breen, J.W. 1995. Elektroonilise jaapani-inglise sõnaraamatu ehitamine, JSAA konverents, Brisbane.
Breen, J.W. 2002. Mitmekeelse leksikoni koostamise praktilised küsimused ja probleemid, Papillon 2002 Seminar, NII, Tokyo.
Breen, J.W. 2003a. WWW jaapani sõnaraamat teoses "Keeleõpetus ristteel", Monash Asia Institute, Monash Ülikool Press.
Breen, J.W. 2003b. Sõnakasutuse näited elektroonilises sõnastikus, Papillon 2003 Seminar, Sapporo.
Breen, J.W. 2004a. EDICTi projekt, http://www.csse.monash.edu.au/~jwb/edict.html
Breen, J.W. 2004b. ENAMDICT / JMnedicti projekt, http://www.csse.monash.edu.au/~jwb/enamdict_doc.html
Breen, J.W. 2004c. KANJIDIC2 projekt, http://www.csse.monash.edu.au/~jwb/kanjidic2/
Meeleheitel J-M. 2002. Jaapani-prantsuse sõnaraamatu loomise koostööprojekti tulemuste analüüs, Papillon 2002 Seminar, NII, Tokyo.
Mel'cuk, mina jt. 1984-1996. DEC: dictionnaire explicatif et combinatoire du français contemporain, recherches lexico-sémantiques, Vols I-IV, Montreali ülikool. Vajutage.
Sérasset, G. 1994. SUBLIM: un Système Universel de Bases Lexicales Multilingues et NADIA: sa spécialisation aux bases lexicales interlingues par acceptions, (doktoritöö) Joseph Fourier Ülikool, Grenoble
Sperberg-McQueen, C. M. ja Burnard, L. (toim) 1999. Juhendid elektroonilise teksti kodeerimise ja vahetamise kohta. Oxfordi Ülikool Press.
Tanaka, Y. 2001. Mitmekeelse paralleelkorpuse koostamine, PACLING 2001, Jaapan.