Unicode及简繁转换专题
 

简繁转换问题起源: 在OpenOffice.org中进行汉字简繁转换时,会出现一些不太正常的地方,有些字转换出现了错误,相关问题描述可参看Issue 51127(Some wrong Chinese translation)。

在此过程中,学习了好多自己以前并不知晓的知识,在此还得特意感谢一下维基文库水水提供的大量帮助。

一些资料的链接如下:

简化字总表
Unicode

字典格式

  • OpenOffice.org
  • SRC680_ROOT\i18npool\source\textconversion\data\stc_char.dic
char:char1char2...
其中的char为简体字,char1char的繁体字,且做为char转换为繁体字时的繁体字,char2及这一行后续的其他繁体字(如果存在的话)是char的繁体字,但这些繁体字只能做单向转换,即只能由这些繁体字转换为简体字char:为简体字与繁体字分隔符。举例如下:
  1. 发:發髮
  2. 变:變
  3. 只:只隻祗衹戠
  4. 台:台臺檯颱
  • SRC680_ROOT\i18npool\source\textconversion\data\stc_word.dic
word1>word2
word3=word4
word5<word6
其中的>表示由左向右转换术语(即由简体转换为繁体时,术语word1直接转换为word2),=表示术语word3word4在简繁转换时是等价的(即由繁体转换为简体时,术语word4直接转换为word3,由简体转换为繁体时,术语word3直接转换为word4),<表示由右向左转换术语(即由繁体转换为简体时,术语word6直接转换为word5)。举例如下:
  1. 默认>預設
  2. 鼠标=滑鼠
  3. 流<串流
  4. 串口<串行埠
  • SRC680_ROOT\i18npool\source\textconversion\data\hhc_char.dic
此文件的用途暂时还不清楚。
  • MediaWiki
  • SRC_ROOT/includes/zhtable/simp2trad.manual
U+xxxxxchar|U+xxxxxchar1|U+xxxxxchar2|
其中的U+xxxxxchar的Unicode十六进制编码,char1char2等是char的繁体字,如果在SRC_ROOT/includes/zhtable/trad2simp.manual中没有特别定义,则char1char简体转换繁体时的繁体字;|为单字定义结束分隔符。举例如下:
  1. U+0989c颜|U+0984f顏|U+09854顔|
  2. U+09980馀|U+09918餘|
  3. U+09a82骂|U+07f75罵|U+099e1駡|
  • SRC_ROOT/includes/zhtable/trad2simp.manual
U+xxxxxchar|U+xxxxxchar1
其中的U+xxxxxchar的Unicode十六进制编码,char1char的简体字,且只在繁体转换简体时有效,如果在SRC_ROOT/includes/zhtable/simp2trad.manual有相同的定义,繁体转换简体优先采用此文件中的定义;|为单字定义结束分隔符。举例如下:
  1. U+05147兇|U+051f6凶|
  2. U+04f48佈|U+05e03布|
  3. U+06c59汙|U+06c61污|
  4. U+056ae嚮|U+05411向|
  5. U+09031週|U+05468周|
  • SRC_ROOT/includes/zhtable/toCN.manual、SRC_ROOT/includes/zhtable/toTW.manual系列
word	word1
其中的wordword1转换至目标时的源术语,即word1word转换至目标时的目标术语。他们之间以tab键(U+00009,HT, horizontal tabulation)分隔。举例如下(toCN.manual):
  1. 記憶體 内存
  2. 預設 默认
  3. 預設 缺省
  4. 串列 串行
  5. 乙太網 以太网
说明:当转换至大陆简体时,术语記憶體就会转换为内存

MediaWiki