给 OpenCC 增加自定义转码库–全角半角互换,中英标点互换

OpenCC 有点日子没有更新了。

尽管OpenCC是目前繁简转化做的最好的。有众多人在贡献词库。但看得出来还是有不少漏网之鱼。我列在了这里。
另外呢,在繁简转化的时候,除了文字本身的转化以外,标点符号上,两岸三地的用法也有略微的区别,比如单引号,港台使用 『』 ,双引号「 」。 同样也在数字上,台湾地区更喜欢使用全角符号。

对于我这么个强迫症患者,转化后的排版如果很乱,会让我抓狂的。
还好我们可以通过 OpenCC 来实现更多的自定义转化,将漏网之鱼捕获以外,还能在排版工作上,助力不少。

如何自定义OpenCC,增加自己的转码库

1,字典文件
OpenCC 的转码库字典文件保存在 data/dictionary 目录内,是 TXT 文档,可以直接修改。修改后,重新编译安装 OpenCC 即可。 或者我们新建一个 TXT 文档,比如新建一个 Full2Half.txt ,将全角的 0-9,a-z,A-Z 分别对应到半角的 0-9, a-z, A-Z 。

2,更改编译加载内容
打开文件 data/CMakeLists.txt , 增加

set(
  Full2Half
)

3,继续更改加载内容
打开文件 data/dicts.gypi ,增加

{"targets": [{...
     "actions": [{...}
      , {
      "action_name": "Full2Half",
      "variables": {
        "input": "

原创文章,作者:Y.Y,如若转载,请注明出处:https://84361749.com/post/opencc-customize.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注