使用虎码半年了,虎码是一个很优秀的形码方案,但也存在一些问题。
其中最大的问题是词库。
虎码的作者是打单选手(听闻),所以在二简词的设定上,对喜欢打词的选手不友好。
举个例子,dc的二简是“虽”,“虽”的词频也很高,但是“虽”一般和“虽然”一起使用,完全不用打单。这对打词选手就不友好了。相反,我更喜欢把“dc”的二简改成“呢”。
“呢”无法和词语组合,改成二简可以缩短码长。
不过,这里的编码可以自己改,所以问题不大。
真正让我头疼的是虎码的词库,虎码的小词库版本,也有16万词库。大词库更是有22万(好像是)。
这些词库虽然有经过整理,但是还是会有大量的废词出现,比如人名、地名,以及根本不是词语的词语。
我在想一个问题,有没有一种可能,用词频软件把词库整理一下,词频在1000一下的,除去正规的词语外,全部删除呢?(比如“楷体”的词频是554,但“楷体”一看就是词语,可以不删除。如果嫌麻烦,直接删了也可以。)
虎码的词库实在是太大了,打字遇见重码要选重的时候,一看重码是废词,会影响打字的心情。
其中最大的问题是词库。
虎码的作者是打单选手(听闻),所以在二简词的设定上,对喜欢打词的选手不友好。
举个例子,dc的二简是“虽”,“虽”的词频也很高,但是“虽”一般和“虽然”一起使用,完全不用打单。这对打词选手就不友好了。相反,我更喜欢把“dc”的二简改成“呢”。
“呢”无法和词语组合,改成二简可以缩短码长。
不过,这里的编码可以自己改,所以问题不大。
真正让我头疼的是虎码的词库,虎码的小词库版本,也有16万词库。大词库更是有22万(好像是)。
这些词库虽然有经过整理,但是还是会有大量的废词出现,比如人名、地名,以及根本不是词语的词语。
我在想一个问题,有没有一种可能,用词频软件把词库整理一下,词频在1000一下的,除去正规的词语外,全部删除呢?(比如“楷体”的词频是554,但“楷体”一看就是词语,可以不删除。如果嫌麻烦,直接删了也可以。)
虎码的词库实在是太大了,打字遇见重码要选重的时候,一看重码是废词,会影响打字的心情。