关于输入法的重码【现代五笔吧】

形码输入法字根多。传统五笔字根量199个，98王码字根量227个，天然码字根量246个。常规的汉字构字部件，其数量是相对固定的，不管你如何布局，一般在180-240之间。重码率与输入法类型及编码方案关系最为密切，极少有输入法将自已的重码字公之与众。
掩盖重码的手段
近年来，网上竟然有输入法宣称只有几十个重码字，实在令行家难以置信。当然他们的重码字是不能公布的。因为，一公布就会露马脚，这里有三种典型的情况：一、输入法作者自定重码字标准为了将自创输入法推广出去，在谈及重码字数量时，他们采用了灵活的说法。并堂而皇之地认为：有简码的重码字就不再是重码字，理由是这些字可以通过简码来输入。在这种心态支配下，他们只将没有简码字的重码字确定为重码字，如此，情况就大不一样了，原来被认为的600个重码字，现在就只剩下不到200个了。我们认为：重码字作为输入法品质优劣性的重要指标，应以全码字为定义对象，否则就没有定义的必要了。二、采用“取头断尾”法来掩盖真实的重码字假设输入法真正的重码字有600个（设为300组），想让用户认为无重码，只要从构成重码的每对中选取一个字，也就是选择300个字设置成简码字，然后将该字的全码舍去即可。简码字是从众多符合筛选条件的字中严格挑选出的高频字，如果将原本要安置高频字的简码空位让给某些重码字，让这些“滥竽充数”者占据主位，势必会影响总体输入效率。三、在编码对象上做文章国标一级汉字共有3755个，一般来说，常用字都在其中，二级汉字共有3008个，其中大部分为冷避字。输入法的基本编码对象应是这6763个汉字。如果一个输入法作者在这个基本编码对象上做点文章，掩盖自身的重码率，那也是容易做到的。若有重码字600个，只要在重码字中选择120个相对冷避的汉字删除掉，与之相配对的另一重码字也就不存在了，这样一来，总量上就少了240个重码字。
重码的绝对几率
最为常见的是以26个字母键、码位数为4的输入法。因此，我们就以这种典型的输入法来讨论重码字发生的几率。这种典型的输入法，其编码空间总量为：456976位（26的4次方），而编码对象是6763个国标汉字（不加入词组），在这种条件下，所编出的输入法，其编码空间占用的情况是： 456976÷6763=67.57，也就是：6763个字占用了约六十八分之一的编码空间此时，每输入1个汉字，其重码的发生几率为：67.57分之1（456976除以(6763-1)=67.58），或者说每输入67.58个汉字后，就会产生一对重码，这样累计，输完6763个汉字，会产生6763乘以1/67.58=100.1对重码。从这个原理上来说，以26个字母键、码位数为4编码的输入法，其重码发生的几率所产生的重码为100对。以上是从绝对均衡的条件下预测的。实际上，汉字外形结构与读音的类同性、编码规则、字根规则的原则性等因素，影响汉字在编码空间内均衡分布，其结果只会增大重码的发生几率。就全形码输入法来说，汉字结构的类同性造成重码发生几率的增加，首先表现在构字能力特强的一些部件上，如“口”、“亻”、“艹”、 “钅”、“氵”、“木”等，造成某些汉字聚集在编码空间的某一区间或层面上，从而使重码的发生几率增高；其次表现在某些相近特征的汉字上，产生“惰性”重码。每种编码规则类型，都有其相应的“惰性”重码。如“赢羸蠃嬴” 、“微徽徵”、“龆龉”、“蝥蟊”等汉字相对全形码而言，就是“惰性”重码，在编码规则确定为“一二三末”之后，无论字根位置如何调整，这些重码都在所难免。以上编码空间占用原理告诉我们：以26个字母键、码位数为4编码的输入法，重码发生的绝对几率所产生的重码为100对，这是理论上的临界值，实践中，设计者降低重码的理性期望值，是不能少于这个临界值的。少于这个临界值的期望，是不现实的。

楼主数学水平不高，还要卖弄。40万个码中，为6000多个字选码，居然有100.1组是「必须」的重码。

我曾经也号称白酒两斤半，啤酒随便灌，一个晚上对付三十几个，喝伤 15个，喝趴下16个，失踪4个。令无数人闻风丧胆！不管是夺命53度.还是雪花勇闯天涯，倒满必干！但现在我为何退出江湖，归隐山林？一瓶就倒，两瓶就断片？是什么让我改变如此之大！？是仇恨？还是爱情？拿起你的手机，编辑短信“我要请你吃饭”发送到本人手机，与昔日酒神面对面交流，倾听我背后的故事，感受我曾经的辉煌，揭开我背后的心酸…

日	一	二	三	四	五	六

关于输入法的重码

扫二维码下载贴吧客户端