鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典型语料库的统计词频)
开发缘由:
我想拥有一个自己的拼音输入法,开源的,可以高度定制,没有强制弹窗、没有强制升级。
我想拥有一个自己的拼音输入法,拥有超高的词语输入准确率,摆脱对过度商业化输入法的依赖。
我想拥有一个自己的拼音输入法,可以众人参与改进,吸收最新的语言学成果。
我想拥有一个自己的拼音输入法,如同知名媒体人王晓峰的博文《一个输入法的死掉》描述的黑马神拼那样,可以在输入法中对古诗词信手拈来。
Rime输入法有一个超大词库,【SuperRime拓展词库】 for 朙月拼音&Win10拼音(700万词),质量并不高,绝大部分都是未完全分词的错误词汇。朙月拼音码表中存在不少拼音错误。目前Rime输入法缺乏一个接近工业级质量的拼音库码表,如果词库必须要自己去养,现代汉语词典就有大约6万个词语,不吸收利用现有的语言频率成果,养词汇要等到猴年马月。
刘邵博综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。该词典未对词语进行有效筛选,虽然来源样本较大,是270G新闻语料,但是不具备典型代表性,不能囊括其他语料库的词语。同时这个词典没有拼音标注。
开发理念:
不以盈利为目的,本着开源共享的精神,使用网络上可以公开获得的数据,打造一个高准确率的拼音输入法,免除弹窗、捆绑安装、强制升级的烦恼。
商业化的输入法有经济利润的驱动,投入大量的人力,拥有较高的词库质量。当商业化倾向过于严重时,会影响用户体验。闭源的数据和代码,让一般民众无法参与到产品核心功能的改进,无法吸纳群体的智慧。
开源的和免费的输入法属于兴趣驱动,人力投入匮乏,良莠不齐,缺乏高质量的词库和功能体验。
大学研究人员对于汉语词频、拼音、分词的学术性研究,拥有科研基金的支持,有高水平人才的参与,学术成果拥有较高的质量,但研究者没有将学术成果转化为实用性较强的拼音输入法倾向。
鱼与熊掌不可兼得,综合吸纳了商业化、开源化、学术化的产品三方优点,鸿雁拼音输入法诞生了,同时拥有windows版和安卓版。
语言属于公共领域的财产,广大人民群众贡献了整个语言体系的的走向趋势。人民群众的语言是开源非加密的,商业拼音输入法在获取成千上万人的开源的语言后,分析其中的规律,推出更符合语言规律的拼音输入法,形式却是闭源的、加密的,而且是私人领域的财产。这在法律和道德上是不对等的。成熟的商业拼音输入法应当适当程度公开其获得的语言规律,也采用开源的形式。这叫取之于民,还之于民。算法可以理解为商业机密,词条数据认为完全属于私人财产是不合适的。算法的创造者是软件公司,而词条的贡献者并不是软件公司,而是来自成千上万的人民群众贡献的语料库,这属于公共领域的财产衍生品,同样属于公共领域的财产。词条数据的归属权大部分属于共用领域,少部分属于私人领域。
一些包含弹窗、捆绑安装、强制升级的商业化输入法,以前因为其强大的拼音词库你不得不用,从此可以对它们说再见了。
软件截图:
开发缘由:
我想拥有一个自己的拼音输入法,开源的,可以高度定制,没有强制弹窗、没有强制升级。
我想拥有一个自己的拼音输入法,拥有超高的词语输入准确率,摆脱对过度商业化输入法的依赖。
我想拥有一个自己的拼音输入法,可以众人参与改进,吸收最新的语言学成果。
我想拥有一个自己的拼音输入法,如同知名媒体人王晓峰的博文《一个输入法的死掉》描述的黑马神拼那样,可以在输入法中对古诗词信手拈来。
Rime输入法有一个超大词库,【SuperRime拓展词库】 for 朙月拼音&Win10拼音(700万词),质量并不高,绝大部分都是未完全分词的错误词汇。朙月拼音码表中存在不少拼音错误。目前Rime输入法缺乏一个接近工业级质量的拼音库码表,如果词库必须要自己去养,现代汉语词典就有大约6万个词语,不吸收利用现有的语言频率成果,养词汇要等到猴年马月。
刘邵博综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。该词典未对词语进行有效筛选,虽然来源样本较大,是270G新闻语料,但是不具备典型代表性,不能囊括其他语料库的词语。同时这个词典没有拼音标注。
开发理念:
不以盈利为目的,本着开源共享的精神,使用网络上可以公开获得的数据,打造一个高准确率的拼音输入法,免除弹窗、捆绑安装、强制升级的烦恼。
商业化的输入法有经济利润的驱动,投入大量的人力,拥有较高的词库质量。当商业化倾向过于严重时,会影响用户体验。闭源的数据和代码,让一般民众无法参与到产品核心功能的改进,无法吸纳群体的智慧。
开源的和免费的输入法属于兴趣驱动,人力投入匮乏,良莠不齐,缺乏高质量的词库和功能体验。
大学研究人员对于汉语词频、拼音、分词的学术性研究,拥有科研基金的支持,有高水平人才的参与,学术成果拥有较高的质量,但研究者没有将学术成果转化为实用性较强的拼音输入法倾向。
鱼与熊掌不可兼得,综合吸纳了商业化、开源化、学术化的产品三方优点,鸿雁拼音输入法诞生了,同时拥有windows版和安卓版。
语言属于公共领域的财产,广大人民群众贡献了整个语言体系的的走向趋势。人民群众的语言是开源非加密的,商业拼音输入法在获取成千上万人的开源的语言后,分析其中的规律,推出更符合语言规律的拼音输入法,形式却是闭源的、加密的,而且是私人领域的财产。这在法律和道德上是不对等的。成熟的商业拼音输入法应当适当程度公开其获得的语言规律,也采用开源的形式。这叫取之于民,还之于民。算法可以理解为商业机密,词条数据认为完全属于私人财产是不合适的。算法的创造者是软件公司,而词条的贡献者并不是软件公司,而是来自成千上万的人民群众贡献的语料库,这属于公共领域的财产衍生品,同样属于公共领域的财产。词条数据的归属权大部分属于共用领域,少部分属于私人领域。
一些包含弹窗、捆绑安装、强制升级的商业化输入法,以前因为其强大的拼音词库你不得不用,从此可以对它们说再见了。
软件截图: