@百度输入法
昨天到今天简单看了一下搜狗和QQ的词库同步
家里搜狗用户词库是2.1万词,同步词库时候的临时文件235K
导出纯文本词库是665K
BIN词库备份是528K
单位搜狗用户词库是4.9万词,同步词库时候的临时文件241K
导出纯文本词库是1.8M
BIN词库备份是1.33M
可以看出
1、搜狗同步时候没有同步所有词组。好处:传输快,服务器压力小。
2、同步的临时文件是经过压缩的。好处同上。
3、BIN词库备份应该是加密的压缩格式。里面包含纯文本格式里面没有的部分内容。
QQ的同步词库文件:3万7千多词,2点几M。
几乎跟中文词库导出成纯文本大小一样。
应该是中文词库+英文词库+网址词库。好像没压缩。
-----------------------------------------------
这两天顺手找了一下搜狗历史上用户词库过大造成错误的帖子。
大致过程是这样:一开始搜狗用户词库限制是2M,然后到了某个阶段用户就总出错。
后来限制扩大到3M,过了一段时间,又有用户出错了。
最后搜狗才推出用户词库减肥功能。
搜狗的版主对这个功能是这么说的:只同步最近和经常输入的用户词。
关键词:最近、经常输入。意思就是说只输入一次的,超过一段时间没输入的词就不参与同步了。
TXT词库文件比TXT词库文本小一点,估计是因为压缩的原因。如果没压缩,应该会大许多。从这可以猜测,BIN词库里面记录了TXT文本没有的信息,也就是输入次数和初始录入时间——现在本地空间不值钱,大点没事。
这些个推测供百度参考一下。
昨天到今天简单看了一下搜狗和QQ的词库同步
家里搜狗用户词库是2.1万词,同步词库时候的临时文件235K
导出纯文本词库是665K
BIN词库备份是528K
单位搜狗用户词库是4.9万词,同步词库时候的临时文件241K
导出纯文本词库是1.8M
BIN词库备份是1.33M
可以看出
1、搜狗同步时候没有同步所有词组。好处:传输快,服务器压力小。
2、同步的临时文件是经过压缩的。好处同上。
3、BIN词库备份应该是加密的压缩格式。里面包含纯文本格式里面没有的部分内容。
QQ的同步词库文件:3万7千多词,2点几M。
几乎跟中文词库导出成纯文本大小一样。
应该是中文词库+英文词库+网址词库。好像没压缩。
-----------------------------------------------
这两天顺手找了一下搜狗历史上用户词库过大造成错误的帖子。
大致过程是这样:一开始搜狗用户词库限制是2M,然后到了某个阶段用户就总出错。
后来限制扩大到3M,过了一段时间,又有用户出错了。
最后搜狗才推出用户词库减肥功能。
搜狗的版主对这个功能是这么说的:只同步最近和经常输入的用户词。
关键词:最近、经常输入。意思就是说只输入一次的,超过一段时间没输入的词就不参与同步了。
TXT词库文件比TXT词库文本小一点,估计是因为压缩的原因。如果没压缩,应该会大许多。从这可以猜测,BIN词库里面记录了TXT文本没有的信息,也就是输入次数和初始录入时间——现在本地空间不值钱,大点没事。
这些个推测供百度参考一下。