咳咳【toliman吧】

toliman吧关注：4贴子：139

0回复贴，共1页

咳咳

让电脑读文本，本质上是电脑和人的通信问题……所以会跟拼音输入法比较相近……拼音输入法背后就是统计语言模型和动态规划……【拼音输入法算法其实跟地图导航一样，都是动态规划。估计是篱笆图，吴军《数学之美》讲过
统计语言模型，动态规划，最大熵模型/线性插值来综合各种语言特征，最后准备个几百台服务器的数据做语料库训练，那么让电脑读文本这问题差不多解决了
既然要用几百台服务器的数据堆……那么就是开源协作工程
或者谷歌这种超级牛逼的公司
谷歌做机器翻译的四元模型数据放了几百台服务器
超过五百台
就连训练一个词汇量和语句量在几万的二元模型都需要几千万词的语料
不过只是一开始需要五百台服务器了，后面的都可以用小模型在本地就用线性插值什么的把特征综合上去
最后用傅里叶分解什么的再处理综合一下，差不多解决了
所以，让计算机念人话念出来像人话这个问题在算法上挺简单的，难度在工程和计算量上
世界上爱好计算机有奉献精神的的极客们应该还是挺多的，真要发起一个开源协作工程也应该能有足够多的数据

送TA礼物

1楼2016-04-23 21:29回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回toliman吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

咳咳

登录百度账号

扫二维码下载贴吧客户端