一直很喜欢触摸未来的画外音,由于自己是学数据挖掘专业的,感觉jake说的很多事,几乎所有事,都是现在正火热的大数据理论的部分研究成果,短信,比例,马赛克,数学分析。于是很想把画外音整理出来。
贴吧里已经有很多朋友整理的帖子,第二季的画外音比较规整完善了,但是网上流传的版本中英对照方面有部分错误,而第一季暂时没看到比较规整的整理。
人人影视的字幕正确率还是十分高的,于是我决定从字幕下手。
写了一段程序自动把人人影视字幕中的有效信息(中英文)截取出来,看起来简单的工作,着实花了不少功夫(字幕的格式太乱了=.=)。
于是现在终于有了非常规整的画外音,正确率也非常高,可读性也非常强。甚至适合想要学习英语的同学全文背诵。
为了帖子规整性,在发完之前请大家不要插楼,最后一楼会附上字母处理的源代码(C++实现)。
贴吧里已经有很多朋友整理的帖子,第二季的画外音比较规整完善了,但是网上流传的版本中英对照方面有部分错误,而第一季暂时没看到比较规整的整理。
人人影视的字幕正确率还是十分高的,于是我决定从字幕下手。
写了一段程序自动把人人影视字幕中的有效信息(中英文)截取出来,看起来简单的工作,着实花了不少功夫(字幕的格式太乱了=.=)。
于是现在终于有了非常规整的画外音,正确率也非常高,可读性也非常强。甚至适合想要学习英语的同学全文背诵。
为了帖子规整性,在发完之前请大家不要插楼,最后一楼会附上字母处理的源代码(C++实现)。