声纹吧 关注:15贴子:33
  • 0回复贴,共1

说普通话和方言时候声纹是否相同?

只看楼主收藏回复

说普通话和方言时候声纹是否相同?声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。所以只要把此人的声纹模型(基于声纹引擎)提取训练好了,无论他说啥语言都能被识别出来。
声纹识别是通过一段语音来判定说话人的身份,重点在于识别人而不是识别文本,这也是声纹识别区别于语音识别的地方,因此,从这一点看,声纹识别对说话人的内容和语言是没有要求的。但是,就声纹识别目前的技术发展看,从GMM-UBM到JFA到i-vector到DNN-ivector再到end-to-end,每次技术的迭代更新都受益于更大的训练语料,其中,英文和普通话的语料是最多的,方言则相对较少,所以学术界大部分研究还是基于英文或者普通话的单一语言声纹识别;如果要构建多语言声纹识别,那么在录音时就要找会多种语言的说话人,录一句普通话,录一句方言,目前这样的数据库不管是数量和规模,都远不及单一语言的语料库。即便是单一语言声纹识别,根据是否对所读文本内容进行限制,分为文本相关、文本提示和文本无关三种类型,其中文本相关和文本提示的识别率比文本无关(自由说)的声纹识别系统效果好很多,很多公司的商用声纹识别系统也是基于文本相关(比如:“芝麻开门”)或者文本提示(比如:“读提示的8位随机数字串”)转载自:https://sdhaopin.com/shengwen/xinwenzhongxin/23.html


IP属地:山东1楼2019-12-21 15:33回复