不可以,首先是因为这是商业软件,跟vocaloid一样,出于商业利益一般不会让你自制;
其次是,随着合成技术的进步,在今后的一段时间内,自制声源的难度恐怕会越来越大。目前的合成软件早就脱离了UTAU式的纯拼接算法,多少都会有机器学习的技术在。SynthV、CeVIO(包括它们的AI版本)都是应用了机器学习的,这种声源的制作门槛就会比较高。
举一个能自制声源的,就是CeVIO的开源版本Sinsy,要自制声源的一套工具基本上都是linux系统下的脚本,这一点足以吓退多数没有linux使用经验的人;即使不考虑词典,仅制作一个已支持语言(日语)的声源,也需要真人在录音室环境下录制很多首歌,并手动或者半自动地标记每个发音(元音、辅音、其他声音如呼吸)的时间,工作量也是很大的;完成这道工序,还需要经过数个小时的运算(训练)才能产生声源(可能需要顶级显卡),如果效果不好,还需要反复调整+训练多次。
为什么说“在今后的一段时间内”呢?因为随着显卡性能的提升和普及,以及训练算法的改进,训练模型的时间会缩短;另外一定会有人去简化这一制作过程,比如工具简单化UI化、自动标记、风格迁移等等。现在语音合成有很多产品,已经是只需录制几句话就可以生成类似自己声音的合成语音了,歌唱合成也必然可以达到这个效果,但如果样本(真人录制的音频时长)不够,产生的声源效果也必然会同质化。