
Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。在这种实力的背后,
当前文章:http://o7c11.paitunuo.cn/5oyo/tz7y6l.html
发布时间:08:28:33