网易授权服务商:湖南领先网络科技有限公司
一键扫码支付开通邮箱
扫码支付开通邮箱
支付宝扫码支付
微信扫码支付
! 扫码支付请您添加支付款备注,输入您公司名称
申请试用体验
为了帮助您更好地了解和使用网易企业邮箱,在您申请成功后,将由专属邮箱顾问为您安排产品体验服务。
  • 产品解说
  • 产品配置
  • 产品体验
电话咨询
致电专属客服 咨询邮箱解决方案
400-0908-163
微信咨询
我是您的专属邮箱顾问
免费1V1服务 「邮件+」高效办公
扫码添加 | 为您1V1解答邮箱疑问
网易企业邮箱帮助中心

微软的人工智能语音生成器在测试中达到与人类同等水平

微软公司开发了一种新的神经编解码语言模型 Vall-E,在自然度、语音鲁棒性和说话者相似性方面都超越了以前的成果。它是同类产品中第一个在两个流行基准测试中达到人类同等水平的产品,而且显然非常逼真,以至于微软不打算向公众开放。

借助 Vall-E 的基础,新的人工智能语音工具集成了两大增强功能,大大提高了性能。分组代码建模使微软能够更好地组织编解码器代码,从而缩短序列长度,提高推理速度,帮助克服与长序列建模相关的挑战。

与此同时,"重复感知采样"重新考虑了原始的核采样过程,以便在解码时寻找标记重复。微软表示,这一过程有助于稳定解码,防止出现初代 Vall-E 中出现的无限循环问题。

微软使用 LibriSpeech 和 VCTK 数据集对 Vall-E 2 进行了测试,结果它都以优异的成绩通过了测试。当雷德蒙德声称这款人工智能工具实现了与人类的平等时,他们的意思是 Vall-E 2 在鲁棒性、相似性和自然度方面的表现都优于地面实况样本。换句话说,该工具可以生成与原说话人几乎完全相同的自然语音。

微软分享了 Vall-E 2 的数十个样本,这些样本可以在项目摘要页面上找到。事实上,Vall-E 2 的样本栩栩如生,与人类说话者毫无区别。这款人工智能工具甚至还能掌握一些微妙的技巧,比如在句子中强调正确的单词,就像人们在说话时下意识地做的那样。

微软表示,Vall-E 2 纯粹是一个研究项目,并补充说它没有计划将这项技术融入消费产品或向公众发布该工具。雷德蒙德还指出,它存在被滥用的潜在风险,例如冒充特定的人或欺骗语音识别。

不过,该公司认为,它可以应用于教育、翻译、无障碍环境、新闻、自撰内容和聊天机器人等领域。