光阴社区

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz

趣丸集团与港中大(深圳)联合开源语音大模型MaskGCT

[复制链接]
发表于 4 天前 | 显示全部楼层 |阅读模式
  近日,趣丸科技集团宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

  MaskGCT在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。

  MaskGCT模型是在包含10万小时多语言数据的Emilia数据集上进行训练的,展现出了超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。这一模型的推出,不仅为语音合成领域带来了新的技术突破,也为趣丸集团在智能语音技术方面的布局注入了新的活力。

图片13.png


  作为此次合作的另一方,香港中文大学(深圳)在语音合成与表征领域有着深厚的研究基础。此次与趣丸集团的合作,不仅充分发挥了双方在技术研发和资源整合方面的优势,也进一步推动了语音合成技术的创新与发展。

  值得一提的是,MaskGCT模型已经在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion上发布,并提供了模型下载和Demo展示等功能。这一举措不仅有助于推动语音合成技术的普及和应用,也为广大开发者提供了一个学习和交流的平台。

  趣丸集团作为一家在智能语音技术方面有着深厚积累的企业,此次与港中大(深圳)的合作无疑为其在语音合成领域的发展注入了新的动力。未来,趣丸集团将继续加大在智能语音技术方面的研发投入,推动更多创新技术的应用和落地,为用户提供更加智能、便捷的服务体验。

  目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|光阴社区 ( 湘ICP备15019059号 )

GMT+8, 2024-11-24 11:18 , Processed in 0.353042 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表