始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。
F5-TTS是一种新颖的文本转语音(TTS)系统,它是基于NAR模型的一个新突破,由上海交通大学、剑桥大学和吉利汽车研究院的研究开云网站团队推出。
与众不同之处在于它使用非自回归方法,将流量匹配与扩散变压器 (DiT) 相结合,成功简化了TTS模型传统上涉及的复杂步骤。
我们知道,大多数语音合成技术(TTS)可以分为两大类:自回归(AR)模型和非自回归(NAR)模型。AR模型在零样本任务上表现出色,但存在推理延迟和暴露偏差的问题。NAR模型推理速度快,但面临文本和语音对齐鲁棒性不足的问题。F5-TTS旨在克服NAR的这一缺陷,同时提升其推理效率并保持系统设计的简洁性。
目前F5-TTS已经开源,并发布到始智AI wisemodel开源社区,欢迎大家前往使用。
研究结果显示,F5-TTS在合成质量和推理速度方面均优于当前许多 TTS系统。在 LibriSpeech-PC数据集上,该模型在推理过程中取得了2.42的字错误率(WER)和0.15的实时因子(RTF),明显优于之前在处理速度和鲁棒性方面存在缺陷的扩散模型 E2TTS 。
通过简化流程并消除对时长预测、音素对齐和显式文本编码的需求,F5-TTS 提高了对齐和合成质量的鲁棒性。研究人员同时强调了伦理考虑,提出需要建立水印和检测系统以防开云网站止模型被滥用。系统的主要亮点在于:
采用正弦位置嵌入和旋转位置嵌入(RoPE)来增强模型对序列位置信息的理解能力,从而提升对齐精度。
◦ 文本输入:将文本转换为字符序列,并用填充符填充至与输入语音相同长度,简化模型输入。
◦ ConvNeXt处理:通过ConvNeXt块对输入文本进行精炼,对齐语音模态,增强文本表示。
◦ 主干网络:采用Diffusion Transformer(DiT),利用流匹配技术实现从文本到语音的高效转换。
◦ 架构特点:避免复杂的持续时间模型、文本编码器和音素对齐等组件,简化系统设计,加快训练速度。
◦ Sway Sampling:非均匀采样策略,通过调整采样流步骤的密度,优化模型性能,减少推理时间。显著增强了生成语音的自然度和清晰度,使模型无需训练即可实现平滑且富有表现力的生成。
◦ ODE求解器:推理阶段使用ODE求解器(Euler/midpoint)处理采样的噪声x0和条件信息,实现从噪声到清晰语音的快速转换。
点击F5-TTS模型详情页-“训练或微调”按钮,创建一个开发环境,选择“F5-E2-TTS”的镜像,使用1张A5000的配置,然后直接点击下一步:
然后确认一下计费方式,如果是简单体验可以选择按量计费的模型,如果需要使用更长的时间,也可以选择包周或包月的模式,相比于按量有一些折扣。确定计费方式之后,可以直接点击提交订单:
wisemodel社区支持直接通过模型镜像创建在线体验,在 模型 详情面点击“在线部署-部署在线体验”按 钮。
然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。
提交订单之后,应用已经进入启动中的状态,正常情况下大概等待1分钟左右就正常运营,进行在线体验了。
开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,
始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:
欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
Copyright © 2024 开云沙盘有限公司 版权所有 备案号:蜀ICP备19012180号 网站地图