过去我们让AI说话,它给出的总是不咸不淡的机器合成声音,毫无波澜的死板音调让人听得昏昏欲睡。但由于chatTTS的到来,一切都将会变得不一样。作为一款强大的对话式文本转语音模型,它完美解决了用户对于生动对话的需求。如此功能不可小觑,可以称得上在业界一骑绝尘。对于短视频内容创作,有声小说配音,数字营销推广以及日常办公,它都可以成为强有力的助手。此外,该项目还衍生出音色抽卡,长文本推理,角色扮演等功能。
项目简介
ChatTTS由2noise推出,是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。使用非常简单,只需输入文本和信息,就可以生成相应的语音文件。它同时支持英文和中文,两种语言的发声效果都非常良好,甚至你可以输入中英文混搭的语句,它也能切换自如,轻松驾驭。
ChatTTS的训练量也是十分惊人。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本。
ChatTTS非常适合处理通常分配给大型语言模型LLM的对话框任务。当集成到各种应用程序和服务中时,它可以生成对话响应,并提供更自然、更流畅的交互体验。
核心功能
1. ChatTTS文本转语音
ChatTTS能够生成自然流畅的语音,输入的文本里允许加入笑声 [laugh] 和停顿 [uv_break] 作为韵律标记,可操作性很强。有了这些停顿和语气词等副语言现象,它听起来就像是我们在日常生活中的自然交流。它的发声也是不拘一格,比如你提问四川当地有哪些美食,它给出的回答还会带有一点口音!
(几个示例https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo)
如果让它朗读/陈述信息,可以听到音质相当不错,声音清晰饱满,背景噪音较少,语速适中,声调平稳,英文发音颇为地道。。。这简直是广播电台的播音员无疑了!当然,也存在发音词带有吞音之类的问题,不过还是瑕不掩瑜。
如果让它读故事,那听起来真是抑扬顿挫,它时而提升声调突出重点,时而放缓过渡,同时也能处理好断句。
总的来说,ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。生成效果上,不论是语调还是语气的变化,都比较细腻,非常接近真人的说话方式,不会停留在单一的音调上显得生硬。整体上声音很连贯,不会有别扭的感觉。
2.细粒度控制--韵律调整:
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。前面我们有提到过韵律特征:停顿和笑声,实际上模型有许许多多种韵律的调整,不仅限于文本里常见的附加[uv_break]和[laugh](实际上笑声也有三种,[laugh_0]、[laugh_1]、[laugh_2]),还有[music]、[pure]、[oral_0]、[speed_3]、[Stts]、[Ptts]等,标记处上下文都会受到程度不一的影响,这样可以很好地做到控制情绪的表达而不显突兀。当然,目前运用参数自动地对文本的预处理还是不够精细的,可能还是需要一定的人工处理,不然将会更为理想。
言而总之,这个模型可以精确控制韵律元素包括笑声,停顿和语调等韵律元素。
项目实操
基础用法
import ChatTTS from IPython.display import Audio chat = ChatTTS.Chat() chat.load_models(compile=False) # Set to True for better performance texts = ["PUT YOUR TEXT HERE",] wavs = chat.infer(texts, ) torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)
进阶用法
说话人生成的主要方法是先从高斯噪声中采样,然后得到一个固定长度的说话人向量,最后作为额外的信息,输入到网络。给出的项目音色本来是不能固定的,但我们可以通过固定随机种子,将音色固定,解决音色过于随机的问题
################################### # Sample a speaker from Gaussian. rand_spk = chat.sample_random_speaker() params_infer_code = { 'spk_emb': rand_spk, # add sampled speaker 'temperature': .3, # using custom temperature 'top_P': 0.7, # top P decode 'top_K': 20, # top K decode } ################################### # For sentence level manual control. # use oral_(0-9), laugh_(0-2), break_(0-7) # to generate special token in text to synthesize. params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } wav = chat.infer(texts, params_refine_text=params_refine_text, params_infer_code=params_infer_code) ################################### # For word level manual control. text = 'What is [uv_break]your favorite english food?[laugh][lbreak]' wav = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code) torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)
如有兴趣可以点击以下链接了解更多细节:
https://github.com/2noise/ChatTTS/blob/main/README_CN.md
https://github.com/ultrasev/ChatTTS/blob/master/README.md
https://colab.research.google.com/github/Kedreamix/ChatTTS/blob/main/ChatTTS_infer.ipynb#scrollTo=_xrONBIj9oxo
推荐使用NVIDIA RTX 40 显卡做模型推理,购买地址如下:
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/131102.html
摘要:本文借助发布的数字营销趋势报告,从广告的发展趋势和尚存问题讲起,引出前端开发在未来应该逐渐的所处的角色和应该承担的责任。总结本文描述了广告在年的发展趋势和当前存在的问题,并在广告的渲染,监测和上报上阐述了前端可以努力的方向。 上个周写个篇文章《一篇文章了解广告全链路》,在其中我们讨论了数字营销中广告是如何售卖的,以及广告的实时竞价和库存算法。但是,其实上面那篇文章还没有完结,它还缺了一...
摘要:中国联通对边缘云的实践在国内运营商中比较领先。目前,中国联通在天津建成了全国最大的边缘云测试床,验证边缘云相关技术能力。自研平台是目前中国联通边缘云的重要任务。目前,中国联通平台已商用部署于天津宝坻上京顺园边缘机房。5G网路与云计算、大数据、虚拟增强现实、人工智能等技术的深入融合,将使万物实现互联,成为各行业数字化转型的关键基础设施。而uRLLC(超可靠低时延)作为5G三大应用场景之一,也使...
摘要:往年回顾氪研究院长期追踪一级市场行业动态,深入调研各领域细分赛道最具代表性的企业,从行业发展环境成长性竞争格局未来趋势等角度进行分析与研究,输出了包含人工智能金融教育医疗交通文娱电商泛科技在内的上百份报告。 showImg(http://upload-images.jianshu.io/upload_images/13825820-d8888a77e920c16f.jpg?imageM...
摘要:大杀器之性能剖析原文地址大杀器之性能剖析前言写了几吨代码,实现了几百个接口。功能测试也通过了,终于成功的部署上线了结果,性能不佳,什么鬼 Golang 大杀器之性能剖析 PProf 原文地址:Golang 大杀器之性能剖析 PProf 前言 写了几吨代码,实现了几百个接口。功能测试也通过了,终于成功的部署上线了 结果,性能不佳,什么鬼?
阅读 5582·2025-01-02 11:25
阅读 503·2024-12-10 11:51
阅读 472·2024-11-07 17:59
阅读 388·2024-09-27 16:59
阅读 539·2024-09-23 10:37
阅读 625·2024-09-14 16:58
阅读 386·2024-09-14 16:58
阅读 608·2024-08-29 18:47