今日应用
今日话题
开源音频模型Stable Audio Open,文本生成47秒高清音效
重点标签 开源大模型、Stable Audio Open、音效生成、文本语义理解、商业化
文章摘要
Stability.ai于6月6日在其官网宣布开源了最新的文生音频模型——Stable Audio Open。这一模型允许用户通过文本生成最多47秒的多种类型音效,包括钢琴、笛子、鼓点和模拟人声等,且支持44.1kHz的高音质输出。特别值得一提的是,Stable Audio Open还支持数据微调功能,使得歌手和音乐人可以根据自己的音乐数据生成个性化音效,如架子鼓手可以根据自己的鼓点风格进行微调。
模型的开源地址为:https://huggingface.co/stabilityai/stable-audio-open-1.0,同时提供了在线demo体验:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero。Stable Audio Open的开发基于486,492个录音训练数据,其中大部分来自Freesound和免费音乐档案馆,所有音频文件均已获得相应的商业许可,确保了生成音效的商业化使用不会遇到法律问题。
根据「AIGC开放社区」的在线demo体验,Stable Audio Open在文本语义理解和生成音效方面表现出色。然而,目前该模型仅支持英文提示词,对其他语言的支持尚不完善。在音效生成过程中,用户可以对时间、扩散步数和CFG等参数进行细致调整,以获得理想的音效效果,例如抒情的钢琴曲、女声哼唱、长笛声音或轻快的摇滚鼓点。
需要注意的是,尽管Stable Audio Open在学术研究领域具有应用潜力,但目前还不能用于商业化。本文的素材来源于Stability.ai官网,如有侵权,请联系删除。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区