开源音频模型Stable Audio Open，文本生成47秒高清音效

AI最新资讯5个月前发布 tree

47 0 0

今日应用

深言达意

深言达意是一款写作辅助工具，核心功能包括据意查词、据意查句。根据模糊的描述，找到贴切的词语和名言佳句，支持汉英双语。深言达意基于最先进的人工智能算法实现，由深言科技出品。

今日话题

开源音频模型Stable Audio Open，文本生成47秒高清音效

重点标签 开源大模型、Stable Audio Open、音效生成、文本语义理解、商业化

文章摘要

Stability.ai于6月6日在其官网宣布开源了最新的文生音频模型——Stable Audio Open。这一模型允许用户通过文本生成最多47秒的多种类型音效，包括钢琴、笛子、鼓点和模拟人声等，且支持44.1kHz的高音质输出。特别值得一提的是，Stable Audio Open还支持数据微调功能，使得歌手和音乐人可以根据自己的音乐数据生成个性化音效，如架子鼓手可以根据自己的鼓点风格进行微调。

模型的开源地址为：https://huggingface.co/stabilityai/stable-audio-open-1.0，同时提供了在线demo体验：https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero。Stable Audio Open的开发基于486,492个录音训练数据，其中大部分来自Freesound和免费音乐档案馆，所有音频文件均已获得相应的商业许可，确保了生成音效的商业化使用不会遇到法律问题。

根据「AIGC开放社区」的在线demo体验，Stable Audio Open在文本语义理解和生成音效方面表现出色。然而，目前该模型仅支持英文提示词，对其他语言的支持尚不完善。在音效生成过程中，用户可以对时间、扩散步数和CFG等参数进行细致调整，以获得理想的音效效果，例如抒情的钢琴曲、女声哼唱、长笛声音或轻快的摇滚鼓点。

需要注意的是，尽管Stable Audio Open在学术研究领域具有应用潜力，但目前还不能用于商业化。本文的素材来源于Stability.ai官网，如有侵权，请联系删除。

文章来源

原文地址: 点我阅读全文
原文作者: AIGC开放社区

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

开源音频模型Stable Audio Open，文本生成47秒高清音效

今日应用

今日话题

文章摘要

文章来源

激发AI创新潜能，OPENAIGC开发者大赛赛题解析

ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

相关文章

暂无评论

热门网址

热门标签