会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 全球首个!英伟达发布了一把用于“声音的瑞士军刀”!

全球首个!英伟达发布了一把用于“声音的瑞士军刀”

时间:2024-12-29 11:41:05 来源:大节不夺网 作者:休闲 阅读:883次

11月26日讯,全球英伟达近日展示了其最新研发的首个声音士军人工智能模型——Fugatto。

Fugatto是英伟用于一款基于生成式Transformer架构的人工智能模型,其完整版配备了25亿个参数,达发的瑞刀并在由32个NVIDIA H100 Tensor Core GPU组成的布把NVIDIA DGX系统上进行了训练。

全球首个!英伟达发布了一把用于“声音的瑞士军刀”

这款模型的全球主要功能在于能够修改和生成声音效果,专为音乐、首个声音士军电影和视频游戏制作人设计,英伟用于英伟达将其形象地称为“声音的达发的瑞刀瑞士军刀”。

据NVIDIA应用音频研究经理Rafael Valle透露,布把Fugatto的全球研发初衷是创建一个能够像人类一样理解和生成声音的模型。

它支持多种音频生成和转换任务,首个声音士军是英伟用于首个展示紧急属性的基础生成式AI模型,这得益于其各种训练能力的达发的瑞刀交互以及组合自由格式指令的能力。

Fugatto的布把功能十分强大,能够根据文本描述生成音效和音乐,例如将钢琴演奏转换成人声歌唱,或改变录音的口音和情绪。

对于音乐制作人而言,Fugatto可以帮助他们快速制作原型或编辑歌曲创意,尝试不同的风格、声音和乐器,同时添加效果并提高现有轨道的整体音频质量。

广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动,将不同的口音和情感应用于画外音。

视频游戏开发人员则可以使用该模型修改游戏中预先录制的素材,或根据文本说明和可选的音频输入动态创建新素材。

另外,Fugatto 的新颖性主要体现在以下方面:

首先,在推理过程中,该模型采用了称为ComposableART的技术,能够组合在训练期间只能单独看到的指令。

例如,通过组合提示,可以要求模型以法国口音说出带有悲伤情绪的文本。

此外,该模型在指令之间进行插值的能力使用户能够对文本指令进行精细控制如重音的沉重程度或悲伤的程度。

其次,Fugatto还能够生成随时间变化的声音,NVIDIA将这一功能称为时间插值。

例如,它可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。这一功能使用户能够精细地控制音景的演变方式。

最后,与大多数只能重现所接触的训练数据的模型不同,Fugatto允许用户创建以前从未见过的音景。

例如,它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。

总而言之,Fugatto凭借其功能多样性和创新性,在音频领域具有广阔的发展空间。

(责任编辑:综合)

相关内容
  • [流言板]大规模冲突!弩机与马绍尔、PJ爆发冲突,裁判将三人驱逐
  • 佳夫:今天的比赛有点幸运,但迈尼昂进行了出色的扑救
  • Duang!B费远距离任意球,击中横梁弹出
  • [流言板]再次实现突破!广州队晒于米提数据海报:CBA生涯新高17分
  • [流言板]抽象!惠特摩尔造犯规罚球命中,随后转身和空气击掌
  • stg老板这话说得好啊:17出多少,pero出双倍。 这是一个富二代能说出来的话?好说不说的也是个生意人吧,生意人就这情商?
  • 赛后评分骤降至3.1!回顾努内斯是如何“导演”曼联逆转的
  • [流言板]太铁!山西三分32中9命中率28%,辽宁三分30中6命中率20%
推荐内容
  • 伊万科维奇:一切都没那么糟
  • [流言板]科尔谈施罗德:需要一位挡拆持球手,不能每次都让库里做
  • 董方卓更新社媒:恭喜大连冲超成功!中超,你做好迎接的准备没
  • 西汉姆官方:安东尼奥意识清醒情况稳定,能够进行交流
  • 诺茨郡帅小伙!格拉利什18岁时曾在英甲练级,身价25万39场5球7助
  • RTS新作《风暴崛起》上市日期公布 明年4月发售