HyperAIHyperAI

Command Palette

Search for a command to run...

Recomposer:基于事件滚动引导的生成式音频编辑

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

Abstract

在复杂的真实声音场景中进行编辑十分困难,因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识,填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统,该系统可根据文本编辑描述(例如“增强门声”)以及通过“事件滚轴”(event roll)转录生成的事件时间图示,实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构,其训练数据由合成的(输入,期望输出)音频样本对构成,具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明,编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明,“重构重组”(recomposition)是一种重要且具有实际应用价值的任务。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供