4 个月前

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

Abstract

在复杂的真实声音场景中进行编辑十分困难，因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识，填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统，该系统可根据文本编辑描述（例如“增强门声”）以及通过“事件滚轴”（event roll）转录生成的事件时间图示，实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构，其训练数据由合成的（输入，期望输出）音频样本对构成，具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明，编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明，“重构重组”（recomposition）是一种重要且具有实际应用价值的任务。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

Daniel P. W. Ellis Eduardo Fonseca Ron J. Weiss Kevin Wilson Scott Wisdom et al

Abstract

在复杂的真实声音场景中进行编辑十分困难，因为各个声音源在时间上存在重叠。生成模型能够基于其对数据领域的强大先验知识，填补缺失或受损的细节。我们提出了一种用于在复杂声音场景中编辑单个声音事件的系统，该系统可根据文本编辑描述（例如“增强门声”）以及通过“事件滚轴”（event roll）转录生成的事件时间图示，实现对单个声音事件的删除、插入和增强操作。该系统采用基于SoundStream表示的编码器-解码器Transformer架构，其训练数据由合成的（输入，期望输出）音频样本对构成，具体方法是将孤立的声音事件叠加到密集的真实背景音上。评估结果表明，编辑描述中的各个组成部分——动作、类别、时间——均具有重要意义。我们的研究证明，“重构重组”（recomposition）是一种重要且具有实际应用价值的任务。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供