Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Zhifeng Kong ,
Arushi Goel ,
Rohan Badlani ,
Wei Ping ,
Rafael Valle ,
Bryan Catanzaro
2024年02月02日
  • 简介
    本文提出了一种新的音频语言模型——Audio Flamingo,它具有强大的音频理解能力,能够快速适应未见过的任务并具有强大的多轮对话能力。为了增强模型的这些能力,我们引入了一系列训练技术、架构设计和数据策略。在各种音频理解任务的广泛评估中,我们的方法证明了其有效性,创造了新的最先进基准。我们的演示网站是:\url{https://audioflamingo.github.io/}。这对于LLMs理解音频(包括非语音声音和非语言语音)在各种实际应用中至关重要。
  • 图表
  • 解决问题
    该论文旨在提出一种具有强大音频理解能力、可以快速适应未见任务的上下文学习和检索能力、以及强大的多轮对话能力的音频语言模型。
  • 关键思路
    论文提出了一系列训练技术、架构设计和数据策略,以增强模型的这些能力。
  • 其它亮点
    论文使用了多个数据集进行广泛的评估,并在各种音频理解任务上取得了新的最优结果。论文还提供了一个演示网站,并开源了代码。
  • 相关研究
    最近的相关研究包括《Learning Representations from Audios for Speech Recognition》、《AudioBERT: A Joint Model for Audio and Text Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论