MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

2026年01月04日
  • 简介
    说话人标注且带时间戳的转录(SATS)旨在准确转写对话内容,并精确确定每位说话人的发言时间,这一技术在会议记录场景中尤为重要。现有的SATS系统很少采用端到端的建模方式,且普遍受限于较短的上下文窗口、对长距离说话人记忆能力不足,以及无法输出时间戳等问题。为解决这些局限,我们提出了MOSS Transcribe Diarize——一种统一的多模态大语言模型,能够在端到端的框架下联合完成说话人标注和时间戳转录任务。该模型在大量真实场景数据上进行训练,具备长达128k的上下文窗口,可支持最长90分钟的音频输入,在扩展性和泛化能力方面表现优异。在多项公开及内部基准测试的全面评估中,MOSS Transcribe Diarize均超越了当前最先进的商业系统。
  • 作者讲解
  • 图表
  • 解决问题
    现有的说话人归属与时间戳转录(SATS)系统大多未采用端到端的建模范式,受限于上下文窗口短、长距离说话人记忆能力弱以及无法输出精确时间戳等问题。这限制了其在会议转录等需要长时间上下文和精准说话人定位场景中的表现。尽管SATS具有重要应用价值,但构建统一、高效、可扩展的系统仍是一个尚未充分解决的问题。
  • 关键思路
    提出MOSS Transcribe Diarize,一个统一的多模态大语言模型,首次以端到端方式联合完成说话人归属与时间戳转录任务。该模型将音频输入直接映射为带说话人标签和精确时间戳的文本输出,摒弃传统多阶段流水线架构。其关键创新在于融合大语言模型的强大上下文建模能力与多模态处理机制,并支持长达128k token的上下文窗口(约90分钟音频),实现对长期说话人模式的记忆与推理。
  • 其它亮点
    模型在大量真实场景数据上训练,展现出强鲁棒性与泛化能力;在多个公开及内部基准测试中超越当前最先进的商业系统;支持超长上下文输入(达90分钟),显著优于现有方法的时间处理限制;具备精确时间戳输出能力,满足实际应用需求。实验设计覆盖多样化的会议与对话场景,验证了其在复杂环境下的有效性。目前未提及代码是否开源,未来可探索其架构迁移至其他语音理解任务,如情感识别或意图检测。
  • 相关研究
    1. Whisper: Towards Robust Speech Recognition via Large-Scale Weakly Supervised Learning 2. Voicebox: End-to-End Neural Speaker Diarization 3. Unified Speech-Text Modeling with Discrete Tokens 4. Streaming Speaker-Aware Speech Recognition for Meeting Transcription 5. Diarization is Hard: A Transfer Learning + Clustering Approach
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问