MOSS Transcribe Diarize Technical Report

2026年01月04日
  • 简介
    说话人归属且带时间戳的转录(SATS)旨在准确转录发言内容,并精确确定每位说话人的发言时间,这一技术在会议记录场景中尤为宝贵。现有的SATS系统很少采用端到端的建模方式,同时还受限于较短的上下文窗口、对长距离说话人记忆能力不足以及无法输出时间戳等问题。为解决这些局限,我们提出了MOSS Transcribe Diarize——一个统一的多模态大语言模型,能够在端到端的框架下联合完成说话人归属与时间戳标注的转录任务。该模型在大量真实场景数据上进行训练,具备长达128k的上下文窗口,可支持最长90分钟的音频输入,在扩展性和泛化能力方面表现优异。在多项公开及内部基准测试的全面评估中,其性能均超越了当前最先进的商业系统。
  • 作者讲解
  • 图表
  • 解决问题
    现有的说话人归属与时间戳转录(SATS)系统大多未采用端到端的建模范式,受限于上下文窗口短、长距离说话人记忆能力弱以及无法输出精确时间戳等问题。这些问题限制了其在会议转录等需要长时间对话理解与精准说话人定位场景中的表现。尽管SATS具有重要应用价值,但构建统一、高效、可扩展的系统仍是一个尚未充分解决的挑战。
  • 关键思路
    提出MOSS Transcribe Diarize,一个统一的多模态大语言模型,首次以端到端方式联合完成说话人归属与带时间戳的语音转录任务。该模型将音频输入直接映射为包含说话人标签和精确时间戳的文本输出,摒弃传统流水线架构,利用大模型的长上下文建模能力实现跨时段说话人一致性追踪。
  • 其它亮点
    模型具备128k上下文长度,支持长达90分钟的音频输入,显著优于现有系统;在大量真实场景数据上训练,增强了鲁棒性与泛化能力;在多个公开及内部基准测试中超越当前最先进的商业系统;虽未明确提及代码开源,但其基于大规模真实数据训练的方法为后续研究提供了方向;未来可探索更细粒度的语调识别、情绪感知转录以及低资源语言适配。
  • 相关研究
    1. Whisper: Robust Speech Recognition via Large-Scale Weak Supervision 2. Diarization is Hard: But Graph Neural Networks and Acoustic Embeddings Help 3. End-to-End Neural Speaker Diarization with Permutation-Free Objectives 4. Streaming End-to-End Speaker Attribution Using Self-Attention Networks 5. Unified Speech-Text Modeling for Improved Spoken Language Understanding
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问