HF Papers 直播 AI Insight Talk｜ Omni全模态专场

由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等联合发起的【AI Insight Talk】系列直播活动第五场 - Omni全模态大模型专场就在明天！

随着 AI 模型从多模态向全模态体系演进，一个能够同时理解文字、图像、音频、视频、3D 等多种信息模态的新时代正在加速到来。相比主要围绕“图 + 文”的传统多模态模型，全模态模型采用相对更统一的建模架构，通过共享或对齐的语义表征来整合多种信息模态，并能够执行跨模态的组合推理与生成任务。

本次我们邀请到了多位全模态模型背后的核心研发者，带来一场系统化的技术分享，深入解析模型设计思路与实践经验；同时还将举办圆桌对谈，汇聚多位顶尖开发者同台交流，碰撞思想火花！

📅 直播时间：2025 年 11 月 18 日（周二）10:00 - 12:00（北京时间）

分享嘉宾及主题介绍

美团LongCat-Flash-Omni 技术负责人刘颂湘

LongCat-Flash-Omni 是美团全新开源的全模态大模型，在全模态基准测试中达到开源 SOTA 水平，同时在文本、图像、视频理解及语音理解与生成等关键单模态任务中，均展现出极强的竞争力，真正实现了“全模态不降智“。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量音视频实时交互” 于一体的开源大语言模型，首次在开源范畴内实现了全模态能力对闭源模型的对标，并凭借创新的架构设计与工程优化，让大参数模型在多模态任务中也能实现毫秒级响应，解决了行业内推理延迟的痛点。本次分享，将介绍 LongCat-Flash-Omni 的模型架构设计、训练策略以及性能表现。

Paper: https://huggingface.co/papers/2511.00279

Model:

https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

英伟达研究科学家叶汉荣

OmniVinci 是英伟达研究院最新推出的一项关于 9B 参数视音频全模态大模型的系统性研究。在论文中，研究团队系统探索了全模态大模型的架构设计与数据生成方法，研究了视觉与音频模态间的相互促进机制，以及全模态强化学习策略。针对不同模态的融合，研究团队提出了多项新颖且高效的设计。自开源以来 OmniVinci 已吸引超过一万次下载。

Paper: https://huggingface.co/papers/2510.15870

Model:

https://huggingface.co/nvidia/omnivinci

蚂蚁集团资深算法专家陈景东

Ming-flash-omni-Preview 是蚂蚁集团发布的首个参数规模达到千亿的开源全模态大模型，各模态总体效果达到开源全模态模型的领先水平, 尤其在可控图像生成、流式视频理解、以及语音识别等领域性能表现尤为突出。本次分享将聚焦百灵多模态的实践经验，主要内容包括 Ming-Omni 系列的发展路径：从模态融合的统一，到理解与生成任务的统一，以及在模型部署中对 SDK 的优化实践。同时，将总结开源社区的反馈，介绍 Ming 系列针对性改进的思路。分享中还将回顾百灵多模态研发过程中遇到的问题与解决方案，以及一些有趣的开放性问题。

Paper: https://huggingface.co/papers/2510.24821

Model：https://huggingface.co/inclusionAI/Ming-flash-omni-Preview

参与直播

参与讨论

欢迎加入交流群，与本期作者及社区小伙伴一起交流。

11月18日上午10点，AI Insight Talk 不见不散！

内容中包含的图片若涉及版权问题，请及时与我们联系删除

HF Papers 直播 AI Insight Talk｜ Omni全模态专场

分享嘉宾及主题介绍

评论列表

评论

HF Papers 直播 AI Insight Talk｜ Omni全模态专场

分享嘉宾及主题介绍

LongCat-Flash-Omni：美团全模态大模型探索

OmniVinci：全模态大模型的架构和数据探索

Ming-Omni：百灵多模态的实践与探索

评论列表

评论