机器智能前沿论坛·第6期 | 多模态表征学习

机器智能前沿论坛衍生于“智能科学创新讲堂”，由中国科学院自动化研究所主办英文学术期刊Machine Intelligence Research(MIR)发起，同时在自动化所及MIR官方B站及视频号直播，旨在聚焦机器智能领域热点，交流最新前沿成果。

机器智能前沿论坛

第 6 期

机器智能前沿论坛·第6期将聚焦"多模态表征学习"这一专题，论坛将在自动化所B站、视频号、MIR视频号、蔻享学术四大平台同步直播。2024年8月27日(周二)9:00，准时开播！

往期论坛精彩回顾：

【回放】机器智能前沿论坛·第1期 | 类脑机器学习

【回放】机器智能前沿论坛·第2期 | 伪装场景感知及多模态应用

【回放】机器智能前沿论坛·第3期 | 大规模预训练: 数据、模型和微调

【回顾-线下】机器智能前沿论坛·第4期 | 多模态数据感知与学习

【回放】机器智能前沿论坛·第5期 | AI for Art

报告主题 & 嘉宾简介

时间：2024年8月27日(周二) 9:00-12:00

主持人：范登平教授

南开大学

个人简介：

范登平，南开大学教授、博导，计算机系主任、国家级四青人才。发表论文：1篇NeurIPS workshop最佳论文、2篇CVPR最佳论文提名、5篇热点论文、10篇TPAMI，谷歌引用2.1万。任MIR编委、CVPR/NeurIPS领域主席，入选斯坦福全球前2%顶尖科学家榜单。

报告分享 (9:00-12:00)

报告一：SAM模型在不同真实场景中的应用调查

报告人：Ji Wei 博士后研究员

耶鲁大学

个人简介：

Ji Wei，耶鲁大学博士后研究员，主要研究方向为计算机视觉、场景理解、图像分割和医学图像分析。在CVPR，ICCV，NeurIPS，ICML，MICCAI上发表多篇论文，其工作曾获得CVPR最佳论文提名，MICCAI青年科学家奖提名，以及CVPR研讨会最佳论文。

报告摘要：

Meta AI研究团队最近推出了通用的提示式"segment anything"模型(SAM)，并在前所未有的大型分割数据集(SA-1B)上预训练。SAM的出现无疑为图像分割应用带来了巨大益处。本报告调查了SAM在自然图像、农业、制造业、遥感和医疗等领域的性能，分析了其优点和局限，并展望了其在分割任务中的未来发展，旨在全面了解SAM在实际应用中的效果。

报告二：分布外视角下的医学息肉分割

报告人：季葛鹏博士

澳大利亚国立大学

个人简介：

季葛鹏，澳大利亚国立大学(ANU)计算学院在读博士生，研究方向为计算机视觉、多模态内容理解和医学图像分析。

报告摘要：

本研究提出了一种简单而高效的自监督模型，从分布外的视角重新审视了结直肠中息肉分割问题。该模型仅利用健康结肠样本对掩码自编码器进行训练，并在推理时间标准化特征空间使得类别分布更为紧凑，最终通过图像重建差异来计算逐像素异常分数。实验表明，该模型展现出优秀的分割性能和跨数据集泛化能力，为息肉分割领域提供了新的思路。

报告三：计算机辅助下的肺结核诊断

报告人：刘云博士

新加坡科技研究局

个人简介：

刘云，新加坡科技研究局高级科学家。此前，他是CVL@ETH Zurich的博士后，导师是Luc Van Gool教授。他本科和博士均毕业于南开大学，导师为程明明教授。他的研究兴趣是图像、视频、点云分割。他在顶级期刊和会议上发表了30余篇论文，谷歌学术引用7100余次。

报告摘要：

结核病是全球主要的健康威胁之一，每年导致数百万人死亡。尽管早期的诊断和治疗可以极大地提高存活几率，但这对发展中国家仍然是一个重大挑战。最近，使用深度学习的计算机辅助的结核病诊断显示出了希望，但受限于有限的训练数据，该领域的进展受到了阻碍。为了解决这个问题，我们建立了一个大规模数据集，其中包含11,200张胸部X光片(Chest X-ray, CXR)图像，以及相应的对结核病区域的边界框标注。此外，我们提出了一个强大的基准模型，SymFormer，用于同时进行CXR图像分类和结核感染区域的检测。为了促进将来的研究，我们通过引入评估指标、评估现有的模型、并发起在线挑战等方式建立了一个新的基准。

报告四：基于场景分治的长时序视频显著性物体检测

报告人：李韵潇 博士

北京航空航天大学

个人简介：

李韵潇，主要从事视频显著性物体检测、图像显著性物体检测等计算机视觉方向基础任务的研究。在IEEE Transactions on Circuits and Systems for Video Technology、IEEE Transactions on Multimedia、Springer Machine Intelligence Research等计算机领域国际权威刊物上发表论文数篇。

报告摘要：

在视频多变的复杂场景下，从距离当前帧越远的时间范围获取的显著性信息和当前帧之间的相关程度往往较低，极易导致时空感知域内的信息之间存在不一致的显著性判定规则，而现有方法仍然倾向于拟合整个时空感知域内的信息，这将造成模型显著性学习歧义，从而导致对目标显著性信息的连续学习能力较弱。本方法采用分治策略来适应多变的复杂场景，缓解了模型显著性学习中的歧义，在多个主流评价指标上超过了同期前沿方法。

报告五：TextFormer: 一种使用混合监督的基于查询的端到端文本检测器

报告人：董性平教授

武汉大学

个人简介：

董性平，博士、武汉大学计算机学院教授、海外优青。在国际权威期刊与顶级会议发表论文20余篇，含4篇ESI高被引，谷歌学术引用3300余次，入选斯坦福大学全球前2％顶尖科学家，曾获得中国人工智能学会优秀博士论文奖。

报告摘要：

经典的文本识别方法严重依赖于感兴趣区域（RoI）操作来提取局部特征，并需要复杂的后处理步骤来生成最终预测。为此，我们提出了一种基于查询的端到端文本识别器，称为TextFormer。具体来说，TextFormer为每个文本实例使用查询嵌入，并基于图像编码器和文本解码器来学习多任务建模的联合语义理解。7个基准测试的实验充分表明了算法的优异性。

报告六：基于高级注意力机制的多模态视觉密集预测

报告人：孙国磊博士后研究员

苏黎世联邦理工学院

个人简介：

孙国磊博士是苏黎世联邦理工学院博士后研究员，此前在该校获得博士学位，导师为 Luc Van Gool教授。曾在Meta、Adobe等大公司研究院实习。科研成果荣获CVPR、ICCV研讨会最佳论文奖，CVPR研讨会弱监督分割挑战赛冠军。谷歌学术总引用4900余次。

报告摘要：

深度学习时代，视觉密集预测任务取得了显著的进步，在某些场景上甚至超越了人类的能力。然而，它在很多场景下仍然明显不如人类的视觉感知系统，如：小样本学习、长序视频理解、及伪装场景理解。受人类视觉系统往往使用多模态信息来感知复杂场景的启发，如何利用多模态信息来处理挑战视觉感知具有重要的理论和现实意义。在本次报告中，我将介绍我们在利用多模态信息提升显著和伪装物体分割、视频分割、及点云小样本分割方面取得的相关研究成果。

观看指南

直播通道①：中科院自动化所B站

哔哩哔哩APP搜索"中科院自动化所”或扫描下方二维码，直播当天点击头像即可进入

直播通道②：中科院自动化所视频号

微信搜索"中科院自动化所"视频号，选择"直播"，点击"预约"按钮即可预约观看当天直播

直播通道③：MIR视频号

微信搜索"机器智能研究MIR"视频号，选择"直播"，点击"预约"按钮即可预约观看当天直播

直播通道④：蔻享学术

扫描下方二维码进入MIR主题页，直播当天选择相应直播即可观看

直播服务

资讯订阅：关注"机器智能研究MIR"公众号，获取最新AI好文、资讯、讲座及论坛信息

直播群：实时更新通知 (入群请备注: 论坛6)

∨

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录，入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区，最佳排名挺进Top 4%，2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4，位列人工智能及自动化&控制系统两个领域JCR Q1区。

▼

往期目录

▼

2024年第4期 | 特约专题: 多模态表征学习

2024年第3期 | 分布式深度强化学习，知识图谱，推荐系统，3D视觉，联邦学习...

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...

2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)

2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......

2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习...

2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调