直播预告 | 基于文本提示与可控扩散模型引导的真实伪装图像生成

NLP

DDPM

Gen AI

机器智能研究MIR 2026-04-14 20:20 分享

以下文章来源于mp.weixin.qq.com

智能科学创新讲堂·AI新锐系列由国际人工智能期刊Machine Intelligence Research (MIR)主办，分若干专题，聚焦机器智能领域的最新进展与前沿探索，面向全球青年学者，定期邀请他们分享在人工智能顶级会议或权威期刊上发表的代表性成果。讲堂旨在搭建一个展示青年科研力量、促进跨机构与跨学科交流的平台，激发智能科学领域的创新思维与学术合作，推动青年人才成长与前沿研究传播。

智能科学创新讲堂·总第二十四讲

“隐性视觉感知”专题

智能科学创新讲堂本期聚焦"隐性视觉感知"专题。"隐性视觉感知"专题专注于伪装目标检测、透明物体分割、阴影检测等隐性视觉感知前沿研究，并积极探索其在医疗影像(如息肉检测)等领域的应用拓展。旨在让这个重要而富有挑战性的研究主题更加活跃，通过开放的学术交流不断迸发新的思想火花，推动学术社区繁荣和领域持续进步，促进计算机视觉与医疗影像等交叉领域的深入交流与合作，逐步打通不同应用场景的技术壁垒。

南京航空航天大学李文通副教授将开启本专题本年度第一场分享会，牛津大学田昕博士担纲主持。2026年4月16日(周四) 15:00，四大平台同步直播，诚邀您预约收看！

往期分享回放：

https://space.bilibili.com/583634554/lists/697159?type=series

主持人简介

田昕博士

牛津大学博士后研究员，专注于多模态医学影像融合、跨模态转换及结构化建模研究，成果发表于MICCAI、ISBI等顶会。现任牛津团队AI4Healthcare负责人，联合临床与工业界开展疾病亚型识别、生物标志物挖掘及精准医学应用。

分享主题 & 分享嘉宾简介

分享主题：

复杂感知挑战: 多模态基础模型驱动的感知新范式

分享人：

李文通副教授

李文通，南京航空航天大学副教授。研究方向为计算机视觉、具身智能，在CCF-A类期刊/会议发表论文26篇，谷歌学术引用 1900 余次。主持国家自然科学基金青年项目、参与新一代人工智能国家科技重大专项课题。获浙江省优秀博士学位论文，担任ICLR/NeurIPS领域主席。

报告摘要

本报告分享一种名为CT-CIG 的文本引导可控扩散生成方法，来解决现有伪装图像生成方法中存在的忽视伪装物体与背景环境逻辑关系、导致生成结果缺乏自然真实感的问题。方法通过视觉语言模型构建高质量图文数据，设计“伪装揭示对话机制”生成文本提示，并结合二值掩码实现准确几何控制。同时引入频率交互细化模块增强纹理细节、减少伪影。实验在LAKE-RED 和 COD10K 上表明，该方法在 FID、KID 和 CLIP Score 等指标上优于多种先进方法。

观看渠道

直播通道①：

哔哩哔哩APP搜索"中科院自动化所”或扫描下方二维码，直播当天点击头像即可进入

直播通道②：中国科学院自动化研究所视频号

点击下方红色"预约"按钮即可预约观看当天直播

直播通道③：机器智能研究MIR 视频号

点击下方红色"预约"按钮即可预约观看当天直播

直播通道④：蔻享学术

点击下方链接进入"智能科学创新讲堂"主题页，直播当天选择相应直播即可观看

https://www.koushare.com/homepage/332528

直播服务

微信微信公众号"机器智能研究MIR”(发布最新讲座资料)

直播群：实时更新通知 (请备注: 研究方向+姓名)

小助手-微信二维码.jpg

END

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://lcn76mgd97vz.feishu.cn/share/base/form/shrcnsQ6cmRjqoxPF5WDowSBFVr

▼

往期目录

▼

2026年第1期 | 自我中心视觉、基于图的推荐系统、智能结肠镜检查、多模态大语言模型......

2025年第6期 | 大语言模型、自动驾驶、医学图像分割……

2025年第5期 | 生成式模型、疾病诊断、步态识别、行人再识别......

2025年第4期 | 特约专题: 具身智能

2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......

2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...

2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...

2024年第6期 | 图神经网络，卷积神经网络，生物识别技术...

2024年第5期 | 大语言模型，无人系统，统一分类与拒识...

2024年第4期 | 特约专题: 多模态表征学习

2024年第3期 | 分布式深度强化学习，知识图谱，推荐系统，3D视觉，联邦学习...

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

▼

好文推荐

▼

电子科大李宏亮团队 | 第一视角视觉：挑战与发展趋势综述

南开大学范登平团队 | 智驱结肠镜：技术变革与前沿洞察

上海交通大学夏泽洋教授团队 | 基于半监督学习的心脏磁共振影像动态特征分类

精选好文 | 基于多模态学习的非酒精性脂肪肝病预测

南京大学Kai Ming Ting团队 | 综述：基于孤立机制的异常检测研究

南洋理工大学肖佳平等 | 基于深度强化学习的异构机器人系统目标搜索与导航

南开大学程明明团队 | MCANet：基于多尺度交叉轴注意力的医学图像分割

自动化所吴书等 | GraphFM: 用于特征交互建模的图因子分解机

香港理工大学周立培团队等 | 综述: 面向以物体为中心的机器人操作的具身学习

清华大学朱军团队 | DPM-Solver++：用于扩散概率模型引导采样的快速求解器

南航张道强团队 | 综述：基于脑电信号与机器学习的注意力检测研究

可信图神经网络的全面综述：隐私性、鲁棒性、公平性和可解释性

哈工大江俊君团队 | SCNet：利用全1X1卷积实现轻量图像超分辨率

自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架

上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究

专题好文 | 再思考人群计数中的全局上下文

专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer

浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI

澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开

前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查

精选好文 | 推荐系统的波纹知识图谱卷积网络

复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型

自动化所黄凯奇团队 | 分布式深度强化学习：综述与多玩家多智能体学习工具箱

约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法

专题综述 | 大语言模型中的知识生命周期

精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战

欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用

金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测

专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑

▼

MIR资讯

▼

对话优博 · 第2期 | 读博那些事儿

对话优博·第1期 | 如何从保研小白成长为CCF优博？

MIR高下载Top文章集锦（2024-2025年）

MIR高被引Top10文章集锦 (2024-2025年)

2026年 AI 领域国际学术会议参考列表 (含8大方向，附PDF)

合作办会@CVPR｜第2届 Subtle Visual Computing（SVC）国际研讨会与挑战赛正式启动！

合作办会@CVPR | Call for Participation / Papers: AIMS 2026

合作办会@ICME | Call for Papers: AIART 2026

专题征稿 | Theory and Applications of Datatic Learning

MIR优秀编委 & 优秀审稿人 (2025年度)

MIR致谢审稿人 (2025年度)

进阶前5%！MIR登榜”中国最具国际影响力学术期刊”

影响因子全球第6名！MIR稳步进军世界一流期刊行列

喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区

喜报！MIR入选中国科技期刊卓越行动计划二期项目

特别提醒！请认准MIR官方渠道，谨防受骗

前进20名！MIR再度跻身国际影响力TOP期刊榜单

喜报 | MIR入选图像图形领域 T2级 “知名期刊”！

喜报 | MIR被 ESCI 收录！

喜报 | MIR 被 EI 与 Scopus 数据库收录

点击“阅读原文”观看往期回放

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

评论列表

沙发等你来抢

去评论