清华大学智能产业研究院AIR近期亮点论文解读

智慧交通

DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative 3D Object Detection

作者：俞海宝，罗弈桢，舒茂，霍漪漪，杨泽邦，时一峰，郭正龙，李晗禹，胡星，袁基睿，聂再清

单位：AIR、百度、清华大学计算机系、中国科学院大学

会议：CVPR 2022

摘要：单车自动驾驶存在驾驶盲区、中远距离感知不稳定等问题，因而在落地时面临安全性等巨大挑战。融合路侧信息的车路协同自动驾驶将是保障自动驾驶安全运行的必由之路。然而当前车路协同领域缺少来自真实场景的公开数据，为促进学术界和产业界共同打造数据驱动的车路协同自动驾驶，团队公开车路协同自动驾驶数据集DAIR-V2X。DAIR-V2X数据集是首个采自真实场景的大规模（一共71254帧，并全部进行3D标注）、多视角（包含车端与路端及相同时空下的联合视角）、多模态（包含图像和激光点云）数据集。另外数据集还提供了车端与路端联合视角下的融合标注结果，用于更好地服务车路协同算法研究和评估。同时为方便学术界基于DAIR-V2X数据集开展学术研究，团队还从车路协同实际需求出发定义了车路协同3D检测任务-VIC3D Object Detection，即在通信带宽约束下车端融合路端信息进行3D检测。该问题有三大挑战：1）如何融合路端信息以提升3D检测精度；2）如何减少路端数据传输以减少通信带宽消耗；3）如何解决由于时延等带来的时空误差问题。同时团队还提供了完备的车路协同3D检测和单端（车端与路端）3D检测的Benchmark，以作为算法研究基准。目前DAIR-V2X数据集已经可以公开下载（下载链接：https://thudair.baai.ac.cn/index），团队也将于近期公开Benchmark所有相关实现代码。该工作得到北京市高级别自动驾驶示范区、北京车网科技发展有限公司、百度Apollo和北京智源人工智能研究院等单位的大力支持。

Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning

作者：徐浩然、詹仙园（通讯作者）、朱翔宇

单位：京东科技、AIR、西安电子科技大学

会议：AAAI 2022

摘要：离线强化学习是近年来强化学习研究的热点方向，其目标是直接从收集的大量历史数据中学习策略，而不和真实环境进行交互，这是使得强化学习能够应用于真实世界的最佳路径。然而，将离线强化学习应用在真实世界时必须要考虑到安全因素的影响，现有的工作难以在满足安全约束和最大化奖励价值中取得平衡，容易导致策略出现过保守或者欠保守的现象。

为了解决这一问题，本文提出了一种新的基于约束值惩罚的Q学习算法CPQ。首先在用数据集拟合风险Q函数时加上一个额外的损失项，该损失项会将偏离数据分布的动作的风险Q函数值升高；然后在更新价值Q函数的目标值时，在原来的贝尔曼方程上乘上一个是否满足约束条件的指示函数，通过该指示函数，隐式地将数据分布外和不满足安全约束的动作的价值Q函数变小；最后在学习策略时，和常见的Actor-critic算法一样，让策略朝着能使得价值Q函数值最大的方向更新。

文章中从理论上证明了所提方法的收敛性以及与最优安全策略价值差的上界，并在不同种类的离线数据集上验证了CPQ的有效性。实验证明团队的方法在奖励最大化和训练稳定性上均优于其他基准算法，并且对于安全约束限制值的改变表现出鲁棒性。

Cerberus Transformer: Joint Semantic, Affordance and Attribute Parsing

作者：陈小雪，刘天瑜，赵昊，周谷越，张亚勤

单位：AIR，香港科技大学，北京大学，英特尔研究院

会议：CVPR 2022

摘要：多任务室内场景理解是计算机视觉的一个重要研究方向，与单任务模型相比，利用不同任务间的相关性可能会提高各个任务的性能。在本文中，团队提出并解决了语义、可供性和属性联合解析的新问题。成功地解决这个问题需要一个模型来捕捉长程依赖，从弱对齐的数据中学习，并在训练期间适当地平衡子任务。为此，团队提出了一个名为 Cerberus 的基于注意力的架构和其适配的训练框架。团队的方法有效地解决了上述挑战，并在所有三个任务上取得了最先进的性能。此外，深入分析显示团队的模型体现了与符合人类认知的子任务相关性，这激发了团队探索弱监督学习的可能性。令人惊讶的是，Cerberus 仅使用 0.1%-1%的标注就获得了较强的结果，可视化进一步证实，这种成功归功于跨任务的共同注意力机制。代码和模型见：https://github.com/OPEN-AIR-SUN/Cerberus。

PQ-Transformer: Jointly Parsing 3D Objects and Layouts from Point Clouds

作者：陈小雪，赵昊，周谷越，张亚勤

单位：AIR，北京大学，英特尔研究院

会议：RA-L+ICRA 2022

摘要：基于点云的三维场景理解对于各种机器人应用起着至关重要的作用。不幸的是，当前最先进的方法通常使用单独的神经网络来完成不同的任务，例如三维目标检测或房间布局估计。这样的方案有两个限制：1）对于一般机器人平台来说，为不同的任务存储和运行多个网络是昂贵的。2) 单任务网络输出的结果可能忽视了不同任务间的内在联系和约束。为此，团队提出了第一个使用点云输入同时预测 3D 目标和布局的Transformer网络。与现有的布局估计方法不同，团队直接将房间布局参数化为一组四边形。因此，所提出的架构被称为 P(oint)Q(uad)-Transformer。除四边形表示之外，团队还提出了一种适配的物理约束损失函数，可以阻止对象与布局出现相交的现象。在ScanNet数据集上的定量和定性结果表明，PQ-Transformer可以成功地联合解析物体和布局。而且，新的物理约束损失可以提高准确率，房间布局的 F1-score 从 37.9%显著提升到 57.9%。代码和模型见：https://github.com/OPEN-AIR-SUN/PQ-Transformer。

智慧医疗

Deep Learning Guided Optimization of Human Antibody Against SARS-CoV-2 Variants with Broad Neutralization

作者：单思思，罗世通，杨子卿，洪俊贤，苏雨峰，丁凡，傅莉莉，李晨雨，陈鹏，马剑竹，史宣玲，张绮，Bonnie Berger，张林琦，彭健

单位：清华大学医学院，华深智药生物科技(北京)有限公司，伊利诺伊大学厄巴纳-香槟分校，麻省理工学院，AIR

期刊：PNAS

摘要：通过突变，病毒可以逃逸人体免疫系统的攻击，而开发用于疫苗和治疗的广谱中和抗体仍是很大的技术挑战。面对新冠病毒变种，包括已被批准紧急使用（EUA）的许多中和抗体，都减弱甚至失去了中和能力。在此，团队引入了一种能有效增强抗体对病毒的亲和力的几何深度学习算法，以提高抗体对病毒变种的广谱中和能力。通过优化人源抗体P36-5D2，一种能中和新冠病毒阿尔法，贝塔，伽马变种但无法中和德尔塔变种的抗体，团队展示了方法的有效性。

团队的几何深度神经网络改造优化了该抗体互补决定区域（CDR）的序列，有效提高了其对多个新冠病毒变种的亲和力。经过多轮优化与实验测量，团队能扩展该抗体的中和谱，并以10到600倍增强了其对包括德尔塔变种在内多个新冠病毒变种的亲和力。新冠奥密克戎变种在抗原表位上有两个突变位点逃逸抗体的结合，而团队也进一步阐述了我们的方法能有效侦测抗体互补决定区的改变，以减弱病毒突变对抗体结合的影响。这些结果突出展示了团队的深度学习算法在抗体优化上的强大能力，并有极大潜力被应用在其他蛋白质优化改造工程中。经过优化的抗体也将有极高潜力被用于作为针对当前各类新冠病毒变种的抗体药。

Contribution-Aware Federated Learning for Smart Healthcare
作者：Zelei Liu, Yuanyuan Chen, Yansong Zhao, Han Yu, 刘洋，包仁义，蒋锦鹏，聂再清，徐倩，杨强

单位：新加坡南洋理工大学，AIR，医渡云，微众银行

会议：AAAI-IAAI 2022

奖项：AAAI-IAAI 2022人工智能创新应用奖

摘要：在文章中，研究团队联合提出了一个贡献感知联邦学习框架，并在医渡云的真实业务场景中得到了验证。框架在不暴露私人数据的情况下，提供了一种有效和准确的方法来公平地评估联邦学习参与者对模型性能的贡献，并改进了联邦学习模型训练协议，允许将表现最好的中间模型分配给联邦学习训练的参与者。研究发现，模型对联邦学习贡献度的分析评估为原有方法提速2.84倍。同时，模型更是将准确度提升了2.62%，为智慧医疗健康的产业应用带来显著提升。

Equivariant Graph Mechanics Networks with Constraints

作者：黄文炳，韩家琦，荣钰，徐挺洋，孙富春，黄俊洲

单位：AIR，清华大学计算机系，腾讯AI Lab，德克萨斯大学阿灵顿分校

会议：ICLR 2022

摘要：多体交互及其动力学建模广泛存在于物理、化学等科学领域的诸多问题中，从分子动力学模拟到机器人动力学控制等。近年来，越来越多的研究人员考虑利用图神经网络对多体交互进行表示与推理。然而，与普通图谱数据不同，多体交互所形成的几何图谱（Geometric Graphs）具有内在物理对称性，并常常需要满足某种几何约束。为了更好处理这些数据，本报告将介绍作者最近提出的一种全新的图神经网络——图力学网络GMN。首先，GMN是等变的，即无论对输入做任何的平移、旋转、翻转等变换，输出都相应地改变。其次，GMN是满足刚体约束的，输出不会改变输入的几何属性（如棍子的长度、铰链的连接等）。最后，理论上，GMN具有良好的模型表达能力。为了更好地验证GMN的能力，我们构造了一个由一定数量的球、棍子和铰链组成的虚拟物理系统，GMN能比其他方法更准确地预测这些系统演变，并满足上述所说的性质。此外，在真实的应用场景包括分子动力学模拟和人体骨架轨迹预测等，验证了GMN的有效性。

Uncertainty Calibration for Ensemble-Based Debiasing Methods

作者：熊睿彬，陈奕梦，庞亮，程学旗，马志明，兰艳艳

单位：中科院计算技术研究所，百度，中科院数学与系统科学研究院，AIR

会议：NeurIPS 2021

摘要：机器学习模型对数据集偏差（dataset bias）的依赖会损害其在分布外数据集上的泛化能力。基于集成的去偏方法（EBD）能够有效减轻分类器对数据集偏差的依赖。它们通过利用偏差模型（bias-only model）的输出来调整分类器的学习目标。在此项工作中，团队关注偏差模型，它在EBD方法中发挥重要的作用，但没有得到足够的关注。实验上，本文发现现有的偏差模型产生的不确定性估计存在一定误差，理论上，本文证明了偏差模型不准确的不确定性估计（uncertainty estimates）会极大的损害去偏性能。基于这些发现，本文提出对偏差模型进行校准，从而实现一个基于集成的三阶段去偏框架 MoCaD。在自然语言推理和事实验证任务上的大量实验表明，MoCaD在已知和未知数据集偏差方面优于相应的EBD方法。此外，团队通过详细的实证分析验证了文章中证明的理论结论。

更多未尽内容详见原贴：

https://mp.weixin.qq.com/s/hqLKptoPNHte_6YgHyku-g

内容中包含的图片若涉及版权问题，请及时与我们联系删除

清华大学智能产业研究院AIR近期亮点论文解读

评论