近日,AI顶级学术会议IJCAI 2022(国际人工智能联合会议,International Joint Conference on Artificial Intelligence)发布了论文录用结果。网易伏羲共有4篇论文入选,内容覆盖推荐系统、人体重建、情感计算、机器人路径规划等重点领域。这是继今年接连入选ACL、NAACL等顶级会议后,网易伏羲在人工智能领域斩获的最新成果。

作为人工智能领域影响最大的综合性顶级学术盛会之一,IJCAI是中国计算机学会推荐的A类顶级会议,谷歌学术H5指数高达105,在学术界和产业界极负盛名。本届IJCAI吸引到来自全世界高校和相关AI研究人员的4535篇论文投稿,竞争激烈。经过两轮严格评审,最终仅有15%左右的高水平论文被评审接收。
值得一提的是,网易伏羲的《一种基于多层感知机的序列推荐框架》入选长时段口头报告(Long Oral)。据悉,本届IJCAI中仅有25%的论文被接收为长时段口头报告,综合录取率低至4%。
以下是网易伏羲本次入选的论文介绍:
1. 《一种基于多层感知机的序列推荐框架》
《An MLP Architecture for Sequential Recommendations》,该论文由网易伏羲与香港城市大学赵翔宇老师、郭若城老师联合完成。
关键词:多层感知机、序列推荐
近年来,自注意力机制在序列推荐场景中展现出了极大的优势,在许多任务中取得了当前最优的表现。然而,自注意力机制的两个重要问题限制了其在此场景中的大规模应用和进一步发展,这两个问题分别是:
  1. 自注意力的时间复杂度是其输出序列长度的平方,使其在面对长交互序列时变得并不高效;
  2. 自注意力依赖于位置编码(positional embedding)来学习序列信息,而在将自注意力应用的序列推荐的开山之作-SASRec中,作者就指出位置编码的效果有时并不明显,甚至还会起到反作用。

最近,多层感知机(MLP)结构的一系列进步显示,在不使用自注意力机制的情况下,仅仅使用多层感知机也能够达到极具竞争力的表现。基于此,我们提出MLP4Rec,一种利用三向信息融合,能够一致结合序列信息、嵌入向量语义、商品特征信息的模型结构。 MLP4Rec吸取了近期新型多层感知机结构的优势,并进一步将双向信息融合改进为三向信息融合,提升了模型捕捉特征层面序列信息和全局表征的能力,在多个常用的推荐基线数据集中展现了极具竞争力,甚至达到了当前最优的表现。更重要的是,MLP4Rec的理论时间复杂度和空间复杂度均为线性增长,并且得益于多层感知机的特质,MLP4Rec本身就对序列信息有敏感性,使其相较于自注意力机制,有着更大的发展潜力和探索价值。

该研究工作属于序列推荐的基础性研究,能有效解决当前自注意力机制的效率瓶颈,有望在电商、信息流、视频流、游戏首页、游戏商城等序列推荐场景落地应用。

2. 《基于双重扩散神经辐射场的三维人体隐式表示》

《Learning Implicit Body Representations from Double Diffusion Based Neural Radiance Fields》
关键词:三维人体表示、双重扩散、神经辐射场
本文提出了一个基于双重扩散机制的神经隐式场DD-NeRF,可以实现精确的三维人体重建,并渲染到其他新视角。通过在粗糙和精细两个层面整合人体形状先验和图像外观细节信息,本文提出的双重扩散机制能够实现输入图像的精确特征表示。
具体来说,在粗糙层面,先用3D可变形顶点模型做监督,估计粗糙的人体姿态和形状;在精细层面,用多视角采样网络捕捉衣服、头发等精细的几何变形和图像外观细节。由于两个层面的特征都是稀疏特征,随后将特征扩散到标准空间的特征立方体中,作为神经隐式场的信息。最后,通过一个有符号距离函数回归网络,将扩散之后的特征重建成三维人体表面。在这个双重扩散机制的架构下,本方法可以泛化到训练集外没见过的人物。本方法在多个数据集上的结果超过了前沿算法,达到了更高的三维人体重建和新视角合成精度。
该研究工作能够重建出高精度的三维人体模型,包括头发和衣服细节。可以应用于元宇宙、虚拟人相关的应用场景中,在虚拟世界中生成指定人物的数字孪生替身。

3.《基于多路多模态Transformer的多模态学习》

《MMT: Multi-way Multi-modal Transformer for Multimodal Learning》,该论文由杭州电子科技大学孔万增教授团队、网易伏羲以及日本理研先进智能研究中心赵启斌教授团队联合完成。
关键词:多模态、Transformer、情感计算
多模态情感计算的目标是判别说话人脸视频的情绪类别,其本质问题就是探究文本、语音、视觉三个模态信息的融合交互方式。其中,注意力机制是一种常见的多模态信息融合方法,比如,广泛使用的Transformer,但是,现有的跨模态注意力机制多为二路跨模态单向注意力,仅限于学习单个源模态到单个目标模态的单向跨模态交互信息,无法充分学习多个模态之间的复杂交互信息。
针对模态个数和模态交互受限问题,我们提出了多路多模态注意力网络。它可以学习任意多个模态的任意交互方向的情感交互信息。值得注意的是,常见的二路跨模态单向注意力网络需要堆叠多个复杂跨模态交互模块才能完成多模态情感分析任务,而基于我们的多路多模态注意力网络,只需简单重复该注意力层,就可以得到高层次的复杂多模态情感交互信息。
基于多个公开情感数据集测试,实验结果表明所提出的多路多模态注意力网络在情感信息融合方面具有优越性和有效性。
该工作可以丰富人机交互的渠道,使得人机交互方式不再受限于鼠键输入,赋予虚拟人具有感知用户情感的能力。更为重要的是,本篇论文中提出的多路多模态交互方式具有可迁移性和通用性,可广泛用于其他跨模态计算问题。本论文提出的方法是跨模态计算方向的一次里程碑。

4.《一种仿人导航的闭环感知、决策和推理机制》

《A Closed-Loop Perception, Decision-Making and Reasoning Mechanism for Human-Like Navigation》,该论文由伏羲机器人与浙大鲁伟明教授团队、中科院软件所李鹏研究员团队联合完成。
关键词:机器人导航,移动与路径规划,深度强化学习
可靠的导航系统在机器人技术和自动驾驶方面有着广泛的应用。就决策层面而言,目前的方法大多直接将传感器输入的感知转换为导航动作。然而,由于其泛化能力差,这些开环方案在处理复杂且动态的现实场景时具有挑战性。
受人类导航过程中分析决策思路的启发,我们添加了一个推理过程,将动作转换回内部潜在状态,形成感知、决策和推理的两阶段闭环。首先,使用变分自编码器增强的演示学习过程,使决策模型理解并掌握基本的导航规则。然后,通过强化学习增强的交互学习过程中的两个对偶过程相互产生奖励反馈,协同提高并进一步增强了避障能力。
该推理模型可以极大地提高泛化和鲁棒性,并有助于将该算法部署到真实世界的机器人上,而无需进行复杂的转换迁移。实验表明,与最先进的方法相比,我们的方法更适合新的场景。

该研究工作可以使机器人在未知、动态、复杂的环境中进行探索与导航。本篇论文中所提出的学习理念与推理机制,对人工智能算法在决策任务层面的自我理解,以及对算法的泛化性与可迁移性的提升,具有重要意义。

内容中包含的图片若涉及版权问题,请及时与我们联系删除