AI热门论文

Optimal camera-robot pose estimation in linear time from points and lines

Guangyang Zeng ,

Qingcheng Zeng ,

2024年07月23日

相机位姿估计是机器人领域中的一个基本问题。本文关注两个问题：首先，点和线特征具有互补优势，因此设计一个可以有效融合它们的统一算法非常有价值；其次，随着现代前端技术的发展，单张图像中可能存在大量特征点和特征线，这为高精度的机器人位姿估计提供了潜力。基于这些观察，我们提出了一种名为AOPnP(L)的算法，它是一种从点和线估计相机-机器人位姿的最优线性时间算法。具体来说，我们用线上的两个不同点表示一条直线，并统一了点和线测量的噪声模型，其中噪声被添加到图像中的2D点。通过利用Plucker坐标对线进行参数化，我们为组合点和线测量制定了最大似然（ML）问题。为了最优地解决ML问题，AOPnP(L)采用了两步估计方案。在第一步中，通过消除偏差，设计出一个可以收敛到真实位姿的一致估计。在第二步中，执行单个高斯-牛顿迭代来优化初始估计。AOPnP(L)具有理论上的最优性，其均方误差收敛于Cramer-Rao下界。此外，它具有线性时间复杂度。这些特性使它非常适合于对精度有要求且需要实时机器人位姿估计的应用。我们进行了大量实验证明了我们的理论成果，并展示了AOPnP(L)在静态定位和动态里程计系统中的优越性。

Rob

PDF

解读

Adaptive Robotic Tool-Tip Control Learning Considering Online Changes in Grasping State

Kento Kawaharazuka ,

2024年07月10日

迄今为止，已经开发了各种各样的机器人工具操作方法。然而，据我们所知，它们中没有一种考虑到抓取状态（例如抓取位置和工具角度）在工具操作过程中随时可能发生变化的事实。此外，几乎没有研究能够处理可变形的工具。在本研究中，我们开发了一种方法，利用包括参数偏差在内的神经网络来估计工具尖端的位置、控制工具尖端，并处理身体和工具之间关系的在线适应性变化。我们使用两种不同类型的机器人（轴驱动机器人PR2和腱驱动机器人MusashiLarm）进行实验，证明了我们的方法在抓取状态的在线变化和可变形工具方面的有效性。

Rob

PDF

解读

Learning a Formally Verified Control Barrier Function in Stochastic Environment

Hongchao Zhang ,

Pushpak Jagtap ,

2024年03月28日

本文介绍了控制系统安全的基本要求，即控制屏障函数（CBFs）通过构建安全过滤器或合成控制输入来确保控制系统的安全性。然而，安全控制器的安全保证和性能取决于有效CBFs的构建。受到通用逼近性的启发，CBFs由神经网络表示，称为神经CBFs（NCBFs）。本文提出了一种算法，用于在随机环境中一步合成经过正式验证的连续时间神经控制屏障函数。所提出的训练过程通过构建基于样本的学习框架来确保整个状态空间的有效性，只需有限数量的数据点即可实现。我们的方法通过对神经网络及其雅可比矩阵和海森矩阵项强制利普希茨边界来消除事后验证的需要。我们通过倒立摆系统和自动驾驶中的避障案例研究展示了我们方法的有效性，相比基线方法展示了更大的安全区域。

Rob

PDF

解读

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

Zhecheng Yuan ,

2024年07月22日

我们能否使视觉动作机器人具备在各种开放世界场景下的泛化能力？在本文中，我们提出了“Maniwhere”——一个专为视觉强化学习量身定制的泛化框架，使训练过的机器人策略能够在多种视觉干扰类型的组合中进行泛化。具体而言，我们引入了一种多视角表示学习方法，融合了空间变换网络（STN）模块，以捕捉不同视角之间的共享语义信息和对应关系。此外，我们采用一种基于课程的随机化和增强方法来稳定强化学习训练过程，并增强视觉泛化能力。为了展示Maniwhere的有效性，我们精心设计了8个任务，涵盖了关节对象、双手和灵巧手操作任务，展示了Maniwhere在3个硬件平台上的强大视觉泛化和从仿真到实际场景的转移能力。我们的实验表明，Maniwhere明显优于现有的最先进方法。视频可在https://gemcollector.github.io/maniwhere/上查看。

Rob

AI

CV

PDF

解读

R+X: Retrieval and Execution from Everyday Human Videos

Georgios Papagiannis ,

Norman Di Palo ,

Pietro Vitiello ,

2024年07月17日

我们提出了R+X框架，它使得机器人可以从未经标注的第一人称视频中学习人类执行日常任务的技能。当人类下达语言指令时，R+X首先检索包含相关行为的短视频片段，然后通过在上下文中的模仿学习方法来执行该技能。通过利用视觉语言模型（VLM）进行检索，R+X不需要对视频进行任何手动注释，并且通过利用上下文学习进行执行，机器人可以立即执行指令的技能，而无需在检索到的视频上进行训练。对一系列日常家务任务的实验表明，R+X成功地将未标记的人类视频转化为强大的机器人技能，并且R+X优于几种最近的替代方法。视频可在https://www.robot-learning.uk/r-plus-x上获得。

Rob

ML

PDF

解读

Differentiable Collision-Free Parametric Corridors

Jon Arrizabalaga ,

Zachary Manchester ,

2024年07月17日

本文介绍了一种计算可微碰撞自由参数走廊的方法。与将无障碍空间分解为多个凸集的现有解决方案不同，我们方法计算的连续走廊是平滑且可微分的，使其与现有的学习和优化数值技术兼容。为了实现这一点，我们将无碰撞走廊表示为具有多项式基础的路径参数离心椭圆。我们证明了最大化这种走廊体积的问题是凸的，并且可以有效地解决。为了评估所提出方法的有效性，我们检查其在合成案例研究中的表现，并随后评估其在来自KITTI数据集的真实世界场景中的适用性。

Rob

PDF

解读

Long-Horizon Planning for Multi-Agent Robots in Partially Observable Environments

Siddharth Nayak ,

Adelmo Morrison Orozco ,

Marina Ten Have ,

2024年07月14日

语言模型（LMs）理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖特定领域知识和手工规则的传统规划方法不同，LMs从多样化的数据中进行泛化，并通过最小调整适应各种任务，充当压缩的知识库。然而，标准形式的LMs在长期任务中面临挑战，特别是在部分可观察的多智能体环境中。我们提出了一种基于LM的多智能体机器人长期规划器（LLaMAR）的认知架构，它在部分可观察环境中实现了长期任务的最新成果。LLaMAR采用计划-执行-纠正-验证框架，允许根据行动执行反馈进行自我纠正，而不依赖于神谕或模拟器。此外，我们提出了MAP-THOR，一个包含各种复杂度家庭任务的全面测试套件，位于AI2-THOR环境中。实验表明，LLaMAR相比其他最先进的基于LM的多智能体规划器，成功率提高了30%。

Rob

MultiAgent

PDF

解读

Characterizing the Complexity of Social Robot Navigation Scenarios

Andrew Stratton ,

Christoforos Mavrogiannis

2024年05月18日

社交机器人导航算法通常在过于简化的情况下展示，这样就无法从中提取有关其与现实世界领域相关性的实用见解。我们的关键洞察是，了解社交机器人导航场景的内在复杂性可以帮助表征现有导航算法的局限性，并提供可操作的改进方向。通过对最近的文献进行探索，我们确定了一系列因素，这些因素有助于解释场景的复杂性，区分上下文和机器人相关因素。然后，我们进行了一项模拟研究，探究上下文因素的操纵如何影响各种导航算法的性能。我们发现，密集和狭窄的环境与性能下降最强烈相关，而代理策略的异质性和交互方向的影响则不太明显。这促使我们转向在更高复杂性的设置下开发和测试算法。

Rob

PDF

解读

Reconciling Reality through Simulation: A Real-to-Sim-to-Real Approach for Robust Manipulation

Anthony Simeonov ,

2024年03月06日

模仿学习方法需要大量的人类监督才能学习到对物体姿态、物理干扰和视觉干扰变化具有鲁棒性的策略。相反，强化学习可以自主地探索环境以学习具有鲁棒性的行为，但可能需要大量不安全的真实世界数据收集，这是不切实际的。为了在不需要大量不安全的真实世界数据收集或广泛的人类监督的情况下学习性能良好、具有鲁棒性的策略，我们提出了RialTo。RialTo是一个系统，通过在“数字孪生”模拟环境中进行强化学习来增强现实世界中的模仿学习策略，该模拟环境是根据少量真实世界数据即时构建的。为了实现这种从真实世界到模拟世界再到真实世界的管道，RialTo提出了一个易于使用的界面，可以快速扫描和构建真实世界环境的数字孪生。我们还介绍了一种新颖的“反向蒸馏”程序，用于将真实世界演示带入模拟环境进行高效微调，最小化人类干预和工程所需。我们在真实世界中评估了RialTo在各种机器人操作问题上的表现，例如在架子上稳定地堆叠盘子，在书架上放置书籍和其他六个任务。RialTo提高了（超过67％）策略的鲁棒性，而无需进行广泛的人类数据收集。项目网站和视频请参见https://real-to-sim-to-real.github.io/RialTo/。

Rob

AI

ML

PDF

解读

Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

2024年07月24日

自动驾驶汽车（AVs）面临的主要挑战之一是处理长尾角落案例。虽然大型语言模型（LLMs）具有处理角落案例的巨大潜力，具有出色的泛化和解释能力，并且在应用于自动驾驶方面越来越受到研究关注，但仍然存在技术障碍，例如LLMs的严格模型性能和巨大的计算资源需求。在本文中，我们研究了一种新的方法，即应用远程或边缘LLMs来支持自动驾驶。这种LLM辅助驾驶系统的关键问题是评估LLMs对驾驶理论和技能的理解，确保它们有资格承担CAV的安全关键驾驶辅助任务。我们为几个专有LLM模型（OpenAI GPT模型、Baidu Ernie和Ali QWen）和开源LLM模型（清华MiniCPM-2B和MiniCPM-Llama3-V2.5）设计并运行了驾驶理论测试，其中包括500多个多选理论测试问题。实验从模型准确性、成本和处理延迟等方面进行了测量。实验结果表明，虽然模型GPT-4通过了测试并具有改进的领域知识，而Ernie的准确度为85%（略低于86%的及格门槛），但其他LLM模型，包括GPT-3.5，未通过测试。对于带有图像的测试问题，多模态模型GPT4-o具有96%的优秀准确性结果，而MiniCPM-Llama3-V2.5的准确度为76%。虽然GPT-4在CAV驾驶辅助应用方面具有更强的潜力，但使用GPT-4模型的成本要高得多，几乎是使用GPT3.5的50倍。这些结果可以帮助决定是否使用现有的LLMs进行CAV应用，并在模型性能和成本之间平衡。

AI

cs.NI

Rob

PDF

解读