本文提出一种合成数据生成系统,旨在训练AI模型实现基于地图的视觉导航能力,并最终赋能语言模型理解并规划真实世界路径。人类能快速解析商场或主题公园地图,识别位置、区分墙壁与通道,进行细粒度空间推理;而当前多模态大语言模型(MLLMs)虽擅长图像识别与内容描述,却常无法正确规划可行路径——如直线穿越建筑或障碍物,暴露其在空间约束理解和几何推理上的关键缺陷。该系统通过生成高质量、多样化、带精确空间标注的合成地图与导航轨迹数据,弥补这一短板,推动AI具备类人的环境感知与路径规划能力。(200字)

本专栏通过快照技术转载,仅保留核心内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除