Creating General User Models from Computer Use

2025年05月16日
  • 简介
    人机交互长期以来一直设想一种能够理解我们的技术——从我们的偏好和习惯,到我们日常行为的时机和目的。然而,当前的用户模型仍然支离破碎,仅针对特定应用程序量身定制,并且无法进行灵活推理以实现这些愿景。本文提出了一种通用用户模型(GUM)的架构,该模型通过观察用户与计算机的任何交互来学习关于用户的信息。GUM 将任何用户的非结构化观察结果作为输入(例如,设备屏幕截图),并构建带有置信权重的命题,以捕捉用户的知识和偏好。例如,GUM 可以从用户与朋友的对话中推断出他们正在为参加的一场婚礼做准备;或者通过观察多次停滞的编辑操作和切换到阅读相关资料,识别出用户在处理合作者对草稿反馈时遇到困难。GUM 引入了一种架构,可以从多模态观察中推断出关于用户的全新命题,检索相关命题以提供上下文,并持续修订现有的命题。为了展示 GUM 所支持的应用范围,我们演示了如何通过上下文增强基于聊天的助手,如何管理操作系统通知以选择性地呈现重要信息,以及如何实现能够在不同应用间适应用户偏好的交互式代理。此外,我们还实例化了一种主动型助手(GUMBOs),它利用用户的 GUM 发现并执行对其有益的建议。在我们的评估中发现,GUM 能够做出校准准确的用户推断,并且基于 GUM 构建的助手能够主动识别并执行用户可能不会明确要求的操作。总体而言,GUM 引入了利用多模态模型理解非结构化上下文的方法,不仅实现了 HCI 领域长期追求的愿景,还开启了全新的交互系统,能够预判用户需求。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图解决当前用户模型碎片化、狭窄以及缺乏灵活推理能力的问题。具体来说,现有的用户模型仅限于特定应用,无法全面理解用户的偏好、习惯和日常行为。这是一个长期存在的问题,但本研究提出了一种通用用户模型(GUM)来应对这一挑战。
  • 关键思路
    论文的核心思路是通过构建一个通用用户模型(GUM),从多模态观察中学习用户的偏好和知识。GUM可以从任何与计算机的交互中提取信息,并生成带有置信权重的命题,用于推断用户的意图或状态。例如,它可以通过分析消息记录推断用户正在为婚礼做准备,或者通过编辑行为识别用户在处理反馈时遇到困难。相比现有方法,GUM具有跨应用、多模态和持续更新的能力,从而实现更深层次的用户理解。
  • 其它亮点
    1. GUM能够整合多模态数据(如设备截图、文本、行为日志等),并将其转化为结构化的用户知识表示。 2. 论文展示了GUM在多个场景中的应用潜力,包括增强聊天助手、优化通知管理、支持自适应交互代理和实现主动建议系统(GUMBOs)。 3. 实验表明,基于GUM的助手可以准确推断用户需求,并执行用户未明确请求的任务。 4. 虽然论文未提及代码开源,但其提出的架构和实验设计为未来的研究提供了清晰的方向。 5. 值得深入研究的方向包括:如何进一步提升GUM对隐私的保护能力,以及如何将GUM扩展到更多模态和更复杂的任务场景。
  • 相关研究
    最近的相关研究包括: 1. "Personalized AI Assistants: Learning User Preferences through Interaction" - 探讨了通过用户交互学习个性化偏好的方法。 2. "Multimodal User Modeling for Smart Environments" - 研究了在智能环境中利用多模态数据建模用户行为的技术。 3. "Proactive Task Automation with Context-Aware Agents" - 提出了基于上下文感知的主动任务自动化框架。 4. "Understanding Human Intentions through Sequential Behavior Analysis" - 集中于通过序列行为分析理解人类意图。 这些研究均关注用户建模的不同方面,而GUM的独特之处在于其通用性和跨应用的推理能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问