Designing for Human-Agent Alignment: Understanding what humans want from their agents

2024年04月04日
  • 简介
    我们建立利用生成式人工智能的自主代理的能力正在日益增强。作为这些代理的构建者和用户,我们不清楚在代理开始代表我们执行任务之前需要达成的参数。为了发现这些参数,我们进行了一项定性的实证研究,研究如何设计代理人在虚构但可相关的在线相机销售任务中进行协商。我们发现,为了使代理人成功地执行任务,人类/用户和代理人需要在6个方面达成一致:1)知识模式对齐 2)自主和代理对齐 3)操作对齐和培训 4)声誉启发式对齐 5)伦理对齐和6)人类参与对齐。这些实证结果扩展了先前与过程和规范对齐以及人工智能交互中价值观和安全性需求相关的工作。随后,我们讨论了三个设计方向,供那些想象充满人类-代理合作的世界的设计师参考。
  • 图表
  • 解决问题
    设计人工智能代理程序时需要哪些参数的讨论
  • 关键思路
    人类和人工智能代理程序需要在知识架构、自治和代理、操作和训练、声誉启发式、伦理和人类参与等六个方面达成一致
  • 其它亮点
    通过虚构但易于理解的在线相机销售任务,进行了定性实证研究,提出了六个参数,扩展了过程和规范对齐的先前研究,探讨了人工智能与人类互动中的价值和安全问题,并提出了三个设计方向
  • 相关研究
    最近的相关研究包括过程和规范对齐以及人工智能与人类互动中的价值和安全问题,具体的论文标题不详
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论