AI热门论文

Integrating AI Tutors in a Programming Course

Alberto Krone Martins ,

Cristina Videira Lopes

2024年07月14日

RAGMan是一种由LLM驱动的辅导系统，可以支持多种特定课程和作业的AI辅导员。 RAGMan利用检索增强生成（RAG）以及严格的指令，确保AI辅导员的响应与学生问题的对齐。通过使用RAGMan的AI辅导员，学生可以在不直接获取解决方案的情况下获得特定作业分配的帮助，同时还可以提出一般的编程相关问题。本文介绍了RAGMan作为选修编程课程的可选资源时，455名学生与AI辅导员的互动、学生的反馈以及比较成绩分析。总体而言，约一半的学生与AI辅导员互动，绝大多数互动都是合法的作业问题。当学生提出问题在预期范围内时，AI辅导员的准确响应率达到98％。在使用AI辅导员的学生中，78％报告称辅导员对他们的学习有帮助。除了AI辅导员提供有价值的建议的能力外，学生报告称赞它们促进了一个没有评判的安全学习环境。

Symbolic

AI

HCI

PDF

解读

People cannot distinguish GPT-4 from a human in a Turing test

Cameron R. Jones ,

Benjamin K. Bergen

2024年05月09日

我们在一项随机、对照和预先注册的图灵测试中评估了三个系统（ELIZA、GPT-3.5和GPT-4）。人类参与者与人类或AI进行了5分钟的对话，并判断他们的交谈对象是否为人类。GPT-4被判定为人类的比例为54％，优于ELIZA（22％），但落后于真正的人类（67％）。这些结果首次提供了任何人工系统通过交互式2人图灵测试的有力实证。这些结果对于围绕机器智能的辩论具有重要意义，更紧急的是，表明当前AI系统的欺骗可能不会被发现。对参与者策略和推理的分析表明，风格和社交情感因素在通过图灵测试中发挥了比传统智能概念更大的作用。

HCI

AI

PDF

解读

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

Carlos E. Jimenez ,

Alexander Wettig ,

2024年05月06日

语言模型（LM）代理程序越来越多地被用于自动化数字环境中的复杂任务。就像人类受益于强大的软件应用程序（例如集成开发环境）一样，在软件工程等复杂任务中，我们认为LM代理代表了一类具有自己需求和能力的终端用户，并且会受益于专门构建的软件接口。我们研究了接口设计如何影响语言模型代理的性能。作为这项探索的结果，我们介绍了SWE-agent：一个系统，可以帮助LM代理自主使用计算机来解决软件工程任务。SWE-agent的自定义代理-计算机接口（ACI）显著增强了代理程序创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在SWE-bench和HumanEvalFix上评估了SWE-agent，在两者上都达到了最先进的性能，分别为12.5%和87.7%的一次通过率，远远超过以前使用非交互式LM实现的最先进水平。最后，我们提供了有关ACI设计如何影响代理程序行为和性能的见解。

SoftEng

AI

NLP

PDF

解读

Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses

Swaroop Mishra ,

2023年12月01日

大型语言模型（LLM）驱动的聊天机器人今天主要基于文本，对于探索性或理解性任务（例如计划旅行或了解新城市）会产生大量的交互认知负荷。由于交互是文本形式的，用户在结构、信息“气味”或指定高级偏好或目标方面缺乏支架。我们介绍了ExploreLLM，它允许用户构建思路，帮助探索不同的选项，通过选择和推荐进行导航，并更容易地引导模型生成更个性化的响应。我们进行了一项用户研究，并展示用户发现使用ExploreLLM对于探索性或计划任务很有帮助，因为它为任务提供了有用的类似模式的结构，并指导用户进行规划。该研究还表明，用户可以更容易地使用ExploreLLM实现高级偏好的个性化响应。总之，ExploreLLM指向了未来，用户与LLM进行交互不再仅限于聊天机器人的形式，而是设计为支持自然语言和图形用户界面之间更紧密集成的复杂用户任务。

HCI

AI

NLP

PDF

解读

ChatISA: A Prompt-Engineered Chatbot for Coding, Project Management, Interview and Exam Preparation Activities

Fadel M. Megahed ,

Joshua A. Ferris ,

2024年06月13日

随着生成式人工智能的不断发展，教育工作者面临着一个挑战，即如何为学生们准备未来，使其在 AI 辅助工作成为职业成功的重要组成部分的情况下取得成功。本文介绍了 ChatISA，这是一个内部的、多模型聊天机器人，旨在支持信息系统和分析系的学生。ChatISA包括四个主要模块——编码伴侣、项目教练、考试盟友和面试导师——每个模块都旨在增强教育体验的不同方面。通过迭代开发、学生反馈和利用开源框架，我们创建了一个强大的工具，可以解决编码问题、项目管理、考试准备和面试准备等问题。ChatISA的实施揭示了重要的见解和挑战，包括道德准则的必要性以及如何平衡 AI 的使用与维护学生的自主权。我们的研究结果强调了适应性教学和积极参与 AI 工具的重要性，以最大化其教育效益。为了支持更广泛的采用和创新，ChatISA 的所有代码都在 GitHub 上公开，使其他机构可以在其课程中定制和集成类似的 AI 驱动教育工具。

Symbolic

HCI

ML

PDF

解读

Cultural influence on RE activities: An extended analysis of state of the art

Chowdhury Shahriar Muzammel ,

Maria Spichkova ,

2024年07月24日

设计符合文化背景的移动软件对于优化人机交互至关重要。考虑文化影响不仅对于实际的功能/非功能要求集合至关重要，而且对于整个需求工程（RE）过程也是必不可少的。如果没有对RE活动的文化影响有清晰的理解，几乎不可能制定出正确和完整的要求集。本研究探讨了最近的研究基础上国家文化对RE相关活动的影响。我们进行了一项系统文献综述（SLR），研究了2019-2023年发表的研究，并将其与覆盖2000-2018年的旧SLR进行了比较。我们确定了17项相关研究，提取了33个文化影响，对其进行了Hofstede模型的映射，该模型在软件开发研究中被广泛使用于文化分析。我们的工作强调了国家文化在RE活动中的关键作用，总结了当前的研究趋势，并帮助从业人员考虑移动应用/软件开发的文化影响。

SoftEng

HCI

PDF

解读

LLM-Generated Tips Rival Expert-Created Tips in Helping Students Answer Quantum-Computing Questions

2024年07月24日

个别教学是传授知识最成功的方法之一。然而，由于每位教育者面对的学生数量众多，这种方法并不总是可行。量子计算是一个面临这个问题的典型例子，因为它受到了炒作的影响。减轻教师的高工作负荷，通常需要个别教学，这对于持续高质量的教育至关重要。因此，利用大型语言模型（LLM）如GPT-4生成教育内容可能是有价值的。我们进行了两项互补的研究，探讨使用GPT-4自动生成学生提示的可行性。在第一项研究中，学生（N=46）通过专家创建或LLM生成的提示解答了四个多项选择量子计算问题。为了纠正可能存在的对LLM的偏见，我们引入了两个额外的条件，使一些参与者相信他们获得了专家创建的提示，而实际上是LLM生成的提示，反之亦然。我们的第二项研究（N=23）旨在直接比较LLM生成和专家创建的提示，评估它们的质量、正确性和实用性，参与者包括有经验的教育者和学生。我们的第二项研究发现，LLM生成的提示比专家创建的提示更有帮助，更能指向相关概念，同时更容易透露答案。虽然第一项研究中的参与者在获得标记为LLM生成的提示时表现出明显的优势，即使这些提示是由专家创建的。这种现象可能是由参与者对LLM生成内容的偏见引起的安慰剂效应。最终，我们发现，在量子计算基础的背景下，LLM生成的提示足以代替专家提示使用。

HCI

PDF

解读

Collaboration Between Robots, Interfaces and Humans: Practice-Based and Audience Perspectives

2024年07月24日

本文分析了一部混合媒体实验音乐作品，探索了人类音乐互动与新开发的小提琴界面、即兴小提琴手、互动视觉、机器人鼓手和即兴合成乐团的整合。我们首先提供了系统的详细技术概述，包括每个组件的设计和功能。然后，我们进行了一次基于实践的审查，考察了作品背后的创造过程和艺术决策，重点关注了在开发过程中遇到的挑战和突破。通过这种内省式分析，我们揭示了人类表演者和技术代理之间的合作动态，揭示了将传统音乐表现力与人工智能和机器人相融合的复杂性。为了衡量公众接受和解释角度，我们进行了一项在线调查，向广泛的受众分享了演出视频。从这次调查收集到的反馈提供了有价值的观点，涉及作品的可访问性、情感影响和感知艺术价值。受访者的反应强调了将先进技术融入音乐表演的转型潜力，同时也突出了进一步探索和完善的领域。

HCI

Audio

eess.AS

PDF

解读

PrISM-Observer: Intervention Agent to Help Users Perform Everyday Procedures Sensed using a Smartwatch

Hiromu Yakura ,

2024年07月23日

本文介绍了一种名为PrISM-Observer的智能手表系统，旨在通过实时干预来支持日常任务，防止由于遗漏或错误的操作而导致的严重后果，特别是对那些认知挑战较大的人，如患有痴呆症的人。与传统的需要用户主动寻找信息的系统不同，该系统通过多模态感知不断更新对用户行为的信念，并预测最佳的干预时机和方法，从而主动干预用户行为。作者首先通过评估三个具有不同复杂度的数据集的步骤跟踪性能来验证了该框架的有效性，然后使用智能手表实现了实时代理系统，并在烹饪任务场景下进行了用户研究。该系统生成了有帮助的干预措施，并获得了参与者的积极反馈。PrISM-Observer对日常任务的普适性承诺着广泛的应用，例如为需要更深入干预的用户提供支持，如患有痴呆症或术后患者。

HCI

AI

PDF

解读

Political Leanings in Web3 Betting: Decoding the Interplay of Political and Profitable Motives

Hongzhou Chen ,

Abdulmotaleb El Saddik ,

2024年07月20日

利用透明的区块链用户行为数据，我们构建了“政治投注倾向分数”（PBLS），以基于Web3预测市场内的投注来衡量政治倾向。我们以Polymarket为重点，从2024年美国总统选举开始，综合了来自15000个地址、4500个事件和8500个市场的行为，通过PBLS捕捉他们的政治倾向的强度和方向。我们通过内部一致性检查和外部比较验证了PBLS的准确性。我们通过超过800个特征捕捉了我们PBLS与投注行为之间的关系，涵盖了各种行为方面。2022年美国参议院选举的案例研究进一步展示了我们测量的能力，同时解码了政治和盈利动机之间的动态互动。我们的研究结果有助于理解去中心化市场决策，增强对Web3预测环境中行为的分析。本研究的洞见揭示了区块链在启用创新的跨学科研究方面的潜力，并可能为开发更有效的在线预测市场、提高预测准确性以及帮助平台机制的设计和优化提供指导。本文的数据和代码可在以下链接中获得：https://github.com/anonymous。

Symbolic

HCI

cs.SI

PDF

解读