AI热门论文

(Unfair) Norms in Fairness Research: A Meta-Analysis

Jennifer Chien ,

A. Stevie Bergman ,

Kevin R. McKee ,

2024年06月17日

算法公正性已成为人工智能（AI）研究中的一个重要关注点。然而，开发公正的AI系统并不是一个客观的过程。公正性是一个固有的主观概念，受到参与研究和开发的人的价值观、经验和身份的影响。为了更好地理解当前公正研究中嵌入的规范和价值观，我们对两个主要的AI公正和伦理会议AIES和FAccT的算法公正论文进行了元分析，涵盖了2018年至2022年的139篇论文的最终样本。我们的调查揭示了两个令人担忧的趋势：首先，美国为中心的视角在整个公正性研究中占主导地位；其次，公正性研究普遍依赖于人类身份的二进制编码（例如，“黑人/白人”，“男性/女性”）。这些发现突显了当前研究经常忽视身份和生活经验的复杂性，最终未能在定义算法偏见和公正性时代表多样化的全球背景。我们讨论了这些研究设计选择的局限性，并提出了促进更具包容性和代表性的公正AI系统方法的建议，敦促实现一种拥抱人类身份和价值观的细致、全球性的范式转变。

Symbolic

AI

PDF

解读

On The Fairness Impacts of Hardware Selection in Machine Learning

Sree Harsha Nelaturu ,

Nishaanth Kanna Ravichandran ,

2023年12月06日

在机器学习生态系统中，硬件选择经常被视为纯粹的工具，被算法和数据的聚光灯所掩盖。在ML作为服务平台等情境中，用户常常缺乏对模型部署所使用硬件的控制权，这种忽视尤其令人担忧。选择何种硬件会影响泛化性能？本文研究了硬件对模型性能和公平性之间微妙平衡的影响。我们证明了硬件选择会加剧现有的差异，将这些差异归因于不同人口群体之间梯度流和损失面的变化。通过理论和实证分析，本文不仅确定了潜在因素，还提出了一种有效的策略来减轻硬件引起的性能不平衡。

ML

AI

Symbolic

PDF

解读

Limits to Predicting Online Speech Using Large Language Models

Robert C. Williamson

2024年07月08日

我们研究了社交媒体上在线言论的可预测性，以及是否可以通过用户发布的信息以外的信息来提高可预测性。最近的研究表明，用户的同伴所写的帖子所包含的预测信息可能超过了用户自己的帖子。受大型语言模型成功的启发，我们在实践中测试了这个假设。我们将不可预测性定义为模型的不确定性度量，即给定上下文的未来标记的负对数似然。作为我们研究的基础，我们收集了来自5000多个X（以前的Twitter）用户及其同伴的625万个帖子的语料库。在三个规模从10亿到700亿参数的大型语言模型中，我们发现根据用户同伴的帖子来预测用户的帖子表现不佳。此外，用户自己的帖子对于预测的价值始终高于他们的同伴。总的来说，我们发现社交媒体帖子的可预测性仍然很低，与没有上下文的预测金融新闻相当。我们通过详细分析不可预测性的原因和我们发现的稳健性来扩展我们的调查。具体而言，我们观察到，很大一部分预测不确定性来自于主题标签和@提及。此外，如果我们不是通过提示模型使用额外的上下文，而是通过在额外的上下文上进行微调，我们的结果将得到复制。

NLP

Symbolic

ML

PDF

解读

Integrating AI Tutors in a Programming Course

Alberto Krone Martins ,

Cristina Videira Lopes

2024年07月14日

RAGMan是一种由LLM驱动的辅导系统，可以支持多种特定课程和作业的AI辅导员。 RAGMan利用检索增强生成（RAG）以及严格的指令，确保AI辅导员的响应与学生问题的对齐。通过使用RAGMan的AI辅导员，学生可以在不直接获取解决方案的情况下获得特定作业分配的帮助，同时还可以提出一般的编程相关问题。本文介绍了RAGMan作为选修编程课程的可选资源时，455名学生与AI辅导员的互动、学生的反馈以及比较成绩分析。总体而言，约一半的学生与AI辅导员互动，绝大多数互动都是合法的作业问题。当学生提出问题在预期范围内时，AI辅导员的准确响应率达到98％。在使用AI辅导员的学生中，78％报告称辅导员对他们的学习有帮助。除了AI辅导员提供有价值的建议的能力外，学生报告称赞它们促进了一个没有评判的安全学习环境。

Symbolic

AI

HCI

PDF

解读

Questionable practices in machine learning

Juan J. Vazquez ,

Misha Yagudin ,

2024年07月17日

评估现代机器学习模型很困难。研究人员和公司有强烈的动机在某些指标上报告最先进的结果，这往往会导致可疑的研究实践（QRPs）：这些不良实践虽然不构成明显的研究欺诈，但仍然存在问题。我们描述了43种这样的实践，这些实践可能会削弱报告的结果，并在可能的情况下给出了示例。我们的列表强调了在公共基准测试上对大型语言模型（LLMs）进行评估。我们还讨论了“不可重复的研究实践”，即使其他研究人员难以或无法重现、建立或审计以前的研究所做出的决策。

ML

NLP

Symbolic

PDF

解读

FernUni LLM Experimental Infrastructure (FLEXI) -- Enabling Experimentation and Innovation in Higher Education Through Access to Open Large Language Models

Torsten Zesch ,

Michael Hanses ,

2024年06月27日

使用LLMs在高等教育中的全部潜力受到了获取LLMs的挑战的阻碍。目前讨论的两种主要获取模式是支付基于云的LLM或提供本地维护的开放LLM。在本文中，我们描述了在FernUniversit\"at in Hagen建立开放LLM基础设施的当前状态，该项目名为FLEXI（FernUni LLM Experimental Infrastructure）。 FLEXI使得在教学和研究中进行实验成为可能，旨在产生支持或反对在高等教育中使用本地维护的开放LLMs所需的强有力的证据。本文将为每个试图决定是否运行自己的LLM服务器的人提供一些实用的指导。

Symbolic

AI

PDF

解读

Open Problems in Technical AI Governance

Stephen Casper ,

2024年07月20日

人工智能的进步创造了越来越多的风险和机遇，但如何应对这些风险和机遇往往不清楚。在许多情况下，所面临的障碍和不确定性至少在一定程度上是技术上的。技术AI治理是指技术分析和工具，用于支持有效治理人工智能，旨在解决这些挑战。它可以帮助(a)确定需要干预的领域，(b)确定和评估潜在的治理行动的功效，以及(c)通过设计执行、激励或合规机制来增强治理选择。在本文中，我们解释了技术AI治理是什么，为什么它很重要，并提出了一个分类和不完整的问题目录。本文旨在为技术研究人员或研究基金提供一个资源，以便为AI治理做出贡献。

Symbolic

PDF

解读

Free to play: UN Trade and Development's experience with developing its own open-source Retrieval Augmented Generation Large Language Model application

2024年06月18日

自2022年11月ChatGPT发布其生成式预训练变换器（GPT）-3.5模型以来，生成式人工智能（AI），尤其是大型语言模型（LLM），因其通用性和自然语言交流的能力而广受欢迎和关注。由于这些模型的强大能力，它们可以在许多领域中发挥作用，包括官方统计和国际组织的工作。然而，对于这种新颖且看似复杂的技术，组织可能会觉得生成式AI是一种发生在组织内部的事情，可以谈论但无法理解，可以评论但无法为之贡献。此外，采用和运营专有解决方案的成本可能不确定且高昂，这是国际组织通常面临的成本限制的障碍。面对这些挑战，联合国贸发会议（UNCTAD）通过其全球危机应对小组（GCRG），探索和开发了自己的开源检索增强生成（RAG）LLM应用程序。RAG使LLMs意识到并更有用于组织的领域和工作。开发内部解决方案有利有弊，其中利益包括成本、灵活性和促进机构知识。缺点包括时间和技能投资、应用程序的差距和应用程序的优化和能力。用于生成应用程序的三个库：文档处理和统计分析的nlp_pipeline，运行本地RAG LLM的local_rag_llm，以及用户界面的streamlit_rag，均在PyPI和GitHub上公开发布，并提供Dockerfiles。第四个库local_llm_finetune也可用于微调现有的LLMs，然后可以在应用程序中使用。

Symbolic

AI

NLP

PDF

解读

Foundational Challenges in Assuring Alignment and Safety of Large Language Models

Abulhair Saparov ,

2024年04月15日

这项工作确定了保证大型语言模型（LLMs）对齐和安全的18个基本挑战。这些挑战分为三个不同的类别：LLMs的科学理解、开发和部署方法以及社会技术挑战。基于确定的挑战，我们提出了200多个具体的研究问题。

ML

AI

NLP

PDF

解读

Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach

Irina Jurenka ,

Markus Kunesch ,

Kevin R. McKee ,

2024年05月21日

世界面临的主要挑战之一是为所有人提供平等和普及的优质教育。最近发展的生成式人工智能技术（gen AI）引起了人们对新技术可能为每个学习者提供个人导师和每个教师提供教学助手的潜力的兴奋。然而，这个梦想的全部实现还没有出现。我们认为，这主要是由于将教学直觉转化为gen AI提示的困难以及缺乏良好的评估实践所致，同时也受到定义优秀教学的挑战的影响。在这里，我们介绍了我们与学习者和教育工作者合作，将学习科学的高层原则转化为七个不同的教育基准的实用方法，涵盖定量、定性、自动和人工评估，并开发了一组新的微调数据集，以提高Gemini的教学能力，引入LearnLM-Tutor。我们的评估结果表明，在许多教学维度上，教育工作者和学习者普遍更喜欢LearnLM-Tutor而不是经过提示调整的Gemini。我们希望这项工作可以作为开发全面的教育评估框架的第一步，并且可以使AI和EdTech社区在最大程度地发挥gen AI在教育中的积极作用方面取得快速进展。

Symbolic

AI

ML

PDF

解读