AI热门论文

Reinforced Prompt Personalization for Recommendation with Large Language Models

2024年07月24日

设计有效的提示可以使LLMs理解用户偏好并通过利用LLMs的意图理解和知识利用能力提供推荐。然而，现有的研究主要集中在任务提示上，开发由四种模式（即角色扮演、历史记录、推理指导和输出格式）组成的固定提示模板，并将它们应用于给定任务的所有用户。虽然方便，但任务提示忽略了个体用户之间的差异，导致在捕捉用户偏好方面存在潜在的不匹配。为了解决这个问题，我们引入了实例提示的概念，为个体用户个性化离散提示，并提出了强化提示个性化（RPP）来使用多智能体强化学习（MARL）优化提示中的四种模式。为了提高效率，RPP将提示个性化制定为全面选择四种模式中的最佳句子，而不是逐字逐句地优化。为了确保提示的质量，RPP精心制作了每个模式的多样表达，考虑了特定推荐任务的多个分析角度。除了RPP之外，我们提出了RPP+的建议，旨在通过在迭代过程中与LLMs动态优化行动来提高行动空间的可扩展性。我们评估了RPP/RPP+在各种数据集上的排名任务的有效性。实验结果表明，RPP/RPP+优于传统的推荐模型、少样本方法和其他基于提示的方法，强调了实例提示对于LLMs在推荐任务中的重要性，并验证了RPP/RPP+的有效性。我们的代码可在https://github.com/maowenyu-11/RPP上获得。

IR

PDF

解读

ColPali: Efficient Document Retrieval with Vision Language Models

Manuel Faysse ,

Hugues Sibille ,

2024年06月27日

这段摘要介绍了文档是通过文本、表格、图像、页面布局或字体等视觉丰富的结构来传达信息的。虽然现代文档检索系统在查询到文本匹配方面表现出色，但它们在有效利用视觉线索方面存在困难，从而影响了它们在实际文档检索应用中的性能，如检索增强生成。为了对视觉丰富的文档检索进行基准测试，作者介绍了Visual Document Retrieval Benchmark ViDoRe，它由跨多个领域、语言和设置的各种页面级检索任务组成。现代系统的固有缺点促使引入一种新的检索模型架构ColPali，它利用最近的视觉语言模型的文档理解能力，仅从文档页面的图像中产生高质量的上下文嵌入。结合晚期交互匹配机制，ColPali在很大程度上优于现代文档检索管道，同时速度更快，可进行端到端的训练。

IR

NLP

CV

PDF

解读

Integrating AI Tutors in a Programming Course

Alberto Krone Martins ,

Cristina Videira Lopes

2024年07月14日

RAGMan是一种由LLM驱动的辅导系统，可以支持多种特定课程和作业的AI辅导员。 RAGMan利用检索增强生成（RAG）以及严格的指令，确保AI辅导员的响应与学生问题的对齐。通过使用RAGMan的AI辅导员，学生可以在不直接获取解决方案的情况下获得特定作业分配的帮助，同时还可以提出一般的编程相关问题。本文介绍了RAGMan作为选修编程课程的可选资源时，455名学生与AI辅导员的互动、学生的反馈以及比较成绩分析。总体而言，约一半的学生与AI辅导员互动，绝大多数互动都是合法的作业问题。当学生提出问题在预期范围内时，AI辅导员的准确响应率达到98％。在使用AI辅导员的学生中，78％报告称辅导员对他们的学习有帮助。除了AI辅导员提供有价值的建议的能力外，学生报告称赞它们促进了一个没有评判的安全学习环境。

Symbolic

AI

HCI

PDF

解读

NV-Retriever: Improving text embedding models with effective hard-negative mining

Gabriel de Souza P. Moreira ,

Radek Osmulski ,

2024年07月22日

文本嵌入模型在信息检索应用中广受欢迎，例如基于检索增强生成（Retrieval-Augmented Generation，RAG）的语义搜索和问答系统。这些模型通常是经过对比学习目标微调的Transformer模型。许多论文介绍了新的嵌入模型架构和训练方法，然而，其中一个关键要素——负面段落挖掘的过程，仍然鲜有研究或描述。微调嵌入模型的一个具有挑战性的方面是选择高质量的难负面段落进行对比学习。在本文中，我们提出了一系列基于正相关性得分的正向感知挖掘方法，以更有效地去除假阴性。我们还对不同的教师和基础模型的难负面挖掘方法及其配置进行了全面的消融研究。我们通过引入NV-Retriever-v1模型来展示我们提出的方法的有效性，该模型在MTEB Retrieval（BEIR）基准测试中得分为60.9，比以前的方法高0.65分。该模型在2024年7月7日发布到MTEB Retrieval时排名第一。

IR

AI

PDF

解读

C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models

Nezihe Merve Gürel ,

2024年02月05日

尽管大型语言模型（LLM）在各种应用中具有令人印象深刻的能力，但它们仍然存在可信度问题，例如幻觉和错位。检索增强语言模型（RAG）已被提出以通过基于外部知识来增强生成结果的可信度，但它们的生成风险的理论理解尚未被探索。本文回答了以下问题：1）RAG是否确实能够导致低的生成风险，2）如何对RAG和普通LLM的生成风险提供可证明的保证，以及3）什么样的充分条件使RAG模型能够降低生成风险。我们提出了C-RAG，这是第一个为RAG模型证明生成风险的框架。具体而言，我们为RAG模型提供了符合风险分析，并证明了生成风险的上限置信界，我们将其称为符合生成风险。我们还为在测试分布转移下的一般有界风险函数提供了符合生成风险的理论保证。我们证明，当检索模型和变压器的质量非常高时，RAG实现的符合生成风险低于单个LLM的符合生成风险。我们在四个广泛使用的NLP数据集上使用了四个最先进的检索模型，进行了大量的实证结果，证明了我们的符合生成风险保证的合理性和紧密性。

AI

NLP

IR

PDF

解读

Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization

Md Sultan Al Nahian ,

Ramakanth Kavuluru

2024年07月19日

在医院产生的大量临床文本中进行抽取式问答是一个重要的需求。虽然编码器模型（例如BERT）在这种阅读理解任务中很受欢迎，但最近编码器-解码器模型（例如T5）正在兴起。还出现了优化偏好的技术，以将仅解码的LLM与人类偏好对齐。在本文中，我们将编码器-解码器模型与直接偏好优化（DPO）方法相结合，通过新的启发式方法生成偏好数据，从而在RadQA放射学问答任务中将先前的最佳水平提高了12-15个F1点。据我们所知，这一努力是首次表明DPO方法也适用于阅读理解。

IR

NLP

ML

PDF

解读

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

2024年02月27日

大规模推荐系统的特点是依赖于高基数、异构特征，并需要每天处理数十亿个用户操作。尽管在数千个特征上使用了大量的数据进行训练，但工业界中大多数深度学习推荐模型（DLRMs）在计算方面都无法扩展。受到语言和视觉领域中Transformer的成功启发，我们重新审视了推荐系统的基本设计选择。我们在生成建模框架中将推荐问题重新定义为序列传导任务（“生成式推荐”），并提出了一种新的架构HSTU，专为高基数、非平稳流式推荐数据设计。 HSTU在合成和公共数据集上的NDCG性能比基准提高了高达65.8％，而在8192长度序列上比基于FlashAttention2的Transformer快5.3倍至15.2倍。基于HSTU的生成式推荐器，具有1.5万亿个参数，在在线A / B测试中提高了12.4％的指标，并已部署在拥有数十亿用户的大型互联网平台的多个表面上。更重要的是，生成式推荐器的模型质量在三个数量级的训练计算中经验性地呈现出幂律规模，达到了GPT-3/LLaMa-2规模，这减少了未来模型开发所需的碳足迹，进一步为推荐领域的第一批基础模型铺平了道路。

ML

IR

PDF

解读

The Quantified Boolean Bayesian Network: Theory and Experiments with a Logical Graphical Model

Gregory Coppola

2024年02月09日

本文介绍了量化布尔贝叶斯网络（QBBN），它提供了逻辑和概率推理的统一视角。QBBN旨在解决大型语言模型（LLM）的一个核心问题，即LLM会产生幻觉。通过构建贝叶斯网络，它只能返回可以解释的答案，因此无法产生幻觉。我们展示了如何配置一个基于无限数量布尔变量的贝叶斯网络来表示人类语言背后的逻辑推理。我们通过创建第一阶微积分的键值版本来实现这一点，我们可以证明其一致性和完备性。我们展示了该模型在完全观察到的数据上可以轻松训练，但推理是非常复杂的。在贝叶斯网络中，精确推理是不可行的（即对于N个变量，其时间复杂度为$\Omega(2^N)$）。对于推理，我们研究了环形置信传播（LBP）的使用，它不能保证收敛，但在实践中已被证明经常收敛。我们的实验表明，LBP确实非常可靠地收敛，并且我们的分析表明，一轮LBP需要时间$O(N2^n)$，其中$N$限制了考虑的变量数，$n$限制了任何因子的传入连接数，并且可能存在进一步的改进。我们的网络专门设计为在布尔代数中交替使用AND和OR门，这更接近于逻辑推理，允许我们证明我们网络的扩展版本的完备性，并且还允许推理遵循特定但足够的路径，这些路径很快。

AI

IR

PDF

解读

Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems

Philipp Normann ,

Felix Stepprath

2024年07月23日

本研究引入了MultiTRON，一种利用变压器神经网络将Pareto前沿逼近技术应用于多目标基于会话的推荐系统的方法。我们的方法通过对采样的偏好向量进行训练，优化了点击率和转化率等关键指标之间的权衡。一个显著的优点是，在训练后，单个模型可以访问整个Pareto前沿，通过调整额外的输入向量来加权目标，以满足不同利益相关者的具体要求。我们通过广泛的离线和在线评估验证了模型的性能。为了更广泛的应用和研究，源代码可在https://github.com/otto-de/MultiTRON上获得。结果证实了该模型有效地管理多个推荐目标，为不同的业务需求提供了灵活的工具。

IR

AI

ML

PDF

解读

Why does in-context learning fail sometimes? Evaluating in-context learning on open and closed questions

2024年07月02日

我们通过对开放性和封闭性问题的任务新颖性和难度的函数进行上下文学习的性能测量。为此，我们创建了一个新的基准，由一些难度较大的科学问题和各种相关性的上下文组成。我们表明，与主题更相关的上下文并不总是比不相关的上下文更有帮助，这种效应在开放性问题和高难度或新颖性问题中尤为明显。这一结果揭示了大型语言模型处理封闭式和开放式问题的根本差异，并表明需要对各种不同类型问题进行更强大的上下文学习评估。它还提出了一个新的问题，即如何在Retrieval Augmented Generation（RAG）系统的上下文中选择最佳上下文，尤其是对于大型语言模型。我们的结果表明，这个问题的答案可能高度依赖于应用程序，并可能取决于问题的格式、难度水平和我们寻求的信息的新颖性或流行程度。

NLP

AI

IR

PDF

解读