每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Reinforced Prompt Personalization for Recommendation with Large Language Models
Wenyu Mao ,
Jiancan Wu ,
Weijian Chen ,
...
2024年07月24日
设计有效的提示可以使LLMs理解用户偏好并通过利用LLMs的意图理解和知识利用能力提供推荐。然而,现有的研究主要集中在任务提示上,开发由四种模式(即角色扮演、历史记录、推理指导和输出格式)组成的固定提示模板,并将它们应用于给定任务的所有用户。虽然方便,但任务提示忽略了个体用户之间的差异,导致在捕捉用户偏好方面存在潜在的不匹配。为了解决这个问题,我们引入了实例提示的概念,为个体用户个性化离散提示,并提出了强化提示个性化(RPP)来使用多智能体强化学习(MARL)优化提示中的四种模式。为了提高效率,RPP将提示个性化制定为全面选择四种模式中的最佳句子,而不是逐字逐句地优化。为了确保提示的质量,RPP精心制作了每个模式的多样表达,考虑了特定推荐任务的多个分析角度。除了RPP之外,我们提出了RPP+的建议,旨在通过在迭代过程中与LLMs动态优化行动来提高行动空间的可扩展性。我们评估了RPP/RPP+在各种数据集上的排名任务的有效性。实验结果表明,RPP/RPP+优于传统的推荐模型、少样本方法和其他基于提示的方法,强调了实例提示对于LLMs在推荐任务中的重要性,并验证了RPP/RPP+的有效性。我们的代码可在https://github.com/maowenyu-11/RPP上获得。
52
热度
IR
PDF
解读
The Quantified Boolean Bayesian Network: Theory and Experiments with a Logical Graphical Model
Gregory Coppola
2024年02月09日
本文介绍了量化布尔贝叶斯网络(QBBN),它提供了逻辑和概率推理的统一视角。QBBN旨在解决大型语言模型(LLM)的一个核心问题,即LLM会产生幻觉。通过构建贝叶斯网络,它只能返回可以解释的答案,因此无法产生幻觉。我们展示了如何配置一个基于无限数量布尔变量的贝叶斯网络来表示人类语言背后的逻辑推理。我们通过创建第一阶微积分的键值版本来实现这一点,我们可以证明其一致性和完备性。我们展示了该模型在完全观察到的数据上可以轻松训练,但推理是非常复杂的。在贝叶斯网络中,精确推理是不可行的(即对于N个变量,其时间复杂度为$\Omega(2^N)$)。对于推理,我们研究了环形置信传播(LBP)的使用,它不能保证收敛,但在实践中已被证明经常收敛。我们的实验表明,LBP确实非常可靠地收敛,并且我们的分析表明,一轮LBP需要时间$O(N2^n)$,其中$N$限制了考虑的变量数,$n$限制了任何因子的传入连接数,并且可能存在进一步的改进。我们的网络专门设计为在布尔代数中交替使用AND和OR门,这更接近于逻辑推理,允许我们证明我们网络的扩展版本的完备性,并且还允许推理遵循特定但足够的路径,这些路径很快。
AI
IR
PDF
解读