- 简介大型语言模型(LLMs)在语言理解、生成和推理的新挑战和能力方面取得了快速增长。尽管它们在自然语言处理应用中表现出色,但LLMs容易出现不良和不稳定的行为,包括幻觉、不可靠的推理和生成有害内容。这些错误的行为破坏了对LLMs的信任,并对其在现实世界应用中的采用构成了重大障碍,如法律援助和医学诊断,其中精确性、可靠性和道德考虑至关重要。这也可能导致用户不满意,目前的评估和捕捉方式不足。因此,为了有效透明地评估用户与LLMs的交互中的满意度和信任度,我们设计和开发了LLMChain,这是一个基于分散式区块链的声誉系统,将自动评估与人类反馈相结合,以分配准确反映LLM行为的上下文声誉分数。LLMChain不仅帮助用户和实体确定最值得信赖的LLM,以满足其特定需求,还为LLM开发人员提供了有价值的信息,以改进和完善其模型。据我们所知,这是第一次引入基于区块链的分布式框架,用于共享和评估LLMs。使用新兴工具实现的LLMChain在两个基准数据集上进行评估,展示了其评估七种不同LLMs的有效性和可扩展性。
-
- 图表
- 解决问题解决问题:论文试图解决LLMs存在的不可靠行为,缺乏用户满意度评估的问题,提出一种基于区块链的分布式信誉系统。
- 关键思路关键思路:设计开发LLMChain,一种基于区块链的信誉系统,结合自动评估和人类反馈,为LLMs分配上下文信誉评分,以准确反映LLMs的行为。
- 其它亮点其他亮点:LLMChain不仅帮助用户和实体识别最可信赖的LLM,还为LLM开发人员提供有价值的信息以完善和改进他们的模型。使用两个基准数据集评估了LLMChain的有效性和可扩展性,展示了其在评估七种不同LLMs方面的效果。
- 相关研究:目前还没有使用区块链技术来评估LLMs的研究,但是该论文提到了其他与LLMs相关的研究,如LLMs存在的问题和挑战,以及LLMs在自然语言处理应用中的表现。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流