- 简介研究人员和开发者越来越依赖毒性评分来调节生成语言模型的输出,例如在客户服务、信息检索和内容生成等领域。然而,毒性评分可能会使相关信息无法访问,使文化规范僵化或“价值锁定”,并阻止语言复兴过程,特别是对于被边缘化的人群。在这项工作中,我们将算法回溯的概念扩展到生成语言模型中:我们为用户提供了一种新的机制,通过动态设置毒性过滤的阈值来实现他们所需的预测。用户因此相对于与基线系统的交互而言具有更高的自主权。一项小型研究(n = 30)支持我们提出的回溯机制的潜力,表明相对于固定阈值毒性过滤模型输出,可用性有所改善。未来的工作应探索毒性评分、模型可控性、用户自主权和语言复兴过程的交叉点,特别是针对许多社区在与生成语言模型交互时遇到的偏见。
- 图表
- 解决问题论文旨在扩展算法可追溯性的概念,提供一种机制,使用户可以通过动态设置毒性过滤的阈值来实现其所需的预测,从而增加用户对与基线系统的交互相对的机构。
- 关键思路论文提出了一种算法可追溯性的方法,使用户可以动态地设置毒性过滤的阈值,从而提高用户对生成语言模型交互的机构。
- 其它亮点论文进行了一项试点研究,支持其提出的算法可追溯性机制的潜力,实验结果表明相对于固定阈值的毒性过滤模型输出,该机制具有更好的可用性。未来的工作应该探索毒性评分、模型可控性、用户机构和语言重建过程之间的交叉点,特别是关于许多社区与生成语言模型交互时遇到的偏见。
- 最近的相关研究包括使用毒性评分来调节生成语言模型输出的方法,以及探索算法可追溯性的方法。相关论文包括“Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation”和“Towards Controllable Content Generation: A Multi-Aspect Correction Framework”等。
沙发等你来抢
去评论
评论
沙发等你来抢