Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome

2024年04月21日
  • 简介
    本文提出了一种新方法,通过跟踪用户的潜在人格维度(LPDs)并基于这些LPDs生成定制的反事实话语,以优化整体说服结果。我们的方法利用双向生成对抗网络(BiCoGAN)与基于对话的人格预测回归(DPPR)模型协同工作来生成反事实数据。这使得系统能够制定更适合用户的替代说服话语。随后,我们利用D3QN模型学习优化选择系统话语的策略。使用PersuasionForGood数据集获得的实验结果表明,我们的方法优于现有方法BiCoGAN。我们的方法产生的累积奖励和Q值超过了基准,展示了在在线交互中采用反事实推理和LPDs来优化强化学习策略的功效。现有的说服对话系统依赖于说服策略,遇到了在交互过程中动态调整对话以适应个体用户不断变化状态的挑战。这种限制限制了系统提供灵活或动态对话的能力,从而实现次优的说服结果。
  • 图表
  • 解决问题
    本论文旨在解决现有的说服对话系统在动态调整对话以适应个体用户演变状态方面的挑战,从而实现更好的说服结果。
  • 关键思路
    论文提出了一种新方法,通过跟踪用户的潜在人格维度(LPDs)并生成基于这些LPDs的定制反事实话语来优化整体说服结果。
  • 其它亮点
    论文使用BiCoGAN和DPPR模型生成反事实数据,利用D3QN模型学习优化系统话语选择的策略。实验结果表明,该方法在PersuasionForGood数据集上表现优异。
  • 相关研究
    最近的相关研究包括使用深度学习方法来改善对话系统的性能,如《A Deep Reinforcement Learning Chatbot》和《A Persona-Based Neural Conversation Model》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论