- 简介我们提出了一种生成式对话系统,能够以全双工的方式运作,实现无缝互动。该系统基于一个大型语言模型(LLM),经过精心调整,能够感知模块、运动功能模块和一个简单的有限状态机概念(称为神经FSM)的意识。感知和运动功能模块同时运作,使系统能够同时与用户说话和倾听。LLM为查询回复生成文本标记,并通过向神经FSM发出控制标记来自主决策是否开始回复、等待或中断用户。所有这些LLM的任务都是在实时对话的序列化视图上进行下一个标记预测。在模拟真实交互的自动质量评估中,与基于LLM的半双工对话系统相比,我们提出的系统将平均对话响应延迟降低了三倍以上,同时在50%以上的评估交互中,响应时间不到500毫秒。我们的系统仅使用80亿个参数的LLM,比目前最好的商用LLM语音对话系统展现出8%更高的中断准确率。
- 图表
- 解决问题论文旨在解决全双工对话系统中的延迟和中断问题,同时提高系统的准确性。
- 关键思路论文提出了一种基于大型语言模型的全双工对话系统,该系统结合了感知模块、运动功能模块和神经有限状态机模块,实现了同时听取和回答用户的能力,并通过控制令牌实现自主决策。
- 其它亮点论文使用自动质量评估模拟真实对话,证明该系统相比于半双工对话系统,平均减少了超过3倍的响应延迟,并在超过50%的交互中在500毫秒内作出回应。此外,该系统只使用了80亿参数,比最好的商业化语言模型对话系统提供了8%更高的中断精度。
- 最近的相关研究包括使用深度强化学习的对话系统和基于生成对抗网络的对话系统。
沙发等你来抢
去评论
评论
沙发等你来抢