Human Latency Conversational Turns for Spoken Avatar Systems

简介

目前许多基于大型语言模型（LLM）的口语对话存在响应时间问题。Groq等一些尝试通过快速处理LLM来解决这个问题，但我们从认知心理学文献中知道，在人与人之间的对话中，响应往往发生在说话者完成讲话之前。如果我们希望保持人类对话延迟，那么任何LLM处理的延迟都是不可接受的。在本文中，我们讨论了一些方法，以实现近乎实时地理解话语并生成响应，从而使系统能够符合人类级别的对话转换延迟。这意味着说话者讲话的最后一部分的信息内容将丢失给LLM。使用Google自然问题（NQ）数据库，我们的结果显示，GPT-4可以在超过60%的时间内有效地填补问题末尾遗漏单词的上下文。我们还提供了一些话语的例子，并讨论了这种信息丢失对正在开发中的虚拟形象在LLM响应质量上的影响。这些结果表明，可以使用一个简单的分类器来确定一个问题是否语义上完整，或者需要使用填充语来在人类对话时间限制内生成响应。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在大语言模型驱动的口语对话中响应时间过长的问题，提出在接近实时的情况下理解话语并生成响应的方法。
关键思路

论文提出使用简单分类器来确定问题是否语义完整，从而在人类对话时间限制内生成响应。
其它亮点

使用Google自然问题数据库，结果显示GPT-4可以在超过60％的时间内有效地填充缺失的上下文。论文还提供了一些话语示例，并探讨了在信息丢失的情况下对LLM响应质量的影响。实验结果表明，简单分类器可以用于确定问题是否需要填充短语以在人类对话时间限制内生成响应。
相关研究

最近的相关研究包括Groq等试图通过加速LLM处理来解决响应时间问题的工作。

Human Latency Conversational Turns for Spoken Avatar Systems

提问交流

提问交流