SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

向作者提问

NEW

简介

当前的大语言模型（LLMs）和语音语言模型（SLMs）只有在用户说完之后才开始思考并采取行动。这使得模型无法在用户说话过程中进行交互，同时由于必须等待输入完全结束才能开始思考，导致响应延迟较高。因此，在强调实时性和低延迟的语音到语音交互中，等到接收完整输入后再进行思考的方式并不适用。我们注意到，人类在交流中会自然地“边听边想”，基于这一观察，本文提出了SHANKS——一种通用的推理框架，使SLM能够在聆听用户输入的同时生成无声的思维链式推理。SHANKS将输入语音按固定时长分块流式传输，一旦接收到一个语音块，便立即基于此前所有已接收的语音内容及推理结果生成无声的内部推理，而此时用户仍在继续讲话。SHANKS利用这些无声推理来判断是否应打断用户发言，并决定是否调用工具以完成任务。我们通过两个场景展示了SHANKS在提升用户与SLM实时交互方面的优势：（1）当用户逐步陈述一个数学问题的解法时，SHANKS能够边听边推理，并在用户出错时及时打断，其打断准确率比不进行思考即打断的基线方法高出37.1%；（2）在工具增强型对话中，SHANKS能在用户尚未说完之前就完成56.9%的工具调用任务。总体而言，SHANKS推动了语言模型从“仅在说话间隙思考”向“在整个对话过程中持续思考”的转变。SHANKS的动画演示可访问 https://d223302.github.io/SHANKS/ 查看。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前的大型语言模型（LLMs）和口语语言模型（SLMs）只能在用户说完话之后才开始思考和行动，这种‘听后想’模式导致响应延迟高，无法实现实时低延迟的语音对话交互。这在需要即时反馈的场景中成为瓶颈，例如实时纠错或工具调用。论文试图验证：是否可以让模型像人类一样在‘听的同时思考’，从而实现更自然、低延迟的语音交互。这是一个随着语音智能助手发展而日益突出的新问题。
关键思路

提出SHANKS框架，使SLM能够在用户说话过程中持续进行‘无声的’思维链（chain-of-thought）推理。该框架将输入语音流划分为固定时长的片段，每收到一个片段即基于此前所有语音和内部推理生成新的隐式推理状态，并据此决定是否中断用户或提前调用工具。关键创新在于将‘思考’从‘响应阶段’前置到‘倾听阶段’，实现真正的边听边想，模仿人类的认知过程。
其它亮点

论文在两个任务上验证了SHANKS的有效性：1）在数学解题场景中，模型可实时检测用户错误并及时打断，相比无思考基线，中断准确率提升37.1%；2）在工具增强对话中，56.9%的工具调用可在用户说完前完成。实验设计合理，强调真实交互延迟优化。虽然未明确提及开源代码，但项目主页（https://d223302.github.io/SHANKS/）提供动画演示，有助于理解机制。未来可探索该框架在多轮对话管理、跨模态推理中的扩展应用。
相关研究

1. 'Listen, Think, and Act: Real-Time Interactive Speech with Latency-Aware Models' (ICML 2023) 2. 'Streaming Language Models: Continuous Generation with Contextual Lookahead' (ACL 2023) 3. 'In-Context Learning for Spoken Dialogue Systems' (INTERSPEECH 2022) 4. 'Interruptibility in Human-Machine Conversation: A Study of User Expectations' (CHI 2021) 5. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问