Speech-to-Retrieval (S2R): A new approach to voice search

谷歌推出新的语音搜索技术——Speech-to-Retrieval引擎，直接从语音中检索信息，无需先转为文本，提升搜索速度与准确性。传统语音搜索依赖自动语音识别（ASR）将语音转为文字再进行查询，但ASR的微小错误可能导致语义偏差，影响结果相关性。例如，搜索“《呐喊》”时，若ASR误识别为“尖叫”，则返回结果可能偏离原意。新模型跳过文本转换环节，实现端到端语音到结果的检索，减少误差累积，增强鲁棒性。该技术标志着语音搜索从级联模型向一体化检索的演进，提升用户体验，支持更广泛的应用场景，尤其在复杂或模糊发音下表现更优，推动语音交互向更自然、高效方向发展。

本专栏通过快照技术转载，仅保留核心内容