- 简介Airbnb搜索的目标是为房客匹配最符合其出行需求的理想住宿。这是一个颇具挑战性的问题,因为热门搜索地点通常有约十万套可入住的房源,而房客自身的偏好也千差万别。此外,诸如“灵活日期搜索”等新功能的推出,进一步大幅增加了每次搜索查询所匹配的合格房源数量。因此,亟需一个复杂的检索系统,能够以低延迟提供高质量的候选结果,并与整体排序体系无缝集成。 本文详细介绍了我们为Airbnb搜索构建高效且高质量检索系统的历程。我们阐述了在像Airbnb这样的双边市场中实施基于嵌入(Embedding-Based Retrieval, EBR)的检索系统时所面临的关键独特挑战,例如房源库存的动态变化、包含多个阶段的冗长用户转化漏斗,以及多样化的前端产品形态。我们还分享了在建模检索问题时的独特见解、如何构建稳健的评估体系,以及在线服务架构中的设计取舍。该EBR系统已上线生产环境,并支持多种应用场景,包括常规搜索、灵活日期搜索,以及用于营销活动的推广邮件。通过A/B测试,该系统在预订转化率等关键指标上均展现出统计学意义上的显著提升。
-
- 图表
- 解决问题论文试图解决Airbnb搜索场景下大规模住宿匹配的高效检索问题,即如何在数十万可选房源中快速、准确地为用户找到符合其多样化偏好的理想住宿。这一问题具有挑战性,因为房源库存动态变化、用户行为路径长且复杂,并支持多种产品功能(如灵活日期搜索),传统检索方法难以兼顾质量与延迟。尽管检索是推荐系统中的经典问题,但在动态双边市场(如Airbnb)中实现高质量、低延迟的Embedding-Based Retrieval(EBR)仍是一个较新的实际挑战。
- 关键思路提出并部署了一套端到端的Embedding-Based Retrieval(EBR)系统,用于Airbnb的大规模搜索场景。核心思路是使用深度学习模型将用户查询和房源表示为高维向量,在向量空间中进行近似最近邻(ANN)搜索以实现高效召回。关键创新在于针对Airbnb业务特点进行建模设计,例如处理动态库存更新、与多阶段排序系统集成、支持灵活日期等复杂查询语义,并通过离线与在线指标联合优化确保检索质量。相比传统基于规则或浅层模型的检索方式,该EBR系统能更好捕捉用户意图与房源语义相似性。
- 其它亮点系统已在Airbnb生产环境上线,服务于常规搜索、灵活日期搜索及营销邮件推送等多个场景。通过A/B测试验证,系统显著提升了预订转化率等核心业务指标。论文强调了构建鲁棒评估体系的重要性,结合离线指标(如召回率)与在线实验(如点击率、转化率)。虽然未明确提及开源代码或公开数据集,但其工程实践(如在线服务架构设计、与排序系统的集成方式)对工业界具有重要参考价值。未来可深入研究方向包括:多模态嵌入(结合图像、文本)、实时更新机制优化、跨语言/跨区域泛化能力提升。
- 1. 'DSSM: Deep Structured Semantic Models for Web Search' by Huang et al. 2. 'Billion-scale Vector Embedding Indexing with Graph Sampling' by Mallia et al. 3. 'Embedding-based Retrieval in Facebook Search' by Khattab et al. 4. 'RocketQAv2: A Unified Embedding Approach for Open-Domain Question Answering' by Qu et al. 5. 'TwinBERT: Distilling Knowledge to Twin-Structure BERT Models for Efficient Retrieval' by Zhang et al.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流