随着电子商务的快速扩张,越来越多的消费者已经习惯于通过直播购买商品。准确识别销售人员销售的产品,即直播产品检索(LPR),是一个基本且艰巨的挑战。在现实场景中,LPR任务涵盖了三个主要困境:1)从背景中存在的干扰产品中识别出意图购买的产品;2)视频图像异质性,即直播中展示的产品外观通常与商店中标准化的产品图像存在显著偏差;3)商店中有许多具有微妙视觉差异的令人困惑的产品。为了解决这些挑战,我们提出了时空图多模网络(SGMN)。首先,我们采用文本引导的注意机制,利用销售人员的口头内容引导模型关注意图购买的产品,强调它们在杂乱的背景产品中的显著性。其次,我们进一步设计了一个长程时空图网络,实现实例级交互和帧级匹配,解决了视频图像异质性带来的错位问题。第三,我们提出了多模态难例挖掘,帮助模型在视频图像文本领域中区分具有细粒度特征的高度相似的产品。通过广泛的定量和定性实验,我们展示了我们提出的SGMN模型的卓越性能,超过了现有技术方法的很大程度。该代码可在https://github.com/Huxiaowan/SGMN上获得。