AI热门论文

Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval

2024年07月23日

随着电子商务的快速扩张，越来越多的消费者已经习惯于通过直播购买商品。准确识别销售人员销售的产品，即直播产品检索（LPR），是一个基本且艰巨的挑战。在现实场景中，LPR任务涵盖了三个主要困境：1）从背景中存在的干扰产品中识别出意图购买的产品；2）视频图像异质性，即直播中展示的产品外观通常与商店中标准化的产品图像存在显著偏差；3）商店中有许多具有微妙视觉差异的令人困惑的产品。为了解决这些挑战，我们提出了时空图多模网络（SGMN）。首先，我们采用文本引导的注意机制，利用销售人员的口头内容引导模型关注意图购买的产品，强调它们在杂乱的背景产品中的显著性。其次，我们进一步设计了一个长程时空图网络，实现实例级交互和帧级匹配，解决了视频图像异质性带来的错位问题。第三，我们提出了多模态难例挖掘，帮助模型在视频图像文本领域中区分具有细粒度特征的高度相似的产品。通过广泛的定量和定性实验，我们展示了我们提出的SGMN模型的卓越性能，超过了现有技术方法的很大程度。该代码可在https://github.com/Huxiaowan/SGMN上获得。

CV

MM

PDF

解读

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

2024年07月02日

最近，许多研究表明，仅使用OCR生成的文本和空间布局与大型语言模型（LLM）结合可以高效地完成文档理解任务。然而，现有的将空间布局与文本结合的方法存在一些限制，例如产生过长的文本序列或未能充分利用LLM的自回归特性。在本研究中，我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交错方法，用于文档理解。具体而言，LayTextLLM将每个边界框投影到单个嵌入中，并将其与文本交错，有效避免了长序列问题，同时利用了LLM的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互，而且在关键信息提取（KIE）和视觉问答（VQA）方面表现出了增强的性能。全面的基准评估显示出显著的改进，与先前最先进的文档理解MLLM相比，在KIE任务上提高了27.2％，在VQA任务上提高了12.0％，并且在KIE任务上比其他SOTA OCR基于LLM的方法提高了15.1％。

NLP

AI

MM

PDF

解读

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

Kiyoharu Aizawa ,

2024年04月22日

识别漫画角色和预测对话者对于漫画处理任务（如语音生成或翻译）至关重要。然而，由于漫画角色因漫画标题而异，因此像训练角色分类器这样的监督学习方法需要为每个漫画标题提供特定注释，这是不可行的。这促使我们提出了一种新颖的零样本方法，使机器能够仅基于未注释的漫画图像识别角色并预测说话者姓名。尽管这些任务在现实应用中非常重要，但由于故事理解和多模态集成的挑战，它们在很大程度上仍未得到探索。最近的大型语言模型（LLM）在文本理解和推理方面表现出了极强的能力，但它们在多模态内容分析方面的应用仍然是一个开放问题。为了解决这个问题，我们提出了一个迭代的多模态框架，这是第一个同时用于角色识别和说话者预测任务的多模态信息的框架。我们的实验证明了所提出的框架的有效性，并为这些任务建立了强大的基线。此外，由于我们的方法不需要训练数据或注释，因此可以直接在任何漫画系列上使用。

MM

CV

PDF

解读