Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances

2024年05月21日
  • 简介
    本文介绍了一种新的无监督多模态聚类方法(UMC),为理解人类语言和增强人机交互中多模态话语的语义至关重要。现有的方法在利用非语言信息区分无监督场景下的复杂语义方面存在局限性。UMC引入了一种独特的方法来构建多模态数据的增强视图,然后使用这些视图进行预训练,以建立良好初始化的表示,以便进行后续的聚类。提出了一种创新策略,通过每个样本最近邻的密度来衡量,动态选择高质量样本作为表示学习的指导。此外,它配备了自动确定每个簇中top-K参数的最佳值以细化样本选择的能力。最后,使用高质量和低质量样本来学习有助于有效聚类的表示。我们在基准多模态意图和对话行为数据集上建立了基线。UMC在聚类指标上显示出2-6%的显着改进,超过了现有最先进的方法,标志着该领域的第一次成功尝试。完整的代码和数据可在https://github.com/thuiar/UMC上获得。
  • 图表
  • 解决问题
    本论文旨在解决在无监督情况下利用非语言信息来识别复杂语义的多模态聚类问题,该问题在人机交互中具有重要意义。
  • 关键思路
    论文提出了一种新颖的无监督多模态聚类方法(UMC),其关键思路是通过构建多模态数据的增强视图进行预训练,以建立良好初始化的表示,然后采用动态选择高质量样本作为表示学习的指导,并自动确定每个聚类中的top-K参数的最佳值来优化样本选择,最后使用高质量和低质量样本来学习有助于有效聚类的表示。
  • 其它亮点
    论文在基准多模态意图和对话行为数据集上建立了基线。UMC显示出比现有最先进方法在聚类指标上提高2-6%的显着改进,标志着该领域的首次成功尝试。此外,论文还提供了完整的代码和数据。
  • 相关研究
    最近的相关研究包括:1)多模态表示学习方法;2)无监督聚类方法;3)利用非语言信息进行语义理解的方法。相关论文包括:1)《Multimodal Deep Learning: A Survey》;2)《Unsupervised Clustering With Deep Learning: A Review》;3)《Multimodal Sentiment Analysis: A Survey》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论