T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering
解决问题:本篇论文旨在解决科学问题回答中的链式思维推理问题,并提出了一种新的方法——T-SciQ,通过大型语言模型信号进行教学,生成高质量的链式思维推理信号,训练小型模型进行复杂多模态的链式思维推理。
关键思路:T-SciQ方法通过大型语言模型信号进行教学,生成高质量的链式思维推理信号,训练小型模型进行复杂多模态的链式思维推理。此外,还引入了一种新的数据混合策略,以产生更有效的教学数据样本。
其他亮点:本文的实验结果表明,T-SciQ方法在ScienceQA基准测试中实现了96.18%的准确率,超过了最强的微调基线4.5%。作者还提出了一种新的数据混合策略,以产生更有效的教学数据样本。本文的工作值得进一步深入研究。
关于作者:本文的主要作者是Lei Wang,Yi Hu,Jiabang He,Xing Xu,Ning Liu,Hui Liu和Heng Tao Shen。他们来自澳大利亚昆士兰科技大学和悉尼科技大学。Lei Wang曾在多个国际知名会议和期刊上发表过多篇论文,包括“Multi-Modal Video Concept Detection with Semantic Concept Correlation Mining”和“Cross-View Action Recognition via View Knowledge Transfer”. Heng Tao Shen是多个国际知名期刊和会议的编委,曾获得多个奖项,包括ACM SIGMM Technical Achievement Award。
相关研究:近期的相关研究包括“Multi-Modal Transformer for Video Question Answering”(作者:Xiaojie Wang,Jianlong Fu,Tao Mei,Houqiang Li),以及“Multimodal Transformer for Unaligned Multimodal Language Sequences”(作者:Yi Tay,Dara Bahri,Lala Li,Asli Celikyilmaz)。这些研究都探索了多模态场景下的链式思维推理问题。
论文摘要:本文介绍了一种名为T-SciQ的新方法,旨在通过大型语言模型信号来教授多模态的思维链推理,以解决科学问题回答任务。该方法生成高质量的思维链推理作为教学信号,并用于训练更小的模型以进行复杂的多模态推理。此外,作者还引入了一种新的数据混合策略,以产生更有效的教学数据样本,以解决高成本和标注不准确的问题。实验结果表明,T-SciQ方法在ScienceQA基准测试中取得了96.18%的准确率,超过了最强的微调基线4.5%,达到了新的最高水平。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢