Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks

2024年06月24日
  • 简介
    大型语言模型(LLMs)和大型视觉语言模型(LVLMs)一直处于人工智能领域的前沿,特别是在文本生成、视频字幕和问答等任务中。通常,更适合在更广泛的知识库或数据集上训练这些模型,以增加泛化能力,学习主题之间的关系并识别模式。相反,我们建议针对每种模态的任务提供特定的教学数据集,然后使用LORA微调模型的参数。通过我们的方法,我们可以消除与给定任务无关的所有噪声,同时确保模型生成的精度得到提高。对于这项工作,我们使用Video-LLaVA在没有转录的情况下生成烹饪视频的食谱。Video-LLaVA的多模态结构使我们能够将烹饪图像提供给其图像编码器,将烹饪视频提供给其视频编码器,并将一般烹饪问题提供给其文本编码器。因此,我们旨在消除与烹饪无关的所有噪声,同时提高我们的模型生成特定配料清单和详细说明的能力。因此,我们对Video-LLaVA进行微调的方法比基准Video-LLaVA在YouCook2数据集上提高了2%。虽然这似乎是一个较小的增长,但我们的模型使用的图像指令数据集仅为Video-LLaVA的2.5%,视频指令数据集为Video-LLaVA的23.76%。
  • 图表
  • 解决问题
    论文旨在通过提供特定于领域的指令数据集,使用LORA微调模型参数的方法,解决LLMs和LVLMs在特定任务中存在的噪声和泛化问题。作者使用Video-LLaVA模型生成没有字幕的烹饪视频的食谱,以提高模型的精度和生成能力。
  • 关键思路
    使用特定领域的指令数据集微调模型参数,以消除与任务无关的噪声,并提高模型的精度和生成能力。
  • 其它亮点
    论文使用Video-LLaVA模型生成没有字幕的烹饪视频的食谱,通过提供特定于领域的指令数据集微调模型参数,消除与任务无关的噪声,并提高模型的精度和生成能力。作者的方法在YouCook2数据集上比基线模型提高了2%的性能,同时使用的图像指令数据集仅为Video-LLaVA的2.5%,视频指令数据集仅为Video-LLaVA的23.76%。论文还探讨了相关工作,如LLMs和LVLMs的应用,以及其他生成模型的微调方法。
  • 相关研究
    相关研究包括使用LLMs和LVLMs进行文本生成,视频字幕和问答等任务的研究,以及其他生成模型的微调方法。例如,GPT-3是一种目前最先进的LLM,其在文本生成任务中表现出色。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论