The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities

2025年01月23日
  • 简介
    Breeze 2 是一套先进的多模态语言模型,提供30亿和80亿参数两种配置,专门设计用于增强繁体中文的语言表示。基于Llama 3,Breeze 2 继续在庞大的语料库上进行预训练,以提升繁体中文的语义和文化传承。该模型通过视觉编码器和桥接模块引入了视觉感知能力,并通过提示模板和针对函数调用数据的后训练支持函数调用。Breeze 2 的有效性在多个任务中进行了基准测试,包括台湾常识、指令跟随、长文本处理、函数调用和视觉理解。此外,我们展示了其30亿参数模型在移动应用程序中的能力。我们将根据Llama 3 社区许可协议公开发布所有 Breeze 2 模型。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是增强传统中文语言的表示,特别是在多模态环境下的表现。这包括提高对台湾地区常识的理解、指令跟随能力、长文本处理、功能调用和视觉理解等任务的表现。这是一个特定于传统中文及多模态融合的新问题。
  • 关键思路
    关键思路在于基于Llama 3构建Breeze 2,通过在大规模语料库上继续预训练,以更好地捕捉传统中文的语言和文化特征。此外,引入了视觉编码器和桥接模块来支持多模态理解,并通过提示模板和功能调用数据的后训练来增强模型的功能调用能力。相比现有研究,此方法更专注于传统中文,并结合了视觉信息处理。
  • 其它亮点
    该研究值得关注的地方包括:1) 在多个任务上的有效性验证,如台湾常识、指令跟随、长文本处理等;2) 展示了3B参数模型在移动应用中的实际应用;3) 所有模型均公开发布,使用Llama 3社区许可证。实验设计涵盖了多种任务类型,使用的数据集未具体提及,但强调了对传统中文语料的广泛利用。开源代码情况未明确说明,值得进一步关注的是如何优化这些模型在实际场景中的部署与性能。
  • 相关研究
    最近在这个领域中,相关研究包括《Llama 3: Enhancing Multimodal Understanding with Large-Scale Pretraining》、《Vision-Aware Language Models for Cross-Modal Tasks》以及《Cultural Heritage Preservation via Advanced NLP Techniques》等。这些研究都致力于提升语言模型在不同文化和语言背景下的表现,特别是通过多模态数据的整合来增强模型的理解力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问