TL;DR
发布大规模中英文训练数据集MTP(massive text pairs),用以支撑开源社区训练通用语义向量模型 响应开发者社区,智源通用语义向量模型BGE进一步更新:模型升级,功能模块更多,表现更加稳健
伴随着大模型开发和应用的火热发展,作为大模型核心基础组件的Embedding重要性愈发凸显。智源于一月前发布的开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。 当前,BGE 快速迭代推出 1.5 版本并公布多项更新,其中,BGE 首次开源3亿条大规模训练数据,帮助社区训练同类模型,推动该领域技术发展。
MTP 数据集链接:https://data.baai.ac.cn/details/BAAI-MTP
BGE 模型链接:https://huggingface.co/BAAI
BGE 代码仓库:https://github.com/FlagOpen/FlagEmbedding
3亿中英向量模型训练数据开放
业界语义向量模型训练数据首次开源,达3亿中英文数据。
BGE的出色能力很大程度上源于其大规模、多样化的训练数据。此前,业界同行鲜有发布同类数据集。在本次更新中,智源首次将BGE的训练数据向社区予以开放,为推动此类技术进一步发展打下了基础。
此次发布的数据集MTP由总计3亿条中英文关联文本对构成;其中,中文记录达1亿条,英文数据达2亿条。数据收集自Wudao Corpora、Pile、DuReader、Sentence Transformer等语料,经过必要的采样、抽取、清洗获得。
详情参见MTP数据集:
https://data.baai.ac.cn/details/BAAI-MTP
https://data.baai.ac.cn/details/BAAI-MTP
MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。
响应开发者社区,BGE功能升级
基于社区反馈,BGE在其1.0的版本之上进行了进一步优化,其表现更加稳健、出色。具体升级如下:
-
模型更新。BGE-*-zh-v1.5缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数temperature至0.02,使得相似度数值更加平稳 。
-
新增模型。开源BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。
-
新增功能。BGE1.1增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。
值得一提的是,日前,智源联合Hugging Face发布了一篇技术报告,报告提出用 C-Pack 增强中文通用语义向量模型。
《C-Pack: Packaged Resources To Advance General Chinese Embedding》:
《C-Pack: Packaged Resources To Advance General Chinese Embedding》:
https://arxiv.org/abs/2309.07597
在开发者社区收获高热度
BGE发布自以来受到大模型开发者社区关注,目前Hugging Face 累计下载量达到数十万,且已被 LangChain、LangChain-Chatchat、llama_index 等知名开源项目集成。
Langchain官方、LangChain联合创始人兼首席执行官Harrison Chase、Deep trading 创始人Yam Peleg等社区大V对BGE表示关注。

坚持开源开放,促进协同创新,智源大模型技术开体系FlagOpen BGE 新增FlagEmbedding新版块,聚焦于Embedding技术和模型,BGE 是其中明星开源项目之一。FlagOpen致力于打造大模型时代的 AI 技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。
欢迎社区伙伴,给我们多提意见
扫下方二维码填写调研问卷
期待你的反馈~
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢