报告主题:Meta-rater: 一种多维度的预训练数据筛选框架

报告日期:08月19日(周二) 15:00-16:00

报告要点:

上海人工智能实验室OpenDataLab团队与华东师范大学计算机学院机器学习团队联合提出的研究成果Meta-rater框架聚焦于提升大语言模型预训练的数据筛选效率,首次提出利用小规模代理模型,在仅约为1B模型训练开销1%的成本下,预测最优质量评分组合。相比以往依赖大规模试错的“黑箱式”方法,Meta-rater显著降低了算力开销,并通过多维度质量评估体系打破传统筛选标准的局限。这一方法不仅提高了大模型训练的性价比,也为“什么是高质量语料”提供了全新的理解洞察。


报告嘉宾:
庄薪霖,华东师范大学计算机学院硕士研究生,上海人工智能实验室OpenDataLab团队成员。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除