Phi-4预训练居然用了40%的合成数据
合成数据未来可期,14B模型效果直逼70B,推理能力显著提升,🐮\x0a\x0a🆘 合成数据的优势: \x0a1.合成的数据更适合next- prediction的学习方式,真实的数据token之间的关系往往更复杂 \x0a2.合成数据往往已经是我们期待的格式,后续对齐更容易 \x0a\x0a🥇合成数据的指标维度:多样性、复杂度、准确率、CoT \x0a\x0a🎉重要结论: \x0a1.真实QA\x26gt;合成QA \x0a2.种子数据的正确性、干净程度非常重要 \x0a3.web类数据对于推理类指标的帮助较小 \x0a4.只在合成数据训练会导致知识类指标下降+更多幻觉 \x0a5.在合成数据过更多ep \x26gt; 用更多网页数据 \x0a\x0a📕 合成数据步骤: \x0a1.种子数据筛选 \x0a- 用高质量、多domain、复杂、偏教育的真实数据当种子,并分段再过滤 \x0a- 从网页中抽取出QA数据,生成多个答案进行投票,过滤掉只有一个答案(太简单)和多个答案(太模糊)的 \x0a- 根据网页内容合成QA数据 \x0a2.根据种子数据进行改写 \x0a3.使用模型生成critiques,并自我改进合成数据,提升推理、事实准确率 \x0a4.根据answer反向生成指令,再和原始指令对比,确保qa数据的一致性 \x0a5.对于推理类数据,会进行多轮测试
,
,
,
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢