清华大学基础模型研究中心将于5月15日下午18:30联合举办系列讲座第22期,复旦大学青年研究员:曹艺馨将以"超越基准:迈向可泛化评估之路" 为题作报告。


本次讲座对公众开放,欢迎校内外人士参加并共同探讨基础模型领域的前沿话题,校外人士请自行解决入校报备事宜。


报告时间:2025年5月15日(星期四) 18:30-19:30

报告地点:清华大学自强科技楼3层312B会议室   

主 讲 人:  曹艺馨(复旦大学青年研究员)

主 持 人:  李涓子(清华大学计算机系教授)



报告信息


报告题目 

超越基准:迈向可泛化评估之路


报告摘要

        近年来,众多评估基准的提出极大地推动了大模型训练与应用,但这些基准依旧难以避免快速过时、数据污染与不公正比较等问题,逐渐成为人工智能“下半场”的核心瓶颈。本报告首先剖析传统评估范式在大模型时代的根本局限:受规模效应(scaling laws)驱动,模型能力可通过扩充数据、参数与算力持续跃升,而评估数据集出于成本与效率考虑无法同步扩张。于是,我们被迫用有限样本去衡量近乎无限的模型能力,即所谓的“评估泛化性”难题。

        为破解此困境,可泛化评估范式的目标是预测并衡量模型尚未显性展现的潜在能力。为此,我们提出模型效用指数(Model Utilization Index, MUI),引入机制可解释性手段,对传统性能指标形成补充,从“效用”视角全面评估模型能力(涵盖数据集之外的潜在能力)。大规模实验表明,MUI 与性能呈反向关系,由此我们总结出在主流 LLM 中普遍存在的“效用定律”(Utility Law)。基于该定律,我们进一步推导出四条推论,分别针对训练判定、数据污染问题、模型比较公平性以及数据多样性等关键挑战。

Bio

曹艺馨

复旦大学青年研究员

曹艺馨,复旦大学青年研究员、博士生导师。于清华大学获得博士学位,曾先后在新加坡国立大学、南洋理工大学和新加坡管理大学担任博士后、研究助理教授和助理教授职位。国家级青年人才计划入选者、上海市青年领军人才计划入选者。研究领域为自然语言处理、知识工程和多模态信息处理,在国际知名会议和期刊发表论文80余篇,谷歌学术引用8600余次,并多次被领域内国际顶级会议评为口头报告。研究成果获得两项国际会议的最佳论文及提名,曾获Lee Kong Chian Fellowship、Google South Asia & Southeast Asia Awards和AI2000最具影响力学者奖的荣誉提名,Elsevier2024全球前2%顶尖科学家。担任多个国际会议演示程序主席、领域主席和国际期刊审稿人。

More info:

Homepage:https://taominer.github.io/


点击下方 关注我们


内容中包含的图片若涉及版权问题,请及时与我们联系删除