讲座预告｜超越基准：迈向可泛化评估之路

清华大学基础模型研究中心将于5月15日下午18:30联合举办系列讲座第22期，复旦大学青年研究员：曹艺馨将以"超越基准：迈向可泛化评估之路" 为题作报告。

本次讲座对公众开放，欢迎校内外人士参加并共同探讨基础模型领域的前沿话题，校外人士请自行解决入校报备事宜。

报告时间：2025年5月15日（星期四） 18:30-19:30

报告地点：清华大学自强科技楼3层312B会议室

主讲人：曹艺馨（复旦大学青年研究员）

主持人：李涓子（清华大学计算机系教授）

报告信息

报告题目

超越基准：迈向可泛化评估之路

报告摘要

近年来，众多评估基准的提出极大地推动了大模型训练与应用，但这些基准依旧难以避免快速过时、数据污染与不公正比较等问题，逐渐成为人工智能“下半场”的核心瓶颈。本报告首先剖析传统评估范式在大模型时代的根本局限：受规模效应（scaling laws）驱动，模型能力可通过扩充数据、参数与算力持续跃升，而评估数据集出于成本与效率考虑无法同步扩张。于是，我们被迫用有限样本去衡量近乎无限的模型能力，即所谓的“评估泛化性”难题。

为破解此困境，可泛化评估范式的目标是预测并衡量模型尚未显性展现的潜在能力。为此，我们提出模型效用指数（Model Utilization Index, MUI），引入机制可解释性手段，对传统性能指标形成补充，从“效用”视角全面评估模型能力（涵盖数据集之外的潜在能力）。大规模实验表明，MUI 与性能呈反向关系，由此我们总结出在主流 LLM 中普遍存在的“效用定律”（Utility Law）。基于该定律，我们进一步推导出四条推论，分别针对训练判定、数据污染问题、模型比较公平性以及数据多样性等关键挑战。

Bio

曹艺馨

复旦大学青年研究员

曹艺馨，复旦大学青年研究员、博士生导师。于清华大学获得博士学位，曾先后在新加坡国立大学、南洋理工大学和新加坡管理大学担任博士后、研究助理教授和助理教授职位。国家级青年人才计划入选者、上海市青年领军人才计划入选者。研究领域为自然语言处理、知识工程和多模态信息处理，在国际知名会议和期刊发表论文80余篇，谷歌学术引用8600余次，并多次被领域内国际顶级会议评为口头报告。研究成果获得两项国际会议的最佳论文及提名，曾获Lee Kong Chian Fellowship、Google South Asia & Southeast Asia Awards和AI2000最具影响力学者奖的荣誉提名，Elsevier2024全球前2%顶尖科学家。担任多个国际会议演示程序主席、领域主席和国际期刊审稿人。

More info:

Homepage:https://taominer.github.io/

点击下方关注我们

内容中包含的图片若涉及版权问题，请及时与我们联系删除

讲座预告｜超越基准：迈向可泛化评估之路

评论