清华大学基础模型研究中心将于5月15日下午18:30联合举办系列讲座第22期,复旦大学青年研究员:曹艺馨将以"超越基准:迈向可泛化评估之路" 为题作报告。
本次讲座对公众开放,欢迎校内外人士参加并共同探讨基础模型领域的前沿话题,校外人士请自行解决入校报备事宜。
报告时间:2025年5月15日(星期四) 18:30-19:30
报告地点:清华大学自强科技楼3层312B会议室
主 讲 人: 曹艺馨(复旦大学青年研究员)
主 持 人: 李涓子(清华大学计算机系教授)

报告信息
报告题目
超越基准:迈向可泛化评估之路
报告摘要
近年来,众多评估基准的提出极大地推动了大模型训练与应用,但这些基准依旧难以避免快速过时、数据污染与不公正比较等问题,逐渐成为人工智能“下半场”的核心瓶颈。本报告首先剖析传统评估范式在大模型时代的根本局限:受规模效应(scaling laws)驱动,模型能力可通过扩充数据、参数与算力持续跃升,而评估数据集出于成本与效率考虑无法同步扩张。于是,我们被迫用有限样本去衡量近乎无限的模型能力,即所谓的“评估泛化性”难题。
为破解此困境,可泛化评估范式的目标是预测并衡量模型尚未显性展现的潜在能力。为此,我们提出模型效用指数(Model Utilization Index, MUI),引入机制可解释性手段,对传统性能指标形成补充,从“效用”视角全面评估模型能力(涵盖数据集之外的潜在能力)。大规模实验表明,MUI 与性能呈反向关系,由此我们总结出在主流 LLM 中普遍存在的“效用定律”(Utility Law)。基于该定律,我们进一步推导出四条推论,分别针对训练判定、数据污染问题、模型比较公平性以及数据多样性等关键挑战。
Bio
曹艺馨
复旦大学青年研究员
曹艺馨,复旦大学青年研究员、博士生导师。于清华大学获得博士学位,曾先后在新加坡国立大学、南洋理工大学和新加坡管理大学担任博士后、研究助理教授和助理教授职位。国家级青年人才计划入选者、上海市青年领军人才计划入选者。研究领域为自然语言处理、知识工程和多模态信息处理,在国际知名会议和期刊发表论文80余篇,谷歌学术引用8600余次,并多次被领域内国际顶级会议评为口头报告。研究成果获得两项国际会议的最佳论文及提名,曾获Lee Kong Chian Fellowship、Google South Asia & Southeast Asia Awards和AI2000最具影响力学者奖的荣誉提名,Elsevier2024全球前2%顶尖科学家。担任多个国际会议演示程序主席、领域主席和国际期刊审稿人。
More info:
Homepage:https://taominer.github.io/
点击下方 关注我们

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢