由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第二场即将开始!
本期我们将聚焦 Code Bench,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨代码能力的真实象限。
📅 直播时间:2025 年 7 月 3 日( 周四 )19:30 - 21:30(北京时间)
嘉宾阵容 & 分享议题
香港中文大学 MMLab 零年级博士生,本科毕业于清华大学信息与计算科学专业,同时为上海人工智能实验室实习生,主要研究方向为大语言模型在科学领域的应用。中学及本科期间积极参与编程竞赛(如 NOI、ICPC),并获得多项奖项。
简要概述:
CPRet 针对编程竞赛基准中重复或高度相似问题日益增多的问题,构建了一个全新的检索式评测基准 CPRet。它不仅提供了高质量的训练数据和测试集,还开发了专用检索模型,并首次通过分析揭示了问题相似性会显著“夸大”模型通过率,为构建更公平的编程能力评测敲响了警钟。
分享主题:
CPRet:模型是“背题”还是真懂算法?揭示相似问题下的性能“通胀”
论文地址:
https://huggingface.co/papers/2505.12925
现为哥伦比亚大学计算机科学系博士后研究员,2024 年 8 月于德克萨斯大学达拉斯分校(UTD)获得博士学位。他的研究方向聚焦于软件工程与机器学习的交叉,致力于提升机器学习系统的可信性与效率 (SE4AI),并推动机器学习在实际软件工程场景中的应用落地 (AI4SE)。为实现这一目标,他提出了涵盖机器学习全流程的系统性解决方案,协同推进模型算法(ESEC/FSE 2020、ASE 2022、CVPR 2022、ESEC/FSE 2022、ACL 2023、FSE 2024(b)、Usenix Security 2025)、系统软件栈(ISSTA 2023、IJCAI 2022)与数据集(CVPR 2023、FSE 2024(a)、ICML 2025)的创新研究。基于这些研成果,他的博士论文荣获 2024 年度 David Daniel Thesis Award。
简要概述:
DyCodeEval 是一套在数据污染背景下动态评测代码大模型推理能力的新型基准套件。该方法借鉴“蜕变测试”思想,利用多智能体自动生成与原题核心逻辑相同但描述迥异的变体问题。实验证明,DyCodeEval 能有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。
分享主题:
DyCodeEval:动态“换皮”编程题,破解数据污染下的模型“高分幻觉”
论文地址:
https://huggingface.co/papers/2503.04149
新加坡国立大学计算机学院的博士生,由梁振凯教授和 Roland Yap 教授共同指导,研究方向为系统安全。他与 Manuel Rigger 教授合作进行模糊测试研究。在攻读博士学位之前,他于新加坡国立大学获得硕士学位,并于复旦大学获得学士学位。
简要概述:
OSS-Bench 一个能够从真实世界的开源软件中自动构建大规模、实时评测任务的基准生成器。该工作通过让 LLM 直接修改 PHP、SQLite 等复杂项目的核心函数,并利用编译、测试、内存安全三大自然指标进行评估,有效避免了静态数据集的过拟合问题,并深入揭示了 LLM 在底层代码安全方面的短板。
分享主题:
OSS-Bench:告别静态数据集!从真实开源项目中“活捉”高难度编程任务
论文地址:
https://huggingface.co/papers/2505.12331
香港中文大学(深圳)数据科学学院的博士生,指导老师为贺品嘉教授,研究方向为 Coding Agent 和Automated Testing。他的研究方向致力于通过智能化测试来提高软件质量和软件自动化评估能力。
简要概述:
UTBoost 旨在解决广泛使用的代码生成基准 SWE-Bench 测试用例不足的挑战。通过引入 LLM 驱动的测试用例生成器 UTGenerator,UTBoost 能够自动增强测试套件,从而识别出那些看似通过测试但并未真正解决问题的错误代码补丁,大幅提升了 Benchmark 的评估严谨性,并修正了 40.9% 的 SWE-Bench Lite 榜单和 24.4% 的 SWE-Bench Verified 榜单。
分享主题:
UTBoost:修复“漏风”的 SWE-Bench,揪出 345 个“假通过”补丁
论文地址:
https://huggingface.co/papers/2506.09289
为了更好的和社区互动,我们在本次直播中加入了圆桌讨论环节。欢迎在文章下方的评论区留下你的问题,直播主持人将带着问题与嘉宾互动,带来最前沿的洞见。
讨论主题: 模型 Code 能力发展趋势
观看直播
我们特别开设了交流群,分享作者也已入群,欢迎扫码加入,共同探讨交流!

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢