✅内容简介:揭示了微服务架构下仍存在严重的污点类漏洞风险,并提出了首个面向微服务系统的跨服务静态漏洞检测方案,具有重要的研究价值与应用意义。

✅内容简介:S-Eval是一个新颖的自动化大语言模型安全评测框架,结合动态风险管理、专家测试LLM与安全评判LLM,能够实现自动化、高质量的提示生成与可解释风险研判,从而为精准对标法规要求、助力构建大模型安全治理体系、加速安全可控的大模型落地应用提供有力支撑。
🔥成果3:阿里安全联合清华、哈工大提出AIR框架:揭秘偏好对齐数据的「三驾马车」
✅内容简介:AIR框架系统性地剖析构成偏好数据集的三大核心要素:标注、指令与回复对,并通过控制变量实验,量化不同组件对于最终对齐效果的独立贡献。
🔥成果4:阿里安全联合清华推出STAIR框架: 从直觉到深思, 安全与智能兼得的安全对齐新范式
✅内容简介:推出安全对齐新范式,达到安全对齐与通用兼得的新SOTA,可以实现基础模型自身能力的自主进化。希望通过研究推动深度推理对齐技术在产业界的落地,助力人工智能技术的安全、可靠、可信赖和可用。
一场【端午谣言挑战赛】火热来袭~看你能不能火眼金睛,识破那些被“包裹”的粽子谣言!活动详情见本次推送第二篇文章






关注公众号发现更多干货❤️



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢