NEW

On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Yue Huang ,

Chujie Gao ,

Siyuan Wu ,

Haoran Wang ,

Xiangqi Wang ,

Yujun Zhou ,

Yanbo Wang ,

Jiayi Ye ,

Jiawen Shi ,

Qihui Zhang ,

Yuan Li ,

Han Bao ,

Zhaoyi Liu ,

Tianrui Guan ,

Dongping Chen ,

Ruoxi Chen ,

Kehan Guo ,

Andy Zou ,

Bryan Hooi Kuen-Yew ,

Caiming Xiong ,

Elias Stengel-Eskin ,

Hongyang Zhang ,

Hongzhi Yin ,

Huan Zhang ,

Huaxiu Yao ,

Jaehong Yoon ,

Jieyu Zhang ,

Kai Shu ,

Kaijie Zhu ,

Ranjay Krishna ,

Swabha Swayamdipta ,

Taiwei Shi ,

Weijia Shi ,

Xiang Li ,

Yiwei Li ,

Yuexing Hao ,

Zhihao Jia ,

Zhize Li ,

Xiuying Chen ,

Zhengzhong Tu ,

Xiyang Hu ,

Tianyi Zhou ,

Jieyu Zhao ,

Lichao Sun ,

Furong Huang ,

Or Cohen Sasson ,

Prasanna Sattigeri ,

Anka Reuel ,

Max Lamparth ,

Yue Zhao ,

Nouha Dziri ,

Yu Su ,

Huan Sun ,

Heng Ji ,

Chaowei Xiao ,

Mohit Bansal ,

Nitesh V. Chawla ,

Jian Pei ,

Jianfeng Gao ,

Michael Backes ,

Philip S. Yu ,

Neil Zhenqiang Gong ,

Pin-Yu Chen ,

Bo Li ,

Xiangliang Zhang

热度 16

2025年02月20日

简介

生成式基础模型（GenFMs）已经崭露头角，成为变革性的工具。然而，它们的广泛应用引发了对多个维度的信任问题的关注。本文通过三项关键贡献提出了一个全面的框架来应对这些挑战。首先，我们系统地回顾了来自各国政府、监管机构的全球人工智能治理法律和政策，以及行业实践和标准。基于这一分析，我们提出了一套指导原则，用于生成式基础模型，这套原则是通过广泛的跨学科合作制定的，整合了技术、伦理、法律和社会视角。其次，我们介绍了TrustGen，这是第一个旨在评估多维度和多种模型类型（包括文本到图像、大型语言和视觉-语言模型）信任度的动态基准平台。TrustGen利用模块化组件——元数据整理、测试用例生成和情境变化——实现自适应和迭代评估，克服静态评估方法的局限性。通过使用TrustGen，我们揭示了在信任度方面取得的显著进展，同时也识别出持续存在的挑战。最后，我们深入讨论了生成式基础模型信任度面临的挑战和未来方向，揭示了信任度复杂且不断演变的本质，突显了效用与信任度之间的微妙权衡，并考虑了各种下游应用，识别了持续存在的挑战并为未来研究提供了战略路线图。这项工作建立了一个全面的框架，以推动生成式人工智能中的信任度提升，为将生成式基础模型更安全、更负责任地集成到关键应用中铺平了道路。为了促进社区的发展，我们发布了动态评估工具包。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决生成式基础模型（GenFMs）在广泛采用过程中面临的信任度问题，特别是在技术、伦理、法律和社会等多个维度上的挑战。这并不是一个全新的问题，但随着GenFMs的应用范围扩大，如何确保这些模型的可信性变得越来越重要。
关键思路

论文的关键思路是通过三个主要贡献来提升GenFMs的信任度：1) 系统地审查全球AI治理法律和政策，并提出一套跨学科合作制定的指导原则；2) 引入TrustGen平台，这是一个动态基准测试工具，可以评估不同类型模型的信任度；3) 提供对未来研究方向的深入讨论，强调了信任度与实用性之间的权衡以及不同应用场景下的持续挑战。这种方法不仅新颖，而且具有很强的实践意义。
其它亮点

亮点包括：1) TrustGen平台的设计和实现，它能够适应性地评估模型性能，克服静态评估方法的局限；2) 对全球AI治理法规和行业标准的全面回顾；3) 开源了用于动态评估的工具包，促进了社区内的进一步研究和发展；4) 深入探讨了信任度的复杂性和演变特性，指出了未来研究的重点领域。
相关研究

近期相关研究包括但不限于：《构建可信赖的人工智能系统》、《面向未来的AI治理框架》、《大型语言模型的安全性和可靠性评估》等。这些研究都围绕着提高AI系统的安全性和可靠性展开，而本论文则特别关注于生成式模型的信任度问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问