2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研究者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。
开源论坛代表了开源大模型最新进展,吸引了全球在AI开源领域最受瞩目的技术创新者和高影响力成果的负责人参与,支持协同创新和开放竞争,共同推动大模型时代的开源开放生态建设。今年的论坛特设有圆桌讨论环节,邀请行业专家就大模型开源和闭源之争进行深入交流,共同推进AI开源的突破与发展。
论坛主席
孟伟,Linux基金会AI & Data董事会主席、中兴通讯开源战略总监。从2016年开始,他牵头中兴人工智能领域的研究工作。他致力于AI和5G方向的研究,并在2018年被选为联合国国际电信联盟ITU-T ML5G WG3主席(机器学习应用于5G网络架构组)。同时他当选中国人工智能产业发展联盟总体组副组长,LF AI & Data基金会董事会成员,并于2023年和2024年成功当选LF AI & Data基金会董事会主席。
孟伟先生先后担任Linux基金会ODL项目的PTL及Adlik项目的mentor,并且在IETF及ITU-T立项及发布多项国际标准,涉及人工智能及网络方向。同时,他以第一作者获得中国及国际专利授权30余件。
LF AI & Data Foundation与PyTorch Foundation负责人
Dr. Ibrahim Haddad is Vice President of Strategic Programs (AI & Data) at the Linux Foundation, where he collaborates with the largest technology companies and open source projects. He's focused on facilitating a vendor-neutral environment for advancing the open source AI platform and empowering generations of open source innovators by providing a neutral, trusted hub for developers to code, manage, and scale open source technology projects. In this role, Haddad leads the LF AI & Data Foundation and the PyTorch Foundation. His work, and the work of both Foundations, support companies, developers, and the open source community in identifying and contributing to the technological projects that address industry and technology challenges for the benefit of all participants.
Before the Linux Foundation, he served as Vice President of R&D and the Founder and Head of the Global Open Source Division at Samsung Electronics based in Silicon Valley. During his tenure at Samsung, he established the global open source division, executed Samsung's open source strategy, launched internal and external R&D collaboration projects with universities and other organizations, supported M&A and corporate VC activities via SamsungNEXT, and represented Samsung in various open source foundations and consortia.
Throughout his career, Haddad held technology and portfolio management roles at Ericsson Research, the Open Source Development Labs, Motorola, Palm, Hewlett-Packard, and the Linux Foundation. He graduated with Honors from Concordia University (Montréal, Canada) with a Ph.D. in Computer Science. Haddad is fluent in Arabic, English, and French.
2、Data Governance with LLM-Driven Next-Gen Data Catalogs
报告简介:我们将在本次演讲中介绍 Datastrato 最新开源的由大模型驱动的下一代的元数据湖 Gravitino,对多云多区域数据环境中的 Data 和 AI 元数据进行统一管理和增强使用。Gravitino 的 Data Catalogs 专为管理整个数据环境(本地、多云、多区域、混合云)中所有结构化、半结构化和非结构化的数据而构建。
通过大模型和 NLP 驱动之下的 Data Catalogs,可以更好的理解各种异构数据中的关键信息,包括 PI、敏感数据、受监管数据、财务数据等。并按照类型、上下文、敏感度、法规、地理位置、标签和风险程度发现暗数据。无论数据位于何处,都能在关键数据点之间建立联系,确保对整个多云多区域环境中的数据关系有透彻的理解。
通过利用 Gravitino 的 Data Catalogs 加速数据和 AI 的融合,采用以数据为中心的方法管理多云数据时代的风险,解决数据合规难题和行业发展挑战。
我们将在本次演讲中介绍 Datastrato 最新开源的由大模型驱动的下一代的元数据湖 Gravitino,对多云多区域数据环境中的 Data 和 AI 元数据进行统一管理和增强使用。Gravitino 的 Data Catalogs 专为管理整个数据环境(本地、多云、多区域、混合云)中所有结构化、半结构化和非结构化的数据而构建。
通过大模型和 NLP 驱动之下的 Data Catalogs,可以更好的理解各种异构数据中的关键信息,包括 PI、敏感数据、受监管数据、财务数据等。并按照类型、上下文、敏感度、法规、地理位置、标签和风险程度发现暗数据。无论数据位于何处,都能在关键数据点之间建立联系,确保对整个多云多区域环境中的数据关系有透彻的理解。
通过利用 Gravitino 的 Data Catalogs 加速数据和 AI 的融合,采用以数据为中心的方法管理多云数据时代的风险,解决数据合规难题和行业发展挑战。
刘勋,Datastrato 公司的联合创始人和 COO,有着二十年的软件开发经验,之前在网易和滴滴负责大数据系统的研发和管理工作,也是 Apache 软件基金会的 Member 成员和孵化器导师,在 Apache 中孵化了多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员。
3、FlagOpen 2.0 大模型技术的“Linux”
林咏华,智源研究院副院长兼总工程师
林咏华现任北京智源人工智能研究院副院长兼总工程师, 主管大模型研究中心、人工智能系统及基础软件研究、产业生态合作等重要方向。IEEE女工程师亚太区领导组成员,IEEE女工程师协会北京分会的创始人。曾任IBM中国研究院院长,同时也是IBM全球杰出工程师,在IBM内部引领全球人工智能系统的创新。从事近20年的系统架构、云计算、AI系统, 计算机视觉等领域的研究。本人有超过50个全球专利,并多次获得ACM/IEEE最佳论文奖。获评2019年福布斯中国50位科技领导女性。
蒋涛,CSDN创始人、总裁
蒋涛,CSDN创始人&董事长,开放原子基金会理事;中国开源软件推进联盟COPU副主席;中国计算机学会CCF开源执行委员;中国软件行业协会智能应用分会主任;“科创中国”开源创新联合体副秘书长;中国专业开发者社区CSDN的创始人兼董事长。
5、BGE Embedding model 开源开放
刘政,北京智源人工智能研究院研究员,香港科技大学博士。历任微软亚洲研究院主管研究员,华为2012实验室技术专家。长期从事自然语言处理与信息检索领域的研究开发工作。主持研发性能领先的通用语义向量模型BGE,获得开源社区广泛应用。近年来在AI、NLP、IR相关领域发表顶级学术论文50余篇,并曾获得NeurIPS会议杰出论文奖等荣誉。
报告简介:自大模型火热以来,向量数据库系统能力迎来三个维度的显著变化:百亿级向量规模与千万级多租的支持能力,面向冷热数据的成本控制,从单一的语义表示与查询到多样化语义表示到复杂查询。本次报告将介绍最近一年以来 Zilliz 在这三个方向的产品与技术能力演进,包括:超大规模向量数据库系统架构、多粒度数据划分支持灵活的多租设计;基于多层存储的向量数据库形态,有效应对大规模数据的成本挑战;低比特量化、稀疏向量、多模态多向量等丰富的语义表示支持;过滤、聚合、关联等高级查询支持。
因为这波AI对于向量数据库的影响是系统性的,现在头部企业用户的大型场景基本都在和我们zilliz一起打磨。这个报告主要也是想和大家多分享一些新变化,所以并不是一两个技术点。
郭人通, Zilliz 合伙人和产品负责人,CCF 分布式计算与系统专委会常务委员。他专注于开发面向 AI 的高效并可扩展的数据分析系统,是 Milvus 项目和 Towhee 项目的系统架构师。其工作成果曾发表于 SIGMOD、VLDB、USENIX ATC、ICS、DATE、IEEE TPDS 等国际顶级会议与期刊。在加入 Zilliz 前,他曾就职于华为,是 ModelArts 平台核心研发成员。郭人通拥有华中科技大学计算机软件与理论博士学位。
报告简介:在本次演讲中,我们将介绍人工智能开源以及开放生态中,围绕全新计算形态的新型社区建设,包括昇思MindSpore、昇腾CANN等社区、openEuler+AI开源项目、云原生+AI开源项目,以及面向硬件兴趣开发者的新型开发板。
黄之鹏,华为AI开源生态总监。同时担任LFAI&Data基金会董事,启智OpenI社区、私密计算论坛等开源组织的技术委员会的委员职务, Kubernetes Policy工作组以及CNCF基金会安全兴趣组中Policy团队负责人, OpenStack Cyborg项目创始人, 并且带领团队参与ONNX, Kubeflow, Akraino等开源社区。曾经在OpenStack Summit、Cloud Native Con/KubeCon等国际顶级开源峰会进行过Keynote主题演讲,此外也在LinuxCon、RISC-V Summit等多个国际峰会进行议题分享。
Justin Mclean,Apache软件基金会Vice President,董事,Incubator项目负责人,Datastrato社区总监
报告简介:我们将分享CodeFuse代码大模型的研发背景、总体架构;介绍模型研发中数据&训练&推理等核心流程遇到的问题、对应的解决方案以及模型总体能力概况;展示代码大模型在蚂蚁内部应用场景;并探讨后续代码大模型发展的规划以及相关思考。
胡文,清华大学工学博士,从事成本以及性能优化的算法开发工作,目前带领团队在算法层、软件层、服务层三个维度优化大模型推理部署性能。
张俊霞|中国信息通信研究院知识产权与创新发展中心产业发展研究部主任,高级工程师
杨轩,Linux 基金会亚太区副总裁。拥有超过 20 年的软件行业经验,曾担任多家大型国际软件公司在大中华区的首席代表。他目前负责Linux基金会亚太区开源生态系统的发展,包括人工智能、边缘计算、开源合规和人才培养等领域。他在企业开源战略、AI应用、软件供应链安全、应用开发、企业数字化转型实践以及开源社区运营和治理方面拥有丰富的经验。
中国信息通信研究院知识产权与创新发展中心产业发展研究部主任
张俊霞,现任中国信息通信研究院知识产权与创新发展中心产业发展研究部主任,高级工程师。从事科技创新与知识产权研究20年,聚焦开源、新一代通信技术与互联网技术、基础软件、集成电路领域,支撑政府相关行业科技创新与知识产权政策研究,并为企业提供咨询服务。任职某国家重大专项知识产权课题负责人、双创基地创业导师等;主持或负责完成近百项省部级项目;发表三十多篇学术论文及会议报告。
杨熙,北京智源人工智能研究院智能评测负责人,北京大学博士,中科院计算所博士后。主要从事大模型评测方面的研究,主持建设的大模型评测平台“天秤”已经对国内外百余个大模型进行了评测;在主观题自动批改、口语能力评测及诊断等方面有深入的研究和成功的产品化经验。
本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

大会合作、咨询、赞助欢迎联系:press@baai.ac.cn
大会官网 https://baai.org/l/baai2024
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢