大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。



企业动态


苹果发布 Apple Intelligence 公测版


据 The Verge 报道,苹果已发布了 iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 的公开测试版,其中包括一些 Apple Intelligence 功能,如文本重写工具和用于从照片中删除对象的“清理”工具等。目前,在手机端,只有 iPhone 15 Pro 以及 iPhone 16 和 iPhone 16 Pro 可访问 Apple Intelligence 功能。


另外,据 TechCrunch 报道,苹果已确定将于 2025 年推出 Apple Intelligence 的更多语言版本,包括英语(印度)、英语(新加坡)、德语、意大利语、韩语、葡萄牙语、越南语,以及尚未公布的“其他语言”。


Sam Altman 将退出 OpenAI 安全委员会


OpenAI 周一表示,首席执行官 Sam Altman 将离开董事会的 Safe and Security Committee,该委员会将完全由独立董事会成员组成,卡内基梅隆大学机器学习系主任 Zico Kolter 将担任主席。新委员会将听取有关主要大模型的简报,且(连同全体董事会)有权推迟新模型的发布。OpenAI 表示,新委员会审查了 o1 模型的安全性,将其被评为“中等风险”。


Runaway 发布视频生成模型 API


据 TechCrunch 报道,Runway 日前推出了一项 API 服务,允许开发人员和组织将该公司的人工智能(AI)生成模型构建到第三方平台、应用程序和服务中。随着 这一 API 的初步推出,Runway 成为了首批通过 API 提供视频生成模型的人工智能厂商之一。Runway 表示,包括营销公司 Omnicom 在内的“值得信赖的战略合作伙伴”已经在使用这一 API。 


谷歌计划改进 Google Search,标记“AI 处理图片”


据 TechCrunch 报道,谷歌计划对 Google Search 进行改进,以便更清楚地显示搜索结果中由人工智能(AI)生成和编辑的图片。值得注意的是,只有包含 “C2PA 元数据 ”的图片才会被标记为被人工智能处理的图片。C2PA,即“内容来源和真实性联盟”,是一个制定技术标准的组织,由于 C2PA 在采用和互操作性方面面临着很多挑战,这一标准尚未得到广泛采用。


《饥饿游戏》出品公司计划在影视创作中使用生成式 AI


据《华尔街日报》报道,《饥饿游戏》、《暮光之城》出品公司狮门娱乐(Lions Gate Entertainment)计划开始在其新电影和电视节目的创作中使用生成式人工智能(AI),这是这一新兴技术在好莱坞发展的一个重要标志。该公司已同意让人工智能初创公司 Runway 使用其内容库,以换取一个新的、定制的人工智能模型,供工作室在剪辑和制作过程中使用。


T-Mobile 将与 OpenAI 建立由 agent 驱动的客户服务系统


借助 OpenAI 的 API 和其 o1 模型,T-Mobile 和 OpenAI 将建立一个由智能体(agent)驱动的新客户服务系统——IntentCX,其在分析客户服务呼叫记录和识别可以更好解决的痛点方面已初见成效。OpenAI 首席执行官 Sam Altman 在 T-Mobile 活动上表示:“我们对下一代模型感到兴奋的众多事情之一就是我们可以为个性化做些什么。”


微软与沃达丰签署协议,在 Excel 中添加 AI 助手


据彭博社报道,微软与沃达丰集团(Vodafone Group Plc)签署了一项在 Office 中使用人工智能(AI)助手的协议,并发布了一系列新的人工智能工具,旨在帮助员工创建 Excel 图表、确定电子邮件的优先级以及相互协作。沃达丰将购买 68000 个企业版人工智能助手(即 Copilots)的许可证。



技术前瞻


Anthropic 提出“上下文检索”,检索失败次数减少 67%


人工智能(AI)模型要想在特定环境中发挥作用,通常需要获取背景知识。例如,客户支持聊天机器人需要了解具体业务的相关知识,而法律分析机器人则需要了解大量的过往案例。


当前,开发人员通常使用检索增强生成(RAG)来增强人工智能模型的知识。问题在于,传统的 RAG 解决方案在对信息进行编码时会移除上下文,这往往会导致系统无法从知识库中检索到相关信息。


在这项工作中,Anthropic 团队提出了一种能显著改进 RAG 检索步骤的方法——上下文检索(Contextual Retrieval)。这种方法可以将检索失败的次数减少 49%,如果与重排(reranking)相结合,则可以减少 67%。检索准确率的提高会直接转化为下游任务的更佳表现。



大模型玩《黑神话:悟空》,完成 90% 简单、中等水平战斗


在这项工作中,阿里团队以《黑神话:悟空》作为研究平台,探索了现有视觉语言模型(VLM)在需要纯视觉输入和复杂动作输出的场景中的能力边界。他们在游戏中定义了 12 项任务,其中 75% 以战斗为主,并将几种 SOTA 视觉语言模型纳入这一基准。此外,他们还提出了一个 VARP(视觉动作角色扮演)智能体框架,由动作规划系统和视觉轨迹系统组成。这一框架展示了执行基本任务的能力,并在 90% 的简单和中等水平的战斗场景中取得了成功。



小红书推出 StoryMaker:实现“文生图”的特征整体一致


在这项工作中,小红书团队推出了 StoryMaker,其不仅能保持面部的一致性,还能保持服装、发型和身体的一致性,从而通过一系列图像进行故事的创作。StoryMaker 融合了基于面部身份的条件和裁剪后的人物图像。具体来说,他们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪后的人物图像整合在一起,从而获得鲜明的人物特征。为了防止多个人物和背景混杂在一起,他们使用带有分割掩码的 MSE 损失分别限制不同人物和背景的交叉注意力影响区域。此外,他们以姿势为条件训练生成网络,从而促进与姿势的解耦。他们还采用了 LoRA 来提高保真度和质量。



微软新研究:通过向量检索加速长上下文 LLM 推断 


在这项工作中,来自 Microsoft Research、上海交通大学和复旦大学的研究团队提出了一种加速注意力计算的无需额外训练(training-free)方法——RetrievalAttention。为了利用注意力的动态稀疏特性,RetrievalAttention 在 CPU 内存中的 KV 向量上建立近似近邻搜索(ANNS)索引,并在生成过程中通过向量搜索检索最相关的向量,大大降低了长上下文 LLM 的推理成本和对 GPU 内存的要求,同时保持了模型的准确性。特别是,在具有 8B 参数的 LLM 中,RetrievalAttention 只需 16GB GPU 内存即可提供 128K token,在单个英伟达 RTX4090(24GB)上生成一个 token 只需 0.188 秒。



Playground v3:利用深度融合 LLM 改进文本到图像对齐 


Playground Research 团队推出了文本到图像模型 Playground v3(PGv3),其在文本提示、复杂推理和准确文本渲染方面表现出色。用户偏好研究表明,PGv3 在贴纸、海报和徽标设计等常见设计应用中具有超人的图形设计能力。此外,PGv3 还引入了新功能,包括精确的 RGB 颜色控制和强大的多语言理解能力。



MIT 推出 AgentTorch:将 ABM 扩展到数百万智能体 


在这项工作中,麻省理工学院媒体实验室推出了 AgentTorch——一个可以将基于智能体的建模(ABM)扩展到数百万智能体的框架,同时使用大语言模型(LLMs)捕捉高分辨率智能体行为。他们将 LLM 作为 ABM 智能体的效用基准,探索模拟规模与个体智能体之间的权衡。他们比较了基于启发式和 LLM 智能体的不同智能体架构在预测疾病和失业率方面的性能。此外,他们还展示了 AgentTorch 在回顾、反事实和前瞻性分析方面的能力,强调了自适应智能体行为如何帮助克服政策设计中历史数据的局限性。



英伟达推出医学成像人工智能 MAISI 


医学成像分析面临着数据稀缺、标注成本高和隐私问题等挑战。为应对这些挑战,来自英伟达的研究团队及其合作者推出了用于合成成像的医学人工智能(MAISI),这是一种利用扩散模型生成合成三维计算机断层扫描(CT)图像的创新方法。通过结合 ControlNet,MAISI 可以将器官分割(包括 127 个解剖结构)作为附加条件进行处理,并生成可用于各种下游任务的精确标注合成图像。


实验结果表明,MAISI 能够为不同区域和条件生成逼真、解剖准确的图像,这揭示了它在减轻合成数据挑战方面的巨大潜力。



喜马拉雅推出高质量零样本语音生成模型 Takin AudioLLM


在这项工作中,喜马拉雅 Everest 团队推出了 Takin AudioLLM 系列技术和模型,主要包括 Takin TTS(文本转语音)、Takin VC(语音转换)和 Takin Morphing(变声),专为有声读物制作设计。这些模型能够进行零样本语音生成,产生与真实人声几乎无法区分的高质量语音,并帮助个人根据自身需求定制语音内容。



中科院推出 LLaMA-Omni:实现与大语言模型的无缝语音交互


中国科学院团队提出了一种为实现与 LLMs 进行低延迟和高质量语音交互而设计的全新模型架构——LLaMA-Omni,其集成了预训练的语音编码器、语音适配器、大语言模型(LLM)以及流式语音解码器,能够直接从语音指令中同时生成文本和语音响应,且响应速度快,免去了语音转录的步骤。


实验结果表明,与现有的语音-语言模型相比,LLaMA-Omni 在内容和风格上提供了更好的响应,且响应延迟可低至 226 毫秒。此外,训练 LLaMA-Omni 仅需 4 块 GPU,且能在 3 天内完成。



Promptriever:首个像 LLM 一样进行提示的检索模型


在这项工作中,来自约翰霍普金斯大学和 Samaya AI 的研究团队提出了首个能够像 LLM 一样进行提示的检索模型——Promptriever,其不仅在标准检索任务中表现出色,而且还能跟随指令。


他们观察到:在跟随详细的相关性指令方面取得了巨大进步(达到了 SoTA)(FollowIR 上 +14.3 p-MRR / +3.1 nDCG);对查询、指令中词汇选择/措辞的鲁棒性显著提高(InstructIR 上 +12.9 Robustness@10);能够通过提示执行超参数搜索,从而可靠地提高检索性能(BEIR 上平均提高 +1.4)。



点击“阅读原文”,获取更多大模型论文



政策法规


网信办发布《人工智能生成合成内容标识办法(征求意见稿)》


日前,国家互联网信息办公室起草了《人工智能生成合成内容标识办法(征求意见稿)》,现向社会公开征求意见。


其中,《征求意见稿》中写道,服务提供者提供的生成合成服务属于《互联网信息服务深度合成管理规定》第十七条第一款情形的,应当按照下列要求对生成合成内容添加显式标识。


  • 在文本的起始、末尾、中间适当位置添加文字提示或通用符号提示等标识,或在交互场景界面或文字周边添加显著的提示标识;

  • 在音频的起始、末尾或中间适当位置添加语音提示或音频节奏提示等标识,或在交互场景界面中添加显著的提示标识;

  • 在图片的适当位置添加显著的提示标识;

  • 在视频起始画面和视频播放周边的适当位置添加显著的提示标识,可在视频末尾和中间适当位置添加显著的提示标识;

  • 呈现虚拟场景时,应当在起始画面的适当位置添加显著的提示标识,可在虚拟场景持续服务过程中的适当位置添加显著的提示标识;

  • 其他生成合成服务场景应当根据自身应用特点添加具有显著提示效果的显式标识。


服务提供者提供生成合成内容下载、复制、导出等方式时,应当确保文件中含有满足要求的显式标识。


加州州长:SB 1047 法案或对 AI 发展造成 “寒蝉效应”


据彭博社报道,加州州长 Gavin Newsom 担心州议会通过的一项监管新技术的法案可能会对人工智能(AI)的发展造成 “寒蝉效应”。州立法者于 8 月 28 日批准了 SB 1047 法案,该法案规定,如果人工智能公司没有采取必要的安全措施,其技术日后造成重大伤害,这些公司将承担法律责任。Newsom 表示,他正在权衡人工智能的风险是有理论支持的还是假设的。


美国将于 11 月召开全球人工智能安全峰会


据路透社报道,在美国国会继续努力监管人工智能技术之际,美国政府计划召开一次全球人工智能安全峰会。商务部长 Gina Raimondo 和国务卿 Anthony Blinken 将于 11 月 20 日至 21 日在旧金山主办人工智能安全研究所国际网络第一次会议,以 “推动全球合作,实现人工智能安全、可靠和可信的发展”。



专家观点


图灵奖得主警告:AI 引发的“灾难性结果”随时可能发生


“人类失去控制或恶意使用这些人工智能(AI)系统,可能会给全人类带来灾难性的后果。”


如今,AI大模型引发的潜在风险,已成为日益严峻的焦点问题,正受到来自全球各界的关注。


日前,三位图灵奖得主 Yoshua Bengio、Geoffrey Hinton、姚期智,与来自世界各地的几十位科学家共同签署了一封公开信——“AI 安全国际对话威尼斯共识”,呼吁为推动人工智能的发展制定更好的保障措施。


他们在公开信中警告道,“随着人工智能的快速发展,这些‘灾难性的结果’随时可能发生。”(点击查看详情)


甲骨文联创:无所不在的“AI摄像头”将持续监控人类世界


日前,甲骨文联合创始人 Larry Ellison 在公司财务会议上分享了他对人工智能(AI)监控未来的愿景。在投资者问答环节,Ellison 描述了一个人工智能系统将通过广泛的摄像头和无人机网络持续监控人类世界,并表示这将确保警察和大众都不会触犯法律。


Ellison 说:“大众将保持最佳行为,因为我们会不断记录和报告发生的一切,”他描述了他认为人工智能自动监督和犯罪发生时自动报警带来的好处。这位 80 岁的亿万富翁还预测,人工智能控制的无人机将在高速追捕中取代警车。


Meta 等公司警告:欧盟或将在人工智能时代进一步落后


据《华尔街日报》报道,包括 Meta、 Spotify 和 Prada 在内的一些公司警告称,欧盟有可能因其监管法规而错失人工智能(AI)带来的好处。人工智能可以提高生产力,扩大经济规模,但欧洲获得的回报可能比其他地区要少。与其他地区相比,欧洲的竞争力和创新力都有所下降,由于监管政策不一致,欧洲有可能在人工智能时代进一步落后。


何小鹏:端到端模型有望帮助实现 L4 自动驾驶


据《科创板日报》报道,在 2024 杭州云栖大会上,小鹏汽车董事长何小鹏表示,端到端模型下限能力有望在明年快速提高,一旦提高后,不用 2 年时间,在全球范围内就可以做到超越 L4 标准的能力。小鹏汽车宣布每年投入 35 亿元用于研发,其中 7 亿元用于算力训练,还将与阿里云持续深化合作,加速推动端到端大模型落地。



其他


消息人士称,OpenAI 65 亿美元新融资“供不应求”


据彭博社报道,有知情人士透露,OpenAI 的最新一轮融资已接近尾声,本轮 65 亿美元的融资获得了超额认购,潜在投资者将于近期获知他们是否会参与这笔交易。这笔交易将使 OpenAI 的估值达到 1500 亿美元,这还不包括新的投资。对此,OpenAI 拒绝发表评论。


全球首个多模态地理科学大模型发布


据财联社报道,中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位日前发布了全球首个多模态地理科学大模型“坤元”(Sigma Geography)。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。


整理:李雯靖、学术君

如需转载或投稿,请直接在公众号内留言


内容中包含的图片若涉及版权问题,请及时与我们联系删除