风格与主题高质量融合！USO框架通过解耦与奖励学习实现二者兼得；1k本中医典籍！华东理工发布MedChatZH让AI更懂中医

在 AI 图像生成领域，风格与主题间往往存在难以兼得的冲突性。风格驱动下优先生成风格相似的艺术表现，比如要求生成「一幅毕加索立体派风格的人像」，AI 会优先保证从色彩、笔触等方面让人一眼就能认出这是毕加索的风格，而人像细节会大打折扣；主题驱动则注重追求主题一致性，核心任务是「精准地生成指定的东西」，当给出「一只戴着红色领结的猫咪」的提示语， AI 会确保生成的结果与你描述的主体一致，而如果同时要求场景设定为「办公室中」，那么生成的背景可能会被模糊处理。

基于此，字节跳动 UXO 团队推出了内容与风格解耦与重组统一框架 USO，通过构建大规模三元组数据集，采用解耦学习方案同时对齐风格特征并分离内容与风格，引入风格奖励学习（SRL）来进一步提升模型性能。该框架实现了主题与风格的自由组合，可生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的理想图像效果。

USO 通过跨任务协同解耦提升了模型性能，在主体一致性和风格相似性两个维度上均达到开源模型 SOTA，打破了传统图像生成中风格与主题相互孤立的状态，实现了「既要又要」的二者兼得。

目前，HyperAI超神经官网已上线了「USO：统一风格和主体驱动的图像生成模型」，快来试试吧~

在线使用：https://go.hyper.ai/VWz1i

9 月 1 日-9 月 5 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：5 个

* 本周论文推荐: 5 篇

* 社区文章解读：6 篇

* 热门百科词条：5 条

* 9 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. MV3DPT 多视图三维点跟踪数据集

MV3DPT 是一个专为「多视角任意三维点跟踪」任务构建的基准数据集，旨在提供「多摄像机视角下任意三维点在动态场景中的在线稳定跟踪」的研究基础。该数据集覆盖合成与真实场景、多视角融合数据，可用于遮挡下的稳健预测，适合训练与评估三维点跟踪模型，广泛应用计算机视觉与机器人相关场景。

直接使用：https://go.hyper.ai/xs6Kt

2. StepEval Audio Paralinguistic 副语言理解评估数据集

StepEval Audio Paralinguistic 是由 StepFun AI 团队发布的一个音频副语言理解评估数据集，旨在评估 AI 模型在语音中理解副语言信息（如性别、年龄、语调、情绪等）方面的能力。

直接使用：https://go.hyper.ai/d65ah

3. Landslide4Sense 滑坡遥感基准数据集

Landslide4Sense 是一个面向滑坡检测的多源卫星遥感基准数据集，该数据集覆盖 2015–2021 年多地区滑坡场景，统一为约 10 m/像素的 128×128 影像块，每个样本含 14 个波段（Sentinel-2 多光谱 B1–B12 + ALOS PALSAR 派生坡度与 DEM）。

直接使用：https://go.hyper.ai/nDDwN

4. AlphaEarth 核心嵌入数据集

AlphaEarth 是由 Google DeepMind 与 Google Earth Engine 团队发布的一个全球地理空间嵌入数据集，旨在把多源遥感和地理数据压缩为统一、可复用的时空嵌入，在标注稀缺条件下更高效地完成制图与监测。

直接使用：https://go.hyper.ai/EYcNz

5. AetherCode 顶级编程竞赛基准数据集

AetherCode 是由字节跳动联合 M-A-P 团队发布的一个编程竞赛评测数据集，旨在通过来自 IOI、ICPC、USACO 等顶级赛事的高难度题目与专家验证的高质量测试用例，更真实地评测大模型的算法推理与代码能力。

直接使用：https://go.hyper.ai/oBpK1

6. MedChatZH 中文医疗对话指令数据集

MedChatZH 是由华东理工大学发布的一个中文医疗对话数据集，旨在通过中医典籍持续预训练和医疗指令数据微调，提升中文（尤其中医场景）问诊对话的理解与生成能力。

直接使用：https://go.hyper.ai/gNRfB

7. HBFMID 人体骨折图像数据集

HBFMID 是一个医学影像数据集，旨在为骨折检测与分类任务提供支持。该数据集融合了多模态影像、覆盖多部位、多样显示形式，并进行了充分增强和明确划分，适用于训练和评估骨折检测与分类模型，尤其在医学图像分析与深度学习研究中具有较高价值。

直接使用：https://go.hyper.ai/IPIOE

8. HH-RLHF 人类偏好数据集

HH-RLHF 是由 Anthropic 发布的一个人类偏好数据集，主要由有益/无害的人类偏好数据（PM Data）和红队对话数据（非 PM Data）两部分组成。

直接使用：https://go.hyper.ai/u98TI

9. UQ 未解问题数据集

UQ 数据集是由斯坦福大学联合华盛顿大学、北卡罗来纳大学等机构发布的评测基准，旨在以真实且高难度的「未被人类社会解答的问题」来评估前沿大模型在推理、事实性与浏览方面的能力。

直接使用：https://go.hyper.ai/BW5qz

10. Llama Nemotron VLM v1 多模态图文数据集

Llama Nemotron VLM v1 是由英伟达发布用于 VLM 后训练的高质量图文数据集，用于支持英伟达发布的 Llama-3.1-Nemotron-Nano-VL-8B-V1 文档理解模型（支持文档问答、图表问答、 AI2D 等场景）。

直接使用：https://go.hyper.ai/KVW6Z

公共教程精选

1. Hunyuan-GameCraft-1.0：交互式游戏视频生成框架

Hunyuan-GameCraft-1.0 是由腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间，实现精细的动作控制，支持复杂的交互输入。

在线运行：https://go.hyper.ai/c48zV

2. Hunyuan-MT-7B：翻译模型 Demo

Hunyuan-MT-7B 是由腾讯混元团队发布的轻量级翻译模型，参数量仅 70 亿，支持 33 个语种及 5 种民汉语言/方言互译，能精准理解网络用语、古诗、社交对话等，结合语境进行意译，提出了覆盖预训练到集成强化全链条的训练范式。

在线运行：https://go.hyper.ai/nv9gJ

3. USO：统一风格和主体驱动的图像生成模型

USO 是由字节跳动 UXO 团队推出的内容与风格解耦与重组统一框架，能将任何主题与任何风格在任何场景中自由组合，生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像，实验表明其在主体一致性和风格相似性两个维度上均达到了开源模型的顶尖水平。

在线运行：https://go.hyper.ai/VWz1i

4. MiniCPM-V 4.5：最强端侧多模态模型

MiniCPM-V 4.5 是由清华大学自然语言处理实验室联合面壁智能开源的极致高效的端侧大模型，在图片、视频、 OCR 等多个领域表现卓越，尤其在高刷视频理解方面取得突破，能处理高刷新率视频并精准识别内容。模型支持混合推理模式，可平衡性能与响应速度。

在线运行：https://go.hyper.ai/o3Ns5

5. BioEmu：生成式深度学习系统

BioEmu 是由微软研究院 AI for Science 团队发布的生成式深度学习系统，可以高效模拟蛋白质的动态结构和平衡态构象。该系统能在单个 GPU 上每小时生成数千种蛋白质结构样本，效率远超传统的分子动力学（MD）模拟。

在线运行：https://go.hyper.ai/YV75B

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD教程】，入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

本文提出了一种具备自动推理决策能力的多模态大语言模型 R-4B，可根据问题复杂度自适应地决定是否启动思考过程。其核心思想是通过双模式退火机制，赋予模型兼具「思考」与「非思考」两种能力，并采用双模式策略优化方法，提升模型准确判断是否激活推理过程的能力。

论文链接：https://go.hyper.ai/3Nq23

2. EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

本文提出 EO-Robotics，包含 EO-1 模型与 EO-Data1.5M 数据集。EO-1 是一种统一的具身基础模型，通过交错式视觉-文本-动作预训练，在多模态具身推理与机器人控制任务中实现了卓越性能。

论文链接：https://go.hyper.ai/cTtge

3. A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

本文提出了 A.S.E（AI Code Generation Security Evaluation），一个面向代码仓库级别的安全代码生成评估基准。A.S.E 从包含已知漏洞（CVE）的真实开源仓库中构建任务，完整保留了仓库级上下文信息，包括构建系统和跨文件依赖关系。

论文链接：https://go.hyper.ai/irGB2

4. Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

本文探讨了如何将视频模态应用于3D资产生成，涵盖数据集构建到模型设计的全过程，提出了首个具有多视角层级标注的大规模视频数据集 Droplet3D-4M，并训练了 Droplet3D 模型——一个支持图像输入与密集文本输入的生成模型。

论文链接：https://go.hyper.ai/BWwsV

5. VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

本文提出一个统一且模块化的框架 VerlTool，将 ARLT 形式化为包含多模态观测标记（文本/图像/视频）的多轮轨迹，突破了传统单轮 RLVR 的范式限制。研究人员在数学推理、知识问答、SQL 生成、视觉推理、网页搜索以及软件工程等任务上训练并评估模型，取得了与专用系统相当的性能，同时提供统一的训练基础设施。

论文链接：https://go.hyper.ai/NeCSC

更多 AI 前沿论文：https://go.hyper.ai/iSYSZ

社区文章解读

1. 全球水体健康诊断，香港科技大学团队提出时空插补与预测模型，实现沿海叶绿素 a 时空分布精准预测

针对沿海生态系统健康诊断问题，香港科技大学团队提出了时空插补和预测（STIMP）模型，通过集成专门设计的模块实现了叶绿素 a 时空分布的精准预测，为预测时空限制条件下的海洋叶绿素 a 提供了新的路径。

查看完整报道：https://go.hyper.ai/trOfg

2. 从 GPT-3 负责人到 Anthropic CTO，Tom Brown 谈创业经验、 Scaling Law 与芯片供应链依赖

在与 Y Combinator 的访谈中，Anthropic 首席技术官 Tom Brown 回顾了自己从创业到 AI 研究的转型之路。他谈到「需求匹配度」以及「Scaling Laws」带来的影响，解释了离开 OpenAI 创办 Anthropic 的原因，并谈及了 Claude 系列模型在迭代中遭遇的困难与突破，同时透露了 Anthropic 在多芯片战略与安全愿景上的考量。

查看完整报道：https://go.hyper.ai/d3CFR

3. 大气所研发 CoTCN 模型显著提升全球海表温度预报精度, 1 天 SST 预报误差仅 0.2°C

在 2025 CCF 全球高性能计算学术大会上，中国科学院大气物理研究所林鹏飞研究员团队报告了一项重要研究成果。该团队成功研发出耦合 Transformer 与 CNN 框架的 CoTCN 深度学习模型，在全球海表面温度短期预报领域取得突破，为海洋环境预报提供了关键技术支撑。

查看完整报道：https://go.hyper.ai/Wb1yK

4. Meta AI 等提出全新蛋白质动态融合表征框架FusionProt，实现迭代式信息交换，多项任务性能达到 SOTA

以色列理工学院联合 Meta AI 的研究团队，提出了一种名为 FusionProt 的新型蛋白质表征学习框架。引入创新性的可学习融合 token，在 PLM 和蛋白质的三维结构图之间进行迭代信息交换，在多种生物学任务上性能达到 SOTA。

查看完整报道：https://go.hyper.ai/ZZq4Q

5. 从重金挖角 OpenAI/谷歌到招聘急刹车：Meta MSL 主要人员梳理，半数华人+75% 博士成主力

2025 年 8 月中旬，华尔街日报曝出重磅消息：Meta 在刚完成一轮规模浩大的 AI 人才「疯抢」后，突然暂停人工智能部门招聘。随之而来，大批员工也被曝出纷纷离职。

查看完整报道：https://go.hyper.ai/KMCvz