多模态大语言模型(MLLM)的技术演进正深度驱动着 AI 生态格局的完善发展,用户对手机、平板等移动端实时交互需求显著增长。然而,传统大模型虽具备卓越性能但参数量庞大,难以在移动、离线等场景下的端侧部署运行;端侧大模型则在涉及部分复杂任务时仍需云端支持优化,端侧性能与多模态能力仍有提升空间。
在这一背景下,清华大学自然语言处理实验室联合面壁智能共同推出了高效端侧大模型 MiniCPM-V 4.0,该模型不仅继承了前代 MiniCPM-V 2.6 强大的单图、多图和视频理解性能,在 OpenCompass 评估中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B 等主流模型,更实现了参数减半至 4.1B,大幅降低了部署门槛。研究团队还同步开源了适用于 iPhone 和 iPad 的 iOS 应用,用户在手机上就能获得「云端级能力,边缘级效率」的使用体验。
作为对端侧 MLLM 的重要探索,MiniCPM-V 4.0 推动着终端轻量化部署开拓更为广阔的发展空间,为语音、视频等其他模态向边缘设备拓展提供了良好范例。
目前,HyperAI超神经官网已上线了「MiniCPM-V4.0:极致高效的端侧大模型」,快来试试吧~
在线使用:https://go.hyper.ai/pZ5aZ
8 月 11 日-8 月 15 日,hyper.ai 官网更新速览:
* 优质公共数据集:10 个
* 优质教程精选:6 个
* 本周论文推荐: 5 篇
* 社区文章解读:5 篇
* 热门百科词条:5 条
* 8 月截稿顶会:2 个
访问官网:hyper.ai
公共数据集精选
1. NuminaMath-LEAN 数学问题数据集
NuminaMath-LEAN 是由 Numina 和 Kimi Team 联合发布的一个数学问题数据集,旨在为自动化定理证明模型的训练与评估提供人工标注的形式化陈述与证明。该数据集包含 10 万个数学竞赛问题,问题涵盖国际数学奥林匹克(IMO)、美国数学奥林匹克(USAMO)等权威赛事题目。
直接使用:https://go.hyper.ai/YSJM2
2. Trendyol 安全指令调优数据集
Trendyol 是一个安全指令调优数据集,旨在训练面向防御性网络安全的先进 AI 助手。该数据集包含 53,202 个指令调优示例,涵盖 200 多个网络安全专业领域,包括云原生威胁、 AI/ML 安全等多种现代安全挑战,为防御性安全 AI 模型的训练提供了高质量语料。
直接使用:https://go.hyper.ai/hfxLQ
3. InteriorGS 3D 室内场景数据集
InteriorGS 是一个 3D 室内场景数据集,旨在克服现有室内场景数据集在几何完整性、语义标注和空间交互能力方面的局限性。该数据集提供高质量的 3D 高斯散射表示,以及实例级语义边界框和指示代理可访问区域的占用图。
直接使用:https://go.hyper.ai/8pxTq

数据集示例
4. CognitiveKernel-Pro-Query 文本生成基准数据集
CognitiveKernel-Pro-Query 是由腾讯发布的一个文本生成基准数据集,旨在评估模型在处理这些长文本时的表现。该数据集包含超过 10,000 条长文本,涵盖新闻文章、技术文档、书籍等应用场景。
直接使用:https://go.hyper.ai/onijU
5. Satellite Embedding 地球观测数据集
Satellite Embedding 是由谷歌发布的一个地球观测数据集,旨在提供高度通用的地理空间表征,融合来自多个来源的空间、时间和测量上下文,准确高效地生成从本地到全球尺度的地图和监测系统。
直接使用:https://go.hyper.ai/Yfw8K

数据集示例
6. LongText-Bench 文本理解基准数据集
LongText-Bench 是一个文本理解基准数据集,旨在评估模型准确理解长篇中文和英文文本的能力。该数据集包含 160 个用于评估长文本渲染任务的提示语,涵盖 8 种不同场景(路牌、带标签的物体、印刷材料、网页、幻灯片、海报、标题和对话)。
直接使用:https://go.hyper.ai/k6Kj8
7. nuPlan 自动驾驶数据集
nuPlan 是由 Motional 发布的一个自动驾驶数据集,旨在提供基于机器学习的规划器开发训练框架、轻量级闭环仿真器、运动规划专用指标以及可视化结果的交互式工具。该数据集包含来自美国和亚洲 4 个城市(波士顿、匹兹堡、拉斯维加斯和新加坡)的 1,200 小时人类驾驶数据。
直接使用:https://go.hyper.ai/BcEC8

数据集示例
8. HelpSteer3 人类偏好数据集
HelpSteer3 是由英伟达发布的一个人类偏好数据集,旨在通过人类反馈和强化学习技术提升模型对用户提示的响应能力。该数据集包含 40,476 个偏好样本,每个样本包含一个领域、语言、上下文、两个回复、以及 2 个回复之间的总体偏好评分和最多 3 位标注者的个人偏好评分。
直接使用:https://go.hyper.ai/hByqe
9. NHR-Edit 图像编辑数据集
NHR-Edit 是一个图像编辑数据集,旨在支持训练能够遵循多样化自然编辑指令的通用图像编辑模型。该数据集包含 286,608 张唯一源图像和 358,463 个图像编辑三元组。每个样本还包含编辑类型、样式和图像分辨率等额外元数据,使其适合训练细粒度、可控的图像编辑模型。
直接使用:https://go.hyper.ai/LZtkd

数据集示例
10. A-WetDri 恶劣天气驾驶数据集
A-WetDri 是一个恶劣天气驾驶数据集,旨在提升自动驾驶感知模型在恶劣天气条件下的鲁棒性和泛化能力。该数据集包含了 42,390 个样本,涵盖 4 种环境场景(雨、雾、夜晚、雪、晴朗天气)、不同的物体类别(汽车、卡车汽车、自行车、摩托车、步行者、交通标志交通灯)。
直接使用:https://go.hyper.ai/W2XE7

数据集示例
公共教程精选
1. MiniCPM-V4.0:极致高效的端侧大模型
MiniCPM-V 4.0 是由清华大学自然语言处理实验室联合面壁智能开源的极致高效的端侧大模型。 MiniCPM-V 4.0 在 OpenCompass 评测中图像理解能力超越了 GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct 和 InternVL2.5-8B。
在线运行:https://go.hyper.ai/pZ5aZ

效果展示
2. 探索性数据分析 | XGBoost 的 SHAP 值解析
该教程围绕「预测最优肥料」的多分类赛题展开,完整呈现了从数据探索到模型训练、再到可解释性分析的端到端流程。
在线运行:https://go.hyper.ai/41z6K
3. dots.ocr:多语言文档解析模型
dots.ocr 是由小红书 hi lab 发布的多语言文档布局解析模型,基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。该模型提供简洁高效的架构,任务切换仅需更改输入提示词,推理速度快,适用多种文档解析场景。
在线运行:https://go.hyper.ai/JewLR

公共文档示例
4. vLLM+Open-WebUI 部署 Phi-4-mini-flash-reasoning
Phi-4-mini-flash-reasoning 是由 Microsoft 团队发布的轻量级开源模型,基于合成数据构建,专注于高质量、密集推理数据,并进一步微调以获得更高级的数学推理能力。该模型属于 Phi-4 模型系列,支持 64K token 上下文长度,采用解码器-混合-解码器架构,结合注意力机制和状态空间模型(SSM),在推理效率方面表现出色。
在线运行:https://go.hyper.ai/ENYcL

项目示例
5. llama.cpp+Open-WebUI 部署 gpt-oss-120b
gpt-oss-120b 是由 OpenAI 推出的开源推理模型,面向强推理、智能体任务以及多样化开发场景。该模型基于 MoE 架构,支持 128k 上下文长度,在工具调用、少样本函数调用、链式思考推理及健康问答等方面表现出色。
在线运行:https://go.hyper.ai/3BnDy

项目示例
6. llama.cpp+Open-WebUI 部署 gpt-oss-20b
gpt-oss-20b 是由 OpenAI 推出的开源推理模型,适合低延迟、本地或专业垂直领域使用,可在消费级硬件(如笔记本、边缘设备等)流畅运行,表现直媲美 o3‑mini。
在线运行:https://go.hyper.ai/28FXJ

项目示例
💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐
1. ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
由于高推理强度训练数据的稀缺,现有重排序器在许多复杂排序场景中表现不佳,且高推理强度重排序器的排序能力仍处于初步发展阶段。本文首次提出一种自动化的高推理强度训练数据合成框架,该框架从多个领域获取训练查询与段落,并利用 DeepSeek-R1 模型生成高质量的训练标签。同时,设计了一种自一致性数据过滤机制,以保障数据质量。
论文链接:https://go.hyper.ai/nmaou
2. WideSearch: Benchmarking Agentic Broad Info-Seeking
本文推出了一个旨在评估代理在大规模收集任务中可靠性的全新基准测试 WideSearch,包含 200 个人工精心筛选的问题,来自 15 个以上的不同领域,且基于真实用户查询。每个任务都要求代理收集大规模的原子信息,并将其整理成结构清晰的输出。
论文链接:https://go.hyper.ai/87pbh
3. WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
本文提出 WebWatcher,一种具备增强型视觉-语言推理能力的多模态 Deep Research 代理。该代理通过高质量的合成多模态轨迹实现高效的冷启动训练,结合多种工具进行深度推理,并借助强化学习进一步提升泛化能力。
论文链接:https://go.hyper.ai/n9IKZ
4. Matrix-3D: Omnidirectional Explorable 3D World Generation
本文提出 Matrix-3D 框架,采用全景表示,实现大范围覆盖、全方位可探索的三维世界生成,融合了条件化视频生成与全景三维重建技术。研究人员首先训练了一种轨迹引导的全景视频扩散模型,以场景网格渲染图为条件,从而实现高质量且几何一致的场景视频生成。
论文链接:https://go.hyper.ai/ojvKE
5. Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
虚拟试穿旨在生成一个人穿着目标服装的逼真图像,但准确建模服装与人体之间的对应关系仍是持续存在的挑战,尤其是在姿态和外观变化的情况下。本文提出了一种名为 Voost 的统一且可扩展的框架,该框架通过单一的扩散变换器(diffusion transformer)联合学习虚拟试穿与试脱任务。
论文链接:https://go.hyper.ai/qCCaH
更多 AI 前沿论文:https://go.hyper.ai/iSYSZ
社区文章解读
1. 覆盖近1.5万个物种,谷歌DeepMind发布Perch 2.0,刷新生物声学分类检测SOTA
Google DeepMind 与 Google Research 联合推出 Perch 2.0,进一步将生物声学研究推向新高度。相较于前代,Perch 2.0 以物种分类为核心训练任务,不仅纳入了更多非鸟类类群的训练数据,还采用了全新的数据增强策略与训练目标,在 BirdSET 和 BEANS 两项权威生物声学基准测试中均刷新当前 SOTA。
查看完整报道:https://go.hyper.ai/B7ZUk
2. 在线教程丨仅需极少量医学影像数据,MediCLIP在异常检测与定位任务中刷新SOTA
北京大学的研究团队提出了一种高效的少样本医学影像异常检测方案 MediCLIP。该方法仅需极少量正常医学影像,即可在异常检测与定位任务中取得领先性能,并在多种医学影像类型中有效检测不同疾病,展现出惊人的零样本泛化能力。
查看完整报道:https://go.hyper.ai/VAhFb
3. 科研党痛失「快乐老家」?Paper With Code 宣布关闭,网友对 Hugging Face 新版块不买账
Paper With Code 已经正式停止运营,遍布全球的深度用户纷纷发声,一方面高度赞扬该网站在机器学习研究中的价值,另一方面也表达了真实需求——除论文与开源代码的对应外,SOTA、leaderboards 等功能同样重要。
查看完整报道:https://go.hyper.ai/poRWa
4. 输出方差显著降低!UCLA发布双向布朗桥扩散模型,提升虚拟染色结果可重复性
针对成像质谱的组织化学染色问题,UCLA 研究团队提出了一种基于扩散模型的虚拟组织学染色方法,能够增强空间分辨率,并以数字化的方式将细胞形态对比度引入无标记人体组织的质谱图像中,实现了基于低分辨率 IMS 数据预测高分辨率细胞组织病理结构。
查看完整报道:https://go.hyper.ai/gcZ5U
5. 3秒检测准确率超90%,Ainnova Tech研发视网膜病变早筛平台,临床试验方案获FDA指导
健康科技公司 Ainnova Tech 凭借眼底图像智能诊断技术,打造 Vision AI 平台,可在几秒内检测糖尿病视网膜病变(准确率超 90%)、心血管风险等多系统疾病,服务超 20 国,2025 年 7 月顺利完成与 FDA 的预提交会议,现已在拉丁美洲推出免费筛查模式,推动慢性病早诊革新。
查看完整报道:https://go.hyper.ai/Ete2g
热门百科词条精选
1. DALL-E
2. 倒数排序融合 RRF
3. 帕累托前沿 Pareto Front
4. 大规模多任务语言理解 MMLU
5. 对比学习 Contrastive Learning
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
https://go.hyper.ai/wiki
8 月截稿顶会
8 月 21 日
11:59:59
ASPLOS 2026
8 月 27 日
7:59:59
USENIX Security Symposium 2025
一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1800+ 公开数据集提供国内加速下载节点
* 收录 600+ 经典及流行在线教程
* 解读 200+ AI4Science 论文案例
* 支持 600+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/


戳“阅读原文”,免费获取海量数据集资源!
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢