近期,AI 浏览器几乎快成为大模型的主战场了。

新锐的 AI 浏览器有 Dia、Comet 和 ChatGPT Atlas,老牌的则是 Chrome、Edge(相继加入 AI 模式)等等。各种 AI 浏览器虽然多,但几乎都长得差不多。

甚至在最近的一些营销中,在刻意模糊 Browser 和 OS 的边界。照这个势头发展,搞不好明年就叫二进制了(01)。

「像 OS」≠「是 OS」。

在这篇文章中,我们讲讲,为什么「AI Browser = OS」这事完全不成立,以及未来 AI 浏览器的能力应该是怎么样的。


超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
图片
进群后,你有机会得到:
  • 最新、最值得关注的 AI 新品资讯; 

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道



01 

AI 浏览器越来越「像」系统?

你也许已经感到:浏览器的「覆盖面」过了一个拐点。PWA、Service Worker、File System Access、WebGPU、通知/后台同步、甚至多 Profile/多分区隔离,让它承载了大量过去属于系统壳层的能力。再叠上「AI Agent」——能在页面里读、写、点、拖、表单填写、脚本注入——体验上就像有个「微内核」在替你支配电脑。

问题是:感觉像 ≠ 职责像。浏览器没有进程调度权、不控制内存隔离的底线、也不治理驱动与内核系统调用。它只是拿到了更多「可近似系统」的用户态能力。这就是营销话术的空间:把「运行时 + 编排层」包装成「OS」,听上去更牛,也更好讲故事...

AI 的错位感:当 Agent 可以「自动操作你的电脑/网页」时,的确「像」一个掌管资源与权限的系统层,于是「OS」一词被滥用。浏览器是应用运行时(Runtime),不是硬件/内核层的仲裁者。

如果啥都可以叫 OS,那鸿蒙又算啥,被人喷那么惨(好无辜)。

OS 全称是 Operating System,位于硬件和应用层之间。一个能被严肃称为 OS 的系统,至少要满足以下能力吧:

  • 进程/线程调度(谁先跑、怎么抢占 CPU);

  • 内存管理与隔离(地址空间、分页、OOM 策略);

  • 设备与驱动栈(存储、显示、输入、网络、功耗管理);

  • 文件系统与权限模型(UID/GID、ACL、沙箱、能力令牌);

  • 系统调用与内核态/用户态边界;

  • 多会话/登录与后台守护进程(启动、关机、服务管理)。

  • ...

所以在我看来,只有 macOS,Windows,Linux 之类的系统才称得上 OS。Chrome 是一个浏览器,但 ChromeOS 确实一个真正的操作系统(基于 Linux 内核实现,而非营销话术)。

浏览器(哪怕是很「重」的浏览器)通常只覆盖用户态的一小角:渲染、JS 运行时、网络栈的一层抽象、权限提示和扩展机制。它可以很像「平台」,但并不是 OS。「像 OS」≠「是 OS」。ChromeOS 是 OS,因为它有内核与系统服务;「浏览器 + 若干守护服务」只是运行时分发。


02 

定义为 Agent 操作层,

或许更合适

如果要给这层东西取个更工程化的名字,我建议叫 Agent Operating Layer(AOL,Agent 操作层)。它是运行在 OS 之上的「可编排能力 + 权限/审计 + 状态记忆」层,是浏览器/客户端自动化时代的「系统空间」。AOL 的职责像这样:

  • 能力编排:把「能做什么」抽象成能力(openTab、evalJS、screenshot、readFile、writeKV…),统一协议,类型化,稳定可调用。

  • 权限与审计:最小授权、人机共驾、动作日志可回放、可对比、可导出。

  • 状态与记忆:对话/向量记忆/长期档案统一治理,可迁移、可压缩、可分层冷热存储。

  • 事件与调度:定时/触发器/外部 Webhook,能让 Agent 持续可靠地「跑起来」。

  • 模型解耦:把 LLM 当「算子」,可路由、可替换、可本地化,不和能力层绑死。

  • 双态运行:有头(可视、人机协作)与无头(自动化)自由切换。

换句话说,OS 仍是 OS;我们需要的是一层「像系统一样严肃的运行治理」,但它的「底盘」依旧是 macOS/Windows/Linux/ChromeOS。


03 

未来可能是能力优先、标准互通的「通用容器」模式

AI 浏览器都是 Chromium 套壳(比如 Dia、ChatGPT Atlas、Comet等),更确切点说,大部分套壳都在基于 Electron 搞(这类很多,不列举了,避免营销嫌疑)…

简单来说,能力强的直接基于 Chromium 二次定制开发,想快速交付的基本都在 Electron 上折腾。

割裂的现实:都在吐槽 Electron 又大又慢,但架不住「真香」定律,用起来就是嗨!说个题外话,一般应用开发很难碰到性能瓶颈,所以我们要相信 Chromium 团队是将性能优化做到极致的(v8 值得信赖)。自己使用原生技术开发应用(如 swift),在面对大数据处理时,如果不用点特殊优化手段,应用直接卡爆也不是不可能。

从模型中心到能力中心,往后看,这或许是趋势:

  • 能力优先:行业从「换更强模型」转向「定义更稳定、可治理的能力集」,把智能约束在「可审计动作」里。

  • 标准互通:围绕工具/动作协议(MCP、agents 协议、llm.txt 等)的互操作增强,容器逐渐「可插拔」。

  • 边缘与私有化:本地向量库、本地模型、端侧推理与端云协同,成为企业/高敏场景的默认诉求。

预测一下:适合接入任意大模型的 API 容器一定会出现,如果没有,那 Noi 会朝这个方向努力!

通用容器是一个与模型无关的容器化平台(如浏览器),它能提供 system、browser 相关 api 操作能力(比单纯的浏览器插件更进一步,也更符合 agent 操作需要)。这一定会成为主流诉求,因为目前发布的 AI 浏览器实在是太多了,根本装不完(都在试图接管用户入口,割裂混乱得让人崩溃)...

如果要定义一下 API 的数据结构,它可能是这样的:

// 统一的意图(Intent),一切动作的“凭证”
type Intent<T = any> = {
  idstring;          // 可回放/关联
  actor"agent" | "human";
  capabilitystring;  // "tabs.create" | "dom.eval" | "fs.write" | "kv.put" ...
  args: T;
  scope?: string[];    // 能力域,如 ["activeWindow", "workspace:/docs"]
  policy?: { requireApproval?: boolean; ttl?: number };
  createdAtstring;
};

// 容器操作 API(节选)
interface OperatingAPI {
  // 浏览器/页面
  "tabs.create"(p: { url: string; partition?: string }) => Promise<{ tabIdstring }>;
  "dom.eval"(p: { tabId: string; script: string }) => Promise<{ resultunknown }>;
  "tabs.capture"(p: { tabId: string }) => Promise<{ pngBase64string }>;

  // 文件/存储(沙盒化路径)
  "fs.read"(p: { path: string }) => Promise<{ datastring }>;
  "fs.write"(p: { path: string; data: string }) => Promise<void>;
  "kv.put"(p: { ns: string; key: string; value: unknown }) => Promise<void>;
  "kv.get"(p: { ns: string; key: string }) =>Promise<{ valueunknown | null }>;

  // 调度/事件
  "task.schedule"(p: { cron: string; job: Intent }) => Promise<{ taskIdstring }>;

  // 权限与审计
  "auth.request"(p: { capability: string; reason: string }) => Promise<{ grantedboolean }>;
  "audit.export"() => Promise<{ ndjsonstring }>;
}



04 

AI 的「系统性价值」应该长在操作层

AI Browser = Runtime (运行时) + Orchestration (编排) 似乎更合理,「AI Browser = OS」的说法,让人上头,但工程上并不成立。OS 仍在内核,AI 的「系统性价值」应该长在操作层:能力编排、权限与审计、状态与记忆、事件与调度、以及对模型的彻底解耦。

当这层被认真地打磨出来,「AI 浏览器」自然会变成一个可托付的 Agent 平台。到那时,谁还在纠结叫不叫 OS,已经不重要了。重要的是:它是否让人和智能在同一条可治理的轨道上,跑得更稳、更远。

图片
更多阅读

在 Sora 诞生之前,胡修涵做了两年多的「二次元版 Sora」

种子轮、2500 万美金,营销 Agent 创业公司,帮客户销售额增长 40%

o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路

ARR 突破 1 亿美元,HeyGen 创始人公开了他们的内部增长手册,全是干货


转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除