AI原生时代下，让世界适应Agent，而非教AI做人

Agent 时代杠杆股票平台，究竟需要什么样的基础设施？

港大助理教授黄超给出的答案是：不是让 Agent 不停地适应人，而是为 Agent 重新设计数字世界。

在 2026 中国 AIGC 产业峰会上，黄超系统梳理了他过去两年多围绕 AI Agent 的思考与实践。

他的团队做的第一件事，是把 Agent 做"轻"做"薄"。

看到 OpenClaw 发布时有 43 万行代码（现在已经超过 100 万行），他们反其道而行之，用最轻量化的方式开源了通用 Agent ——nanobot。

结果关注度远超预期，连续 100 天日更迭代，下载量突破 20 万次，被 DeepSeek 推荐为全球 15 个 Agent 之一，也曾登上 OpenRouter 平台通用 Agent 榜单第四名。

但轻量只是起点。

接下来他们计划用 nanobot 挑战更复杂的长程任务，验证 Agent 在真实生产环境中的持续执行能力。

这里的长程任务不仅指运行时间长，更关键是任务链路复杂——需要跨越多个软件生态、调用异构工具组合，要求 Agent 具备跨领域协调和持续决策的综合能力。

这反映了他们对 Agent 能力边界的深度思考：真正的生产力 Agent 不能只停留在对话和代码生成，而要能够熟练操控复杂软件生态，在动态环境中自我进化，并在集群协作中创造价值。

持牌股票配资平台

基于将 Agent 从" AI 助手"升级为"数字劳动力"的愿景，他们提出了CLI-Anything。

其核心洞察是：与其让 Agent 费力学习人类界面，不如让软件原生支持 Agent 语言。

通过将专业软件重新包装为命令行接口，Agent 能够直接驱动 3D 建模、设计工具、多媒体编辑等原本需要人类大量学习成本的复杂应用。

黄超认为，相比 GUI，CLI 可能才是真正 AI 原生的 Computer Use 方式。这不是技术选择，而是交互范式的根本重构——从让 AI 适应人类工具，转向让数字世界说 AI 的语言。

除了 Agent-native 接口这一基础设施，他们团队同样重视 Agent 自进化能力的构建。毕竟，仅有好的接口还不够，Agent 还需要在使用过程中持续学习和自我优化。

黄超指出，当前自进化研究主要分为 Internal 和 External 两个方向。

Internal 模式专注于优化 Agent 内核——升级框架、调整参数、改进推理链路，但这种内向型进化往往困于特定场景，难以实现真正的跨域迁移。

元股证券:ygzq.hk

相比之下，External 模式采用技能积累策略，通过不断扩充和优化工具库，逐步构建具有协同效应的 Agent 生态。

这种外向型进化更符合"重新设计数字世界"的理念——不是让单个 Agent 变得更聪明，而是让整个 Agent 网络变得更强大。

为验证这种协同进化模式的可行性，他们设计了一个 AI 自动化科研实验：让 8 个 Agent 协调 8 张 H100 显卡进行分布式模型训练。

实验结果证实，在合理的任务分发架构下，Agent 集群确实能够显著提升生产效率。

但当他们进一步扩展 Agent 规模时，边际收益开始递减，甚至出现协调开销超过性能增益的临界点。

这说明 Agent Swarm 的 Scaling Law 远比想象中复杂，可能存在一个最优的临界规模，超过这个阈值反而会产生负收益。

如何找到这个平衡点，仍然是重新设计 Agent 协作生态的核心挑战。

为了完整体现黄超的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

2026 中国 AIGC 产业峰会是由量子位主办的行业峰会，近 20 位产业代表与会讨论。线下参会观众超千人，线上直播观众近 400 万，获得了主流媒体的广泛关注与报道。

核心观点梳理

Agent 的核心架构本质上是一个优雅的 ReAct 循环：通过 reasoning 进行任务规划，action 执行具体工具调用，然后基于环境 feedback 调整策略。通用 Agent 的能力并非全来自复杂的架构设计，而是来自推理、执行、反馈这一基本认知循环的有效实现。

ReAct 架构的泛化性源自其模块化解耦：reasoning 处理抽象推理，action 负责具体执行，observation 提供环境反馈。Agent 面对新任务时，通过重组已有的推理策略和行动原语来适应新环境，实现真正的跨域泛化能力。

长程任务的本质挑战不在于执行时间，而在于复杂性的指数级增长。成功的 Agent 不是避免错误，而是预期错误并实现优雅降级，能够主动设计、持续监控和动态优化整个执行过程，这正是将 AI 助手升级为强生产力协作者的核心所在。

Agent 需要 learning from real tasks，在错误中不断学习、感知自己错在哪里，才能真正节约 Token 成本。这揭示了一个核心矛盾：研究 Agent 往往专注于探索能力上界，却忽略了 Token 本身就是实际成本约束。

面向 Computer Use Agent，GUI 模式开销大、准确度也受限，CLI 可能是通用 Agent 进行 computer use 更优的软件交互方式。

Agent 自进化可通过 workflow 优化、skill 沉淀和模型参数调优几条路线推进，其中基于 skill 的进化范式展现出最强的泛化性，但在 Tool-Use 层面仍面临核心挑战。

以下为黄超演讲全文：

Agent 架构大道至简

今天非常荣幸能够在这里有一次机会跟大家去做一次分享，大家好，我叫黄超。

Agent=Model+Harness，如今 harness 已成为 Agent 生态的关键一环。

Agent 的整体架构其实并不负责，本质就是一个 ReAct 框架：Reasoning 做规划→ Action 调用工具→ Observation 获取反馈，整个就是一个 while 循环。

基于这个框架，我们开源了通用 Agent ——nanobot。

当时看到 OpenClaw 发布时有 43 万行代码，我们意识到通用 Agent 的核心技术其实不需要那么复杂。

nanobot 的初衷是希望以最轻量化的方式将 Agent 技术开放给社区，既能方便开发者进行二次开发，也可以作为学习 Agent 技术的入门。

没想到 nanobot 收到了超出预期的关注，我们坚持了连续 100 天的日更迭代，不断整合社区在各个场景下的反馈和需求。

目前下载量已超过 20 万次，很荣幸被 DeepSeek 选为全球 15 个推荐 Agent 之一，也曾在 OpenRouter 平台的通用 Agent 榜单中排到第四名。

这个过程也体现 Agent 系统设计的大道至简的哲学：很多关键技术的突破也来自将复杂问题简单化。当前 Agent 的一些技术难点也在通过巧妙的设计被逐步化解。

有了通用 Agent 后，下一步挑战是将其从简单的 AI 助手升级为 AI 强生产力工具。

目前 Agent 虽然烧了大量 token，但实际能很好落地的任务仍局限在 coding 和 research 等少数场景。

当下 Agent 所面临的一些核心挑战：

第一，长程任务的鲁棒性：长程任务的难点不在于时间长或步骤多，而在于场景的复杂性和多样性。在丰富的工具调用场景中，任何一步错误都可能导致整体失败，这需要更强的 harness 设计来保障任务的连续性。

第二，从错误中学习的自进化能力：Agent 需要实现 learning from real task，在失败中识别错误模式并优化策略。这不仅能提升成功率，更重要的是能显著降低 token 消耗。

当前大家都在探索 Agent 的性能上界，却忽略了成本控制。

未来的 Agent 必须实现"自负盈亏"——在追求能力边界的同时，考虑 token 经济性。真正的突破将来自于在复杂任务中保持高成功率的同时，大幅降低计算成本。

第三，持续性环境与上下文对齐。

简单的 sandbox 已经不够了，Agent 需要一个完整的计算环境—文件系统、数据存储、交互界面这些都得有。现在 sandbox 每次新建 loop 就重置，对长程任务很不友好。

Human-Agent 对齐也存在现实问题。如果我们能写出超详细的文档，告诉 Agent 在什么情况下调用什么工具（比如数值到 7.5 时做什么），Agent 干活质量挺好。但现实中谁能写出这样的文档？

核心难题在于，人都很懒，怎么在有限的交互中让 Agent 理解我们的真实意图。这不只是技术问题，更是怎么设计交互——用最少的沟通，传递最准确的上下文。

Agent harness 需要更聪明的环境管理，也要更会"读懂"人的意思，而不是指望人类提供完美的任务描述。

我们用 nanobot 开发了一款完整的马里奥游戏，来验证 Agent 在长程任务中的表现。这个过程暴露了一个关键问题：Agent 需要在每一步都做好测试和 evaluation，才能保证整个流程的可靠性。

ToC vs ToB 的容错差异很明显。ToC 场景用户对精度容忍度较高，但 ToB 对 Agent 的交付能力要求极其严格。这意味着面向企业的 Agent 必须具备生产级的稳定性和准确性。

从游戏开发这样的复杂软件工程中可以看出，真正具备生产力的 Agent 不仅要能写代码，更要能做系统性的测试、调试和迭代。这种端到端的能力才是 Agent 从"玩具"向"工具"转变的关键。

从模仿人类到原生交互：CLI 更像是 Agent 的母语

要让 Agent 从助手升级为真正的 AI 生产力工具，仅有 Agent 本体是不够的，关键在于构建一套 Agent-native 的软件交互生态。

我们的日常工作高度依赖 Office 套件、设计软件、3D 建模工具等专业应用，但现有的通用 Agent 很难与这些软件建立有效连接。

过去几年，Computer Use 主要依赖 GUI 路径——让 Agent 模仿人类的视觉感知和鼠标操作。然而这种"拟人化"方案存在两个根本性缺陷：

一是成本过高（每次交互都需要处理复杂的多模态输入链），二是可靠性受限（基于多模态分析的像素级的精准点击，对当下 AI 来说本身就是挑战）。

问题的核心在于，GUI 天然是为人类认知模式设计的交互语言，强制 Agent 去适配人类界面，本质上是一种"削足适履"的妥协。

真正的突破可能需要我们重新思考交互范式——不是教会 Agent 使用人类工具，而是为 Agent 重新定义数字世界的交互协议。

与其让 Agent 学会用鼠标，不如让软件学会说 Agent 的语言——CLI 可能更是 Agent-native 的 Computer Use 方式。

我们反思了一个问题：为什么一定要让 AI 像人一样操作界面？ AI 完全可以有自己更高效的交互模式。

所以我们做了CLI Anything，把各种软件包装成命令行接口，让 Agent 直接通过 CLI 操作，而不是费力模拟人类点击。

现在CLI Hub上已经有 80 个软件，31 个分类。我们觉得未来软件使用应该是 CLI+GUI 的混合模式：Agent 通过 CLI 高效完成复杂任务，人类通过 GUI 享受直观体验。

想想看，Agent 直接用命令行操作 3D 建模、设计软件这些专业工具，用户不用学复杂软件，开发者也不用写一堆 API 文档。

这种分工更合理—同一个软件，给 AI 提供 CLI 接口干活，给人类提供 GUI 界面享受，各自用最适合的方式，这才是真正的 AI-native 架构。

Agent 如何自己变强：skill 进化与 Swarm 实验

刚才讲了生态中的软件操作，接下来说说自进化。

为什么 Agent 需要自进化？因为我们希望它在复杂任务中能总结经验、沉淀价值信息。

目前有三种自进化路线：

适应环境：迭代 workflow 和 harness；

技能沉淀：把经验总结成可复用的 skill（就像人学新东西，生物特征没变，但经验更丰富了）；

参数更新：把 Agentic 任务的能力通过 reward 学到模型参数里。

第一和第三种路线都有泛化性差的问题——针对特定场景进化的 Agent 很难复用到其他地方。

所以我们选择第二种路线，做了 Open Space 来实现 skill-based 的 Agent 自进化。但现实中基于 skill 的进化也面临几个核心挑战：

第一，高质量 skill 稀缺；

第二，精准匹配困难——比如做量化交易，skill 库里有市场级、股票级、一级市场、二级市场各种粒度，到底该选哪个？

第三，粒度管理复杂——不同层级的 skill 如何有效组织和检索。

从 MCP 演进到 skill，这些根本问题并没有解决。我们希望借鉴 wiki 的检索机制来管理 skill，解决多粒度匹配的挑战，这样才能实现真正有效的自进化。

我们在来自 44 个行业、一共 220 个任务上测试了 Agent 进化前后的差别，发现 token 消耗显著减少，任务完成度明显提升。

更重要的是，Agent 能通过学习大幅降低自己的运行成本。

接下来我们做了个更大胆的实验：

用 8 个 Agent 调用 8 张 H100 显卡，去训练一个大语言模型。23 小时内模型性能提升了 6%，工作量相当于我们组一个博士 3 周的活。

这个实验验证了 Agent Swarm 的可行性，但发现关键洞察：3-5 个 Agent 就够了，更多不见得更好。目前行业还没摸清 Agent 数量的 scaling law。

当下除了 coding，很多 Agent Swarm 场景缺乏有效的质量验证，我们很难判断最优配置。

关键问题不是堆数量，而是在特定任务复杂度下，需要多少 Agent 以及如何分工。

与人类团队不同，Agent 协作成本更低、沟通延迟几乎为零，这可能重新定义最优团队规模。

但 paradox 是：零沟通成本理论上支持更大规模协作，实际效果却可能在小规模达到峰值。

这暗示 Agent 协作的瓶颈不在沟通，而在任务分解、冲突协调的复杂度、上下文对齐，以及每个步骤的精准验证。Agent 越多，这些隐性成本可能呈指数级增长。

还有个有趣发现：学生们在 vibe coding 时，会把 Agent 集群的协同过程可视化——任务分发、完成、交互全流程都能看到。

这不只是炫技，而是在碎片化的工作时间里提供情绪价值，让等待变得有趣。

我们做了 AI researcher Agent 来赋能科研。核心价值很明确：如果以前一周只能试错一种算法，现在一周能试几十种。

科研本质就是试错和信息关联，Agent 能大幅加速这个过程，特别是帮新手快速梳理领域信息。

但关键挑战在于如何探索出高质量的科研成果。科研的质量验证往往也很挑战，因为真正有价值的科研发现可能需要几个月甚至几年才能被验证。

这带来一个悖论：Agent 能加速试错，但无法加速验证。我们可能陷入"快速产出低质量假设"的陷阱，而不是"深入探索高质量洞察"。

这就是我们整个 Agent 生态的布局：从 nanobot 单体 Agent，到 computer use、Agent 协同和自进化，我们希望能突破现有 Agent 的边界。

未来 Agent 的价值不只在于单点突破，而在于整个生态协同。

最后感谢我的团队，说实话有没有我作为导师，他们都能做得不错。Credit 也应该给到团队的小伙伴们在开源项目上的持续迭代。

也很感谢整个开源社区的小伙伴们，目前 AI Agent 很多技术还处在百花齐放的阶段，开源往往能够让大家更好地一起探索技术边界，避免各自闭门造车。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

超千人线下参与、数百万观众在线观看的中国 AIGC 产业峰会实录来了！

近 20 位 AI 实战派如何看 Agent、多模态、应用、算力 ... 全部干货，点击回顾 � �

一键关注 � � 点亮星标

科技前沿进展每日见杠杆股票平台

元股证券官方网站提示：本文来自互联网，不代表本网站观点。

AI原生时代下，让世界适应Agent，而非教AI做人

近一年港股市场在当前宽幅震荡周期里中杠杆资金的风控体系机会与

近一年A股市场处于存量博弈格局的阶段中杠杆资金的市场情绪操作

A股市场在热点快速轮动时期中中实盘配资平台的投资行为新特征与

全球资本市场面对存量博弈格局的市场环境中股票配资的风险管理趋

投资者报告：近一年场内活跃资金使用杠杆资金的产品设计

国际经济新闻回顾 sy

东南亚市场回顾：再融资

港股市场在热点快速轮动时期背景下中配资炒股的资金效率实践路径

这种“红包”又痛又肿，硬挤真的很危险！了解这些少跑医院

AI原生时代下，让世界适应Agent，而非教AI做人

发售两周就下架的《种植园模拟器》，一场“找骂”的社会实验

预售18.99万起 2027款星途ES将于7月12日上市搭载猎鹰700

有望2027年3月起投产纯电宝马M3动力曝光综合功率或超1000kW