林俊旸昨天深夜发文(文末附),谈到模型训练正在从推理思维转向智能体思维,不只是让模型想得更久,而是让它学会在真实环境里行动。
以下是我和 Dr.Du 围绕这个话题的一次对谈,整理如下。
我:Claude 这几十天只做一件事,就是 Agent,GPT 同期做视频、购物、成人内容等方向,但都没持续推进。
Dr.Du:这个方向听起来不难,但真正难的是细节和工作量。你看到的是 code Agent 表面上的样子,但如果没能在环境里充分模拟真实用户的操作,Agent 是很难稳定运行的。
Dr.Du:比如千问 3.5,用 Open Code 去搭纯 skills 的 Agent。workflow 写得很清楚,路径固定,命名规则也全部锁死。如果是人照着执行,一定能成功。
但跑到多轮的时候,每一轮结束之后都需要去检查、修正。它运行着运行着会忘一些东西。
这倒不一定是 workflow 定义的问题,更可能是多轮 Agent 交互这种场景,对现在的模型来说本身就还是一个难题。
Dr.Du:就是执行过程中逐渐偏掉。比如命名不按规则来了,或者部署测试时突然忘了上一轮怎么连服务器。这种问题很常见,需要不断人工介入。
没有在这种场景下训练过
上下文能力不够
在长上下文里,它不会主动总结和提炼关键步骤
模型要学会一件事:每走一步,把关键状态压缩下来,记住核心信息。这是需要训练的,而且在多轮 Agent 场景里,这件事的难度比想象中要高。
我:Claude 一直在做 Agent,为什么千问不跟?
Dr.Du:不是不想,是难。要做到 Claude 那种稳定性,需要非常严密的设计,这件事不能急。
比如从 MCP 这种模式开始训练,要先在纯代码框架里跑通,再逐步接 skill。等到要处理「超长上下文 + 多轮 MCP」,难度已经非常高了。
我:我用 Cowork,那也算 Agent 吗?它能读本地文件,也能调起浏览器。
Dr.Du:更像是在 Claude Code 上做了一层应用封装。
我:Claude 里有 skill 库,它会自动调用,都内置好了,不用你自己弄,这本质是什么东西?
通用任务平台可以预置,但只要是新任务,就需要你自己写。
这些任务要么是固定工具组合,要么需要你自研代码。模型本身不具备这些能力,所以要通过 skill 补。
Dr.Du:因为它可以去搜 skill 市场,下载下来用。
Dr.Du:不完全是。很多需求是定制的,比如分析你公司内部数据,这种别人没有。
你可以把它理解为:一个人拿着这份说明,也能把事情做完。
难点在于:模型能不能长期遵守,并在整个 session 里保持一致。
Dr.Du:对。大部分模型在这种场景下都还在摸索。比较常见的情况是第一遍能理解,但跑到后面可能会偏掉,卡在某一步,即使再给它看一遍文档,也不一定能恢复状态。
有时候你要写得非常细,连服务器怎么连都要写清楚,但即使这样,稳定性也还是个变量。
我:也可能不是模型本身不行,而是接入 Agent 之后不适应。
如果模型没有这个能力,就要反过来设计:在这种场景下,怎样才能稳定输出,然后围绕这个去训练。Claude 专注在这一件事上,花的时间和积累也更长。
Dr.Du:有,在推理和逻辑能力上能感觉到。工具调用上也更强了,如果给它规划出 MCP 模式那种约束性的调用方式,运用工具的能力比以前好一些。只是在 Agent 这条线上,积累还需要时间。
我:模型又小效果又好又快,还是多模态,其实更新很大。但市场的注意力现在比较集中在 Agent 这个方向。
评论区
共 条评论热门最新