关于林俊旸最新发文的对谈

本文系用户投稿，不代表机核网观点

林俊旸昨天深夜发文（文末附），谈到模型训练正在从推理思维转向智能体思维，不只是让模型想得更久，而是让它学会在真实环境里行动。
以下是我和 Dr.Du 围绕这个话题的一次对谈，整理如下。
我：Claude 这几十天只做一件事，就是 Agent，GPT 同期做视频、购物、成人内容等方向，但都没持续推进。
Dr.Du：这个方向听起来不难，但真正难的是细节和工作量。你看到的是 code Agent 表面上的样子，但如果没能在环境里充分模拟真实用户的操作，Agent 是很难稳定运行的。

   
    
  
   
    
  
   
    
  

模型在多轮稳定性上的挑战
Dr.Du：比如千问 3.5，用 Open Code 去搭纯 skills 的 Agent。workflow 写得很清楚，路径固定，命名规则也全部锁死。如果是人照着执行，一定能成功。
但跑到多轮的时候，每一轮结束之后都需要去检查、修正。它运行着运行着会忘一些东西。

这倒不一定是 workflow 定义的问题，更可能是多轮 Agent 交互这种场景，对现在的模型来说本身就还是一个难题。
我：什么叫多轮 Agent 交互？
Dr.Du：有几种情况：
一种是长流程任务，一步一步执行
一种是每一步都要调用工具，工具返回结果，这本身就是一轮
还有一种是用户中途干预、修改需求，模型继续执行，这也算一轮
我：那和普通聊天的区别，就是多了工具调用？
Dr.Du：可以这么理解。关键差别就在这里。
我：那它具体是怎么忘的？
Dr.Du：就是执行过程中逐渐偏掉。比如命名不按规则来了，或者部署测试时突然忘了上一轮怎么连服务器。这种问题很常见，需要不断人工介入。
我：为什么会忘？
Dr.Du：有几个原因：
没有在这种场景下训练过
上下文能力不够
在长上下文里，它不会主动总结和提炼关键步骤
模型要学会一件事：每走一步，把关键状态压缩下来，记住核心信息。这是需要训练的，而且在多轮 Agent 场景里，这件事的难度比想象中要高。
稳定运行，是一道设计题
我：Claude 一直在做 Agent，为什么千问不跟？
Dr.Du：不是不想，是难。要做到 Claude 那种稳定性，需要非常严密的设计，这件事不能急。
比如从 MCP 这种模式开始训练，要先在纯代码框架里跑通，再逐步接 skill。等到要处理「超长上下文 + 多轮 MCP」，难度已经非常高了。
我：我用 Cowork，那也算 Agent 吗？它能读本地文件，也能调起浏览器。
Dr.Du：更像是在 Claude Code 上做了一层应用封装。
Skill=idea
我：Claude 里有 skill 库，它会自动调用，都内置好了，不用你自己弄，这本质是什么东西？
Dr.Du：本质上是一种idea。
通用任务平台可以预置，但只要是新任务，就需要你自己写。
这些任务要么是固定工具组合，要么需要你自研代码。模型本身不具备这些能力，所以要通过 skill 补。
我：那为什么有些 skill 可以直接复用？
Dr.Du：因为它可以去搜 skill 市场，下载下来用。
我：那说明这些都是通用需求？
Dr.Du：不完全是。很多需求是定制的，比如分析你公司内部数据，这种别人没有。
你可以把它理解为：一个人拿着这份说明，也能把事情做完。
难点在于：模型能不能长期遵守，并在整个 session 里保持一致。
我：这是比较普遍的挑战吧？
Dr.Du：对。大部分模型在这种场景下都还在摸索。比较常见的情况是第一遍能理解，但跑到后面可能会偏掉，卡在某一步，即使再给它看一遍文档，也不一定能恢复状态。
有时候你要写得非常细，连服务器怎么连都要写清楚，但即使这样，稳定性也还是个变量。
方向的选择
我：也可能不是模型本身不行，而是接入 Agent 之后不适应。
Dr.Du：没有前人，大家都在摸索。
如果模型没有这个能力，就要反过来设计：在这种场景下，怎样才能稳定输出，然后围绕这个去训练。Claude 专注在这一件事上，花的时间和积累也更长。
我：千问 3.5 有提升吗？
Dr.Du：有，在推理和逻辑能力上能感觉到。工具调用上也更强了，如果给它规划出 MCP 模式那种约束性的调用方式，运用工具的能力比以前好一些。只是在 Agent 这条线上，积累还需要时间。
我：模型又小效果又好又快，还是多模态，其实更新很大。但市场的注意力现在比较集中在 Agent 这个方向。
Dr.Du：可以这么看。
关联阅读：千问负责人林俊旸是语言学出身
附林俊旸全文：

   
    
  
   
    
  
   
    
  

本文首发语言学公众号「言辞之间」。