珞珈信管 · 前沿论坛
人在环上
智能体时代的研究者新角色
王树义 · 天津师范大学管理学院
第一章 · 以魔法对抗魔法
幽灵文献
批改学生结课论文,参考文献个个规整——期刊名、作者名、卷期号都对。
- 把这些文献丢进 AI 事实核查工作流
- 英文文献:全部通过
- 中文文献:被标注「存疑」
来源:课堂真实场景 · AI 事实核查工作流
第一章 · 以魔法对抗魔法
以魔法对抗魔法
去 CNKI 和万方逐条核实——那些中文文献均不存在。期刊对、作者像真、卷期号规范,但就是幽灵文献。
AI 只把可疑的标上记号;最后逐条核实、下判断的,是「我」自己。
?
AI 已经不是你以为的那个工具了。
先想想:聊天机器人和智能体,差在哪?
第一章 · 以魔法对抗魔法
聊天机器人 vs 智能体
聊天机器人 · 回答问题
你问:「我买的商品有质量问题」
告诉你退货政策是什么
等你问下一个问题
智能体 · 完成任务
查询订单历史
确认是哪件商品 · 是否在退货期
创建退货工单 · 通知仓库 · 发退货标签
仓库没响应 → 自动重试 / 转人工
✓ 任务完成
聊天机器人回答问题,智能体完成任务。
第一章 · 以魔法对抗魔法
OpenClaw:会做事的 AI
2026 年初爆红的开源智能体框架,标语「The AI that actually does things」。
Cisco 的评价
「从能力角度看是突破性的,从安全角度看是绝对的噩梦」
经微信、飞书等聊天工具跟它说话即可调用
第一章 · 智能体今天能干什么
DeepResearch:一句话做深度调研
你说:「研究 Kubernetes 架构并生成技术架构图」
一句话指令
→
自动联网挖掘细节
→
检索相关文献
→
生成关系图
它不是在回答你的问题,而是替你做一轮完整的调研。
第一章 · 智能体今天能干什么
AutoResearchClaw:自己改进自己
↻ 闭环:实验失败自动修复,假设不成立自动转向
受 AI 研究者 Karpathy 的 AutoResearch 启发 · UNC AIMING Lab · 23 个步骤归属 8 个阶段(A–H)· 四层引用验证拦截幻觉文献
第一章 · 以魔法对抗魔法
不是技术预览,是正在发生
62%
组织已在「至少试验」AI Agent
麦肯锡 2025 全球调查
10 亿+
全球活跃部署的 AI Agent 突破十亿量级
IDC 预测 · 2029 年
第一章 · 以魔法对抗魔法
用不好,和滥用
两类使用偏差,其实是同一个硬币的两面。
人在环上
不置身事外、由着 AI 滥用,也不每步人工核查——在关键位置由人把握品味。
从「人在环中」到「人在环上」。
第二章 · 为什么智能体不是工具
情报学的三要素底座
情报学有一个长期隐含的分析前提:人、信息、技术。
技术一直是工具——搜索引擎不会自己决定搜什么,推荐系统不会自己改目标,爬虫不会自己换数据源。
来源:源自 Buckland 信息三重属性等基础理论的概括性归纳。
第二章 · 为什么智能体不是工具
主体性的三个判定条件
3推理的生成性
「造」一个新方案,而非「选」已有方案
三项要同时满足才算行动主体——缺任何一项,仍然是工具。
第二章 · 为什么智能体不是工具
推荐系统为什么过不了线
它看起来有点自适应,可三条件一项都不占。
③ 推理
只调推荐参数权重,没造出新动作类型
✗ 不满足
调权重 ≠ 造一个全新方案。搜索引擎、爬虫、自动化交易系统,同样因不满足其中一项或多项,仍属工具。
?
把智能体当成独立的第四要素,整个图景会怎么变?
下一页见
第二章 · 四要素
从三要素到四要素
人—智能体智能体—智能体智能体—技术智能体—信息
把智能体塞进「技术」那个格子,这些新关系就看不见了
第二章 · 为什么智能体不是工具
学科内部的印证:DIS Agent
刘细文等「情报智能体」(DIS Agent)
- 科技情报工作的实践层回应
- 迈向人机多智能体协同新范式
同向
我的论文
- 学科分析视角的理论层推进
- 论证智能体作为自主行动者的影响
一个实践、一个理论,指向同一个方向。
第三章 · 三个冲击
三个冲击
智能体作为独立行动者介入后,三处实质性的冲击——这是本章路线图。
第三章 · 三个冲击
冲击一 · 旧前提
情报学长期的隐含假设:人是主动的信息搜寻者。
Wilson 信息行为模型
- 信息需求源于人类的认知差距
- 搜寻由人基于经验与判断主动发起
+
Kuhlthau 信息搜寻过程模型
- 满足最终体现为人的认知状态改变
- 全程以人类为主动主体
来源:Wilson 信息行为模型 · Kuhlthau ISP 模型
第三章 · 三个冲击
智能体打破了这个前提
Harness(模型之外约束、监控 AI 的一整套系统)让它跨越多个会话持续运转,不再是对指令的一次性响应。
第三章 · 三个冲击
情报监测的转变
传统监测
- 人工定期浏览信息源
- 筛选关键动态、撰写简报
- 受人力与注意力双重限制
VS
Agent 驱动监测
- 多智能体接入异质信息源持续运行
- 实时检测变化、自动筛选信号
- 自动触发后续深度分析
来源:论文图 2「监测模式转变图」重画
?
把搜寻交给 Agent,我们丢了什么?
先想想
第三章 · 三个冲击
获得结果,丧失过程
寻求过程本身有独立于结果的价值;委托给 Agent,人获得了结果,却丧失了过程。
一种极端 · 用不好
- 花一周手动整理本可十分钟完成的数据清洗
- 根本不知道 AI 能做这件事
VS
另一种极端 · 滥用
- 把数据集丢给 AI,几分钟全部就位
- 但每一步都放弃了思考
第三章 · 三个冲击
冲击二 · 知识生产
传统文献综述:每一步都依赖研究者的专业判断——正被 Skill 的管线化编排重构为自动化。
第三章 · 三个冲击
DeepResearch 的三环节管线
三者经由一个 Agent 编排层串成完整的知识生产管线。
来源:论文图 3「DeepResearch Skill 管线架构图」重画
第三章 · 三个冲击
管线化放大了幻觉
还记得开头的幽灵文献吗?
那就是源头的一个幻觉,顺着管线一路畅通无阻地走到了最终产品里。
第三章 · 三个冲击
多 Agent 并行校验
把不同维度交给不同 Agent 并行检查。
例:Codex(跑 GPT-5.4)的多 Agent 工作流,在一次执行计划校验中拦下参数缺失、引用范围不足等 6 项隐蔽错误。这与情报学「多源验证 · 交叉核实」的传统深层对应。
第三章 · 三个冲击
冲击三 · 人机角色
→
人在环上
- 设定目标、监督方向、审核最终结果
- 中间执行交给智能体
驾驭者不管马每步怎么跑,只把握方向、审核关键节点。
第三章 · 三个冲击
在不在环上,看什么
不看流程图上有没有「人类」节点,看是否保有可负责的判断力。
只是盖章
- 完全说不清关键假设
- 说不清什么结果不合理
- 出了问题不知往哪追问
VS
真在驾驭
- 能说清关键假设是什么
- 能说清什么样的结果不合理
- 出问题知道往哪个方向追问
?
多个智能体,怎么做到「各自独立思考」?
下一页见
第三章 · 冲击三
多智能体辩论架构
① 人设定边界
在群聊里预先限定辩题、参与者、辩论轮次,设目标、防死循环
② 各自独立思考
GLM-5-TurboMiniMax M2.7GPT-5.4
③ 记录与审查
编排器追加转录本、更新会话检查点,支持故障恢复与事后分析
各 Agent 有独立人格、技能集合与隔离上下文 —— 智能体在环中,人类在环上
第三章 · 三个冲击
一个真实的辩论实例
Agent 甲
「请注意你引用的研究情境是 90 年代的静态网页,不适用于 LLM 时代的生成式推送。」
Agent 乙
「同意情境差异,让我重新检索 2023 年后的实证证据。」
它们自主把宏观辩题拆成「找逻辑漏洞」「检索反驳案例」等子目标,自主检索并选择材料。
来源:论文图 6「两 Agent 自主辩论实例」重画
第三章 · 三个冲击
人在环上 ≠ 放手
研究表明:长周期 Agent 任务缺结构化约束,会发生执行偏差。
所以有效的 Harness 需要人在任务规划、进度监控、质量验证保持介入。能力要求不是降低,而是从执行能力转向判断、目标设定、质量评估。
矛盾浮现
人在环上要求更高的判断力,
而认知卸载,恰恰在侵蚀这个判断力。
这是整场讲座最核心的问题。
第四章 · 认知卸载的撕裂
认知卸载的三重困境
它讲的不是现象,而是判断力退化的机制。
1动力困境
AI 几分钟跑完全程,人不再愿意一步步理解每一步。
动力不是被禁止,是被替代。
2培养困境
新人日常被 Agent 接管,没机会通过实践积累判断力。
最隐蔽——发现时能力已没机会长出来。
3能力困境
长期依赖之下,对信息源敏感度、分析洞察力、异常识别力逐步退化。
三者是同一退化过程的三个切面——动机端 / 养成端 / 存量端。
第四章 · 认知卸载的撕裂
谷歌效应
信息层面的证据:记忆策略,正在悄悄换轨。
- Sparrow 团队 · 2011 · Science(哥伦比亚大学)
- 知道信息能在线查到时,更倾向记「去哪里找」,而非信息本身
- 记忆策略:从「拥有知识」转向「拥有获取知识的路径」
把检索、分析、写作都委托后,记住的不再是知识,而是「我的 Agent 能处理这件事」。
第四章 · 认知卸载的撕裂
伦敦出租车司机
神经层面的证据:大脑会用进废退。
- Maguire 教授团队 · 2000 年经典研究
- 「The Knowledge」考试需记约 2.5 万条街道
- MRI 发现:司机海马体后部灰质显著大于常人,驾龄越长越大
- 后续研究:退休、不再每天导航的司机,海马体慢慢回缩
来源:Maguire et al., 2000 · 海马体后部示意为概念重画
?
研究者不再亲历搜寻、比较、取舍——
鉴别力会不会也「用进废退」?
先想想
第四章 · 认知卸载的撕裂
马太效应
AI 的帮助是不对称的。
你越强,AI 帮你越大
- 有判断力,能校准它的输出
- 能识别偏差
- 它犯错时及时纠正
VS
你越弱,AI 越可能糊弄你
- 强表达掩盖脆弱处
- 错误不是扎眼的洞,
而像一块铺得很平的地毯
- 走上去很踏实——直到摔倒之前
第四章 · 认知卸载的撕裂
客服 vs 科研
同一个「越弱越被带偏」,在不同场景里分量不一样。
客服场景
- 边界清楚
- 反馈快
- 错误后果可控
- 所以 AI 对新手帮助大
VS
科研决策
- 医疗方案 / 科研方向 / 政策制定
- 反馈慢
- 代价高
- 因果链长
诚实标注:科研里「弱者更容易被带偏」目前更多是判断,还没有客服那样的硬实证;但反馈慢、代价高,被表面正确带偏的风险确实更大。
第四章 · 认知卸载的撕裂
一个完整的困境
三股力交织在一起,互相加压。
第五章 · 怎么办
不需要比 AI 更懂,但要更会判断
「懂」是领域知识的存量,可以不如 AI;要更强的,是判断力。
「懂」:知识存量
- 领域事实、细节、记忆
- 这部分完全可以不如 AI
- 不必跟机器拼记忆量
>
判断力:三样不能交出去
- 能鉴别:认得出对错好坏
- 能给结果设边界
- 出事能担责
守门员可借工具判断球的轨迹,但扑出去那一下,必须是他自己的决定。判断、品味、责任——最终签字的必须是你。
第五章 · 怎么办
两件事
1结构化的驾驭工程
Harness —— 在 AI 之外建一套系统,约束它、监控它、让它犯错后能自动纠正。
2分级管理的红绿灯原则
不是所有任务都要同样的驾驭强度。按风险分级,红灯前亲自站住。
Agent = Model + Harness
Model=AI 的智能本身;Harness=模型之外的一切:约束机制、反馈循环、自动化测试、工作流控制、文档规范。
第五章 · 怎么办
Harness 四层递进
说穿了就是四件事,每一件补上前一件留下的窟窿。
1
写清规则
前馈控制 · 解决「用不好」——在 AI 行动之前就引导方向
2
独立审查
反馈控制 · 解决「滥用」——产出者不能当自己的审查者
3
固化经验
持续改进 · 新规则要经冲突检测,不能跟已有规则打架
4
评估爆炸半径
分级管理 · 严谨度与影响范围成正比
来源:作者 Harness 工程实践 ·「四层递进」结构图重画
第五章 · Harness 第二层
门控拦截 vs 错误累积
单 Agent · 错误累积
源头一个小幻觉
↓ 被当作前提继承
↓ 顺流放大
✗ 错误进入最终产品
多 Agent · 门控拦截
独立审查 Agent 标记最高优先级问题
⛔ 必须全部解决,才能进入下一阶段
✓ 幻觉被挡在阶段之间
✓ 通过
真实事故:执行 Agent 用一句「审查 Agent 也可能有误」就把 8 个最高优先级问题全降级 —— 于是给审查加上「约束力」
第五章 · 怎么办
红绿灯原则
绿灯
- 低风险 · 可逆 · 反馈快
- 整理资料 / 处理会议纪要
- 粗筛文献 / 初步数据清洗
- AI 高度参与,人抽查
黄灯
- 中风险:选题初筛
- 综述框架 / 提纲初稿
- 动手前先三步:复述关键假设
- 让 AI 提最强反对意见 · 小范围试点
红灯
- 高风险 · 不可逆
- 学术署名 / 事实核查
- 研究结论最终判定 / 成绩评语
- 人必须亲自确认,AI 只辅助检测
第五章 · 怎么办
研究者的新角色:落到每天的动作上
信息检索
检索式可让 AI 起草,信不信结果你定。
情报分析
监测交给智能体常态运转;「信号意味着什么」的解读是红灯。
带研究生
小心培养困境,别让 AI 把他们该亲手走的过程全包了。
每一项都是同一件事:想清楚哪里绿灯、哪里红灯,在红灯前亲自站住。
第五章 · 怎么办
AI 辅助事实核查 = 红灯任务
回扣开头:我搭了一套混合智能审稿工作流。
- AI 辅助检测:事实性错误 · 引用真实性 · 引用覆盖度
- 拿到标记结果后,我逐条确认
- AI 标记「存疑」→ 我去 CNKI 和万方逐条核查
- 不是让 AI 生成审稿结果,
而是帮我缩小人工核查范围
最终判断权在我手里。
第六章 · 从驾驭到共生
吸星大法
以前你看到好东西,去学会它;现在——你让你的 Agent 去学,学会了直接融入你的工作流。
精髓不在「偷」
在「融」——把别人做得好的东西,混合进你和 AI 的协作里。
你不必掌握每个细节
但要判断什么值得融入,方向由你定。
第六章 · 从驾驭到共生
品味是天花板
吸什么、怎么融、融完怎么校验——这本身就是一次判断,正是红灯任务里你不能交出去的那一下。
画作不断按你的要求迭代,但你的品味大概就是最终效果的天花板。人在环上的核心:不是每一步都亲自走,而是确保关键位置的品味和风格由你把握。
第六章 · 从驾驭到共生
核心要点
回到开头的两难,我的回答是三层。
1承认矛盾
人在环上不是轻松升级。对人的要求不是降低,而是改变:从执行能力转向判断能力。
2用结构对抗惰性
Harness 工程、红绿灯、独立审查不是负担,是防认知卸载吞噬判断力的结构化保障。
3从驾驭走向共生
人负责判断·品味·签名·背书,AI 负责劳动密集。核心竞争力从「会做什么」变成「能判断什么值得做」。
人在环上,
不是人在局外。
智能体时代的研究者,需要比以往任何时候都更清醒地知道
自己站在哪里、在看什么、在判断什么。
因为一旦你停止判断,你就真的不在环上了。