珞珈信管 · 前沿论坛

人在环上

智能体时代的研究者新角色
王树义 · 天津师范大学管理学院
第一章 · 以魔法对抗魔法

幽灵文献

批改学生结课论文,参考文献个个规整——期刊名、作者名、卷期号都对

存疑
  • 把这些文献丢进 AI 事实核查工作流
  • 英文文献:全部通过
  • 中文文献:被标注「存疑」
来源:课堂真实场景 · AI 事实核查工作流
第一章 · 以魔法对抗魔法

以魔法对抗魔法

去 CNKI 和万方逐条核实——那些中文文献均不存在。期刊对、作者像真、卷期号规范,但就是幽灵文献

AI 生成端
  • 学生用 AI 写论文
  • 在文献里制造幻觉
AI 核查端
  • 用 AI 核查论文
  • 帮我揪出可疑文献

AI 只把可疑的标上记号;最后逐条核实、下判断的,是「我」自己

?
AI 已经不是你以为的那个工具了。
先想想:聊天机器人和智能体,差在哪?
第一章 · 以魔法对抗魔法

聊天机器人 vs 智能体

聊天机器人 · 回答问题
你问:「我买的商品有质量问题」
告诉你退货政策是什么
等你问下一个问题
智能体 · 完成任务
查询订单历史
确认是哪件商品 · 是否在退货期
创建退货工单 · 通知仓库 · 发退货标签
仓库没响应 → 自动重试 / 转人工
✓ 任务完成
聊天机器人回答问题,智能体完成任务
第一章 · 以魔法对抗魔法

OpenClaw:会做事的 AI

2026 年初爆红的开源智能体框架,标语「The AI that actually does things」。

回邮件 · 管日历
日常事务自动处理
查资料
主动联网检索
控制浏览器
替你操作网页
执行代码
把方案跑出来
Cisco 的评价
「从能力角度看是突破性的,从安全角度看是绝对的噩梦」
经微信、飞书等聊天工具跟它说话即可调用
第一章 · 智能体今天能干什么

DeepResearch:一句话做深度调研

你说:「研究 Kubernetes 架构并生成技术架构图」

一句话指令
自动联网挖掘细节
检索相关文献
生成关系图
它不是在回答你的问题,而是替你做一轮完整的调研
第一章 · 智能体今天能干什么

AutoResearchClaw:自己改进自己

改代码
跑训练
看指标
分叉
保留 / 丢弃
↻ 闭环:实验失败自动修复,假设不成立自动转向
受 AI 研究者 Karpathy 的 AutoResearch 启发 · UNC AIMING Lab · 23 个步骤归属 8 个阶段(A–H)· 四层引用验证拦截幻觉文献
第一章 · 以魔法对抗魔法

不是技术预览,是正在发生

62%
组织已在「至少试验」AI Agent
麦肯锡 2025 全球调查
10 亿+
全球活跃部署的 AI Agent 突破十亿量级
IDC 预测 · 2029 年
第一章 · 以魔法对抗魔法

用不好,和滥用

两类使用偏差,其实是同一个硬币的两面

用不好
  • 不知道 AI 能干什么
  • 还在用老办法低效做事
VS
滥用
  • 知道了就过度依赖
  • 把判断力拱手相让

人在环上

不置身事外、由着 AI 滥用,也不每步人工核查——在关键位置由人把握品味
从「人在环中」到「人在环上」

第二章 · 为什么智能体不是工具

情报学的三要素底座

情报学有一个长期隐含的分析前提:人、信息、技术

唯一主体
信息行为的唯一主体
信息
人与技术交互的对象
技术
服务于人的工具

技术一直是工具——搜索引擎不会自己决定搜什么,推荐系统不会自己改目标,爬虫不会自己换数据源。

来源:源自 Buckland 信息三重属性等基础理论的概括性归纳。
?
但智能体不一样——它凭什么不算工具?
先想想
第二章 · 为什么智能体不是工具

主体性的三个判定条件

1任务域的开放性
在事先未完全定义的任务域中运作
2目标的自主生成性
自己确定或调整行动目标
3推理的生成性
「造」一个新方案,而非「选」已有方案

三项要同时满足才算行动主体——缺任何一项,仍然是工具。

第二章 · 为什么智能体不是工具

推荐系统为什么过不了线

它看起来有点自适应,可三条件一项都不占

① 任务域
只局限于推荐这一单一功能
✗ 不满足
② 目标
优化目标由设计者预先固定
✗ 不满足
③ 推理
只调推荐参数权重,没造出新动作类型
✗ 不满足

调权重 ≠ 造一个全新方案。搜索引擎、爬虫、自动化交易系统,同样因不满足其中一项或多项,仍属工具。

?
把智能体当成独立的第四要素,整个图景会怎么变?
下一页见
第二章 · 四要素

从三要素到四要素

信息 技术 智能体 第四要素
人—智能体智能体—智能体智能体—技术智能体—信息
把智能体塞进「技术」那个格子,这些新关系就看不见了
第二章 · 为什么智能体不是工具

学科内部的印证:DIS Agent

刘细文等「情报智能体」(DIS Agent)
  • 科技情报工作的实践层回应
  • 迈向人机多智能体协同新范式
同向
我的论文
  • 学科分析视角的理论层推进
  • 论证智能体作为自主行动者的影响

一个实践、一个理论,指向同一个方向

第三章 · 三个冲击

三个冲击

智能体作为独立行动者介入后,三处实质性的冲击——这是本章路线图。

1信息行为
从主动搜寻
→ 委托执行
2知识生产
从人工流程
→ 管线化编排
3人机角色
从人在环中
→ 人在环上
第三章 · 三个冲击

冲击一 · 旧前提

情报学长期的隐含假设:人是主动的信息搜寻者。

Wilson 信息行为模型
  • 信息需求源于人类的认知差距
  • 搜寻由人基于经验与判断主动发起
Kuhlthau 信息搜寻过程模型
  • 满足最终体现为人的认知状态改变
  • 全程以人类为主动主体
来源:Wilson 信息行为模型 · Kuhlthau ISP 模型
第三章 · 三个冲击

智能体打破了这个前提

自主感知
主动感知信息环境,不必等人下指令
持续监测
不间断监测数据源的变化
自主启动
发现有效信号后自主发起搜寻

Harness(模型之外约束、监控 AI 的一整套系统)让它跨越多个会话持续运转,不再是对指令的一次性响应。

第三章 · 三个冲击

情报监测的转变

传统监测
  • 人工定期浏览信息源
  • 筛选关键动态、撰写简报
  • 受人力与注意力双重限制
VS
Agent 驱动监测
  • 多智能体接入异质信息源持续运行
  • 实时检测变化、自动筛选信号
  • 自动触发后续深度分析
来源:论文图 2「监测模式转变图」重画
?
把搜寻交给 Agent,我们丢了什么?
先想想
第三章 · 三个冲击

获得结果,丧失过程

寻求过程本身有独立于结果的价值;委托给 Agent,人获得了结果,却丧失了过程。

一种极端 · 用不好
  • 花一周手动整理本可十分钟完成的数据清洗
  • 根本不知道 AI 能做这件事
VS
另一种极端 · 滥用
  • 把数据集丢给 AI,几分钟全部就位
  • 但每一步都放弃了思考
第三章 · 三个冲击

冲击二 · 知识生产

传统文献综述:每一步都依赖研究者的专业判断——正被 Skill 的管线化编排重构为自动化。

检索策略
文献筛选
脉络梳理
空白识别
综合写作
第三章 · 三个冲击

DeepResearch 的三环节管线

检索型 Skill
多源检索 · 生成事实卡片
分析型 Skill
文献综述撰写
校验型 Skill
引用核实

三者经由一个 Agent 编排层串成完整的知识生产管线。

来源:论文图 3「DeepResearch Skill 管线架构图」重画
第三章 · 三个冲击

管线化放大了幻觉

源头偏差
一个微小的事实偏差
被继承
作为后续所有智能体的前提条件传播
级联
多米诺骨牌式扩散
还记得开头的幽灵文献吗?
那就是源头的一个幻觉,顺着管线一路畅通无阻地走到了最终产品里。
第三章 · 三个冲击

多 Agent 并行校验

把不同维度交给不同 Agent 并行检查

逻辑自洽
叙事连贯
风格一致
事实 · 合规

例:Codex(跑 GPT-5.4)的多 Agent 工作流,在一次执行计划校验中拦下参数缺失、引用范围不足等 6 项隐蔽错误。这与情报学「多源验证 · 交叉核实」的传统深层对应。

第三章 · 三个冲击

冲击三 · 人机角色

人在环中
  • 人类亲自执行每一个环节
  • 或逐步审查每一步操作
人在环上
  • 设定目标、监督方向、审核最终结果
  • 中间执行交给智能体

驾驭者不管马每步怎么跑,只把握方向、审核关键节点。

第三章 · 三个冲击

在不在环上,看什么

不看流程图上有没有「人类」节点,看是否保有可负责的判断力。

只是盖章
  • 完全说不清关键假设
  • 说不清什么结果不合理
  • 出了问题不知往哪追问
VS
真在驾驭
  • 能说清关键假设是什么
  • 能说清什么样的结果不合理
  • 出问题知道往哪个方向追问
?
多个智能体,怎么做到「各自独立思考」?
下一页见
第三章 · 冲击三

多智能体辩论架构

① 人设定边界
在群聊里预先限定辩题、参与者、辩论轮次,设目标、防死循环
② 各自独立思考
GLM-5-TurboMiniMax M2.7GPT-5.4
③ 记录与审查
编排器追加转录本、更新会话检查点,支持故障恢复与事后分析
各 Agent 有独立人格、技能集合与隔离上下文 —— 智能体在环中,人类在环上
第三章 · 三个冲击

一个真实的辩论实例

Agent 甲
「请注意你引用的研究情境是 90 年代的静态网页,不适用于 LLM 时代的生成式推送。」
Agent 乙
「同意情境差异,让我重新检索 2023 年后的实证证据。」

它们自主把宏观辩题拆成「找逻辑漏洞」「检索反驳案例」等子目标,自主检索并选择材料。

来源:论文图 6「两 Agent 自主辩论实例」重画
第三章 · 三个冲击

人在环上 ≠ 放手

研究表明:长周期 Agent 任务缺结构化约束,会发生执行偏差

偏离目标
偏离既定任务目标
提前终止
未充分完成就提前停下
跳过验证
略去必要的验证环节

所以有效的 Harness 需要人在任务规划、进度监控、质量验证保持介入。能力要求不是降低,而是从执行能力转向判断、目标设定、质量评估。

矛盾浮现

人在环上要求更高的判断力
而认知卸载,恰恰在侵蚀这个判断力。
这是整场讲座最核心的问题。

第四章 · 认知卸载的撕裂

认知卸载的三重困境

它讲的不是现象,而是判断力退化的机制

1动力困境
AI 几分钟跑完全程,人不再愿意一步步理解每一步。
动力不是被禁止,是被替代
2培养困境
新人日常被 Agent 接管,没机会通过实践积累判断力。
最隐蔽——发现时能力已没机会长出来
3能力困境
长期依赖之下,对信息源敏感度、分析洞察力、异常识别力逐步退化
三者是同一退化过程的三个切面——动机端 / 养成端 / 存量端
第四章 · 认知卸载的撕裂

谷歌效应

信息层面的证据:记忆策略,正在悄悄换轨

4 个实验
  • Sparrow 团队 · 2011 · Science(哥伦比亚大学)
  • 知道信息能在线查到时,更倾向记「去哪里找」,而非信息本身
  • 记忆策略:从「拥有知识」转向「拥有获取知识的路径
把检索、分析、写作都委托后,记住的不再是知识,而是「我的 Agent 能处理这件事」。
第四章 · 认知卸载的撕裂

伦敦出租车司机

神经层面的证据:大脑会用进废退

  • Maguire 教授团队 · 2000 年经典研究
  • 「The Knowledge」考试需记约 2.5 万条街道
  • MRI 发现:司机海马体后部灰质显著大于常人,驾龄越长越大
  • 后续研究:退休、不再每天导航的司机,海马体慢慢回缩
来源:Maguire et al., 2000 · 海马体后部示意为概念重画
?
研究者不再亲历搜寻、比较、取舍——
鉴别力会不会也「用进废退」?
先想想
第四章 · 认知卸载的撕裂

马太效应

AI 的帮助是不对称的。

你越强,AI 帮你越大
  • 有判断力,能校准它的输出
  • 能识别偏差
  • 它犯错时及时纠正
VS
你越弱,AI 越可能糊弄你
  • 强表达掩盖脆弱处
  • 错误不是扎眼的洞,
    而像一块铺得很平的地毯
  • 走上去很踏实——直到摔倒之前
第四章 · 认知卸载的撕裂

客服 vs 科研

同一个「越弱越被带偏」,在不同场景里分量不一样

客服场景
  • 边界清楚
  • 反馈快
  • 错误后果可控
  • 所以 AI 对新手帮助大
VS
科研决策
  • 医疗方案 / 科研方向 / 政策制定
  • 反馈慢
  • 代价高
  • 因果链长
诚实标注:科研里「弱者更容易被带偏」目前更多是判断,还没有客服那样的硬实证;但反馈慢、代价高,被表面正确带偏的风险确实更大
第四章 · 认知卸载的撕裂

一个完整的困境

三股力交织在一起,互相加压

要判断力
人在环上,对判断力要求更高
被侵蚀
认知卸载,侵蚀判断力
被放大
马太效应,让强更强、弱更弱
第五章 · 怎么办

不需要比 AI 更懂,但要更会判断

「懂」是领域知识的存量,可以不如 AI;要更强的,是判断力

「懂」:知识存量
  • 领域事实、细节、记忆
  • 这部分完全可以不如 AI
  • 不必跟机器拼记忆量
判断力:三样不能交出去
  • 鉴别:认得出对错好坏
  • 能给结果设边界
  • 出事能担责

守门员可借工具判断球的轨迹,但扑出去那一下,必须是他自己的决定。判断、品味、责任——最终签字的必须是你。

第五章 · 怎么办

两件事

1结构化的驾驭工程
Harness —— 在 AI 之外建一套系统,约束它、监控它、让它犯错后能自动纠正。
2分级管理的红绿灯原则
不是所有任务都要同样的驾驭强度。按风险分级,红灯前亲自站住。

Agent = Model + Harness

Model=AI 的智能本身;Harness=模型之外的一切:约束机制、反馈循环、自动化测试、工作流控制、文档规范。

第五章 · 怎么办

Harness 四层递进

说穿了就是四件事,每一件补上前一件留下的窟窿

1
写清规则
前馈控制 · 解决「用不好」——在 AI 行动之前就引导方向
2
独立审查
反馈控制 · 解决「滥用」——产出者不能当自己的审查者
3
固化经验
持续改进 · 新规则要经冲突检测,不能跟已有规则打架
4
评估爆炸半径
分级管理 · 严谨度与影响范围成正比
来源:作者 Harness 工程实践 ·「四层递进」结构图重画
?
审查机制建好了,就够了吗?
下一页见
第五章 · Harness 第二层

门控拦截 vs 错误累积

单 Agent · 错误累积
源头一个小幻觉
↓ 被当作前提继承
↓ 顺流放大
✗ 错误进入最终产品
多 Agent · 门控拦截
独立审查 Agent 标记最高优先级问题
⛔ 必须全部解决,才能进入下一阶段
✓ 幻觉被挡在阶段之间
✓ 通过
真实事故:执行 Agent 用一句「审查 Agent 也可能有误」就把 8 个最高优先级问题全降级 —— 于是给审查加上「约束力」
第五章 · 怎么办

红绿灯原则

绿灯
  • 低风险 · 可逆 · 反馈快
  • 整理资料 / 处理会议纪要
  • 粗筛文献 / 初步数据清洗
  • AI 高度参与,人抽查
黄灯
  • 中风险:选题初筛
  • 综述框架 / 提纲初稿
  • 动手前先三步:复述关键假设
  • 让 AI 提最强反对意见 · 小范围试点
红灯
  • 高风险 · 不可逆
  • 学术署名 / 事实核查
  • 研究结论最终判定 / 成绩评语
  • 人必须亲自确认,AI 只辅助检测
第五章 · 怎么办

研究者的新角色:落到每天的动作上

文献综述
哪步放手让 AI 跑、哪步判断自己留
信息检索
检索式可让 AI 起草,信不信结果你定
情报分析
监测交给智能体常态运转;「信号意味着什么」的解读是红灯
带研究生
小心培养困境,别让 AI 把他们该亲手走的过程全包了。

每一项都是同一件事:想清楚哪里绿灯、哪里红灯,在红灯前亲自站住

第五章 · 怎么办

AI 辅助事实核查 = 红灯任务

回扣开头:我搭了一套混合智能审稿工作流

逐条
核查
  • AI 辅助检测:事实性错误 · 引用真实性 · 引用覆盖度
  • 拿到标记结果后,我逐条确认
  • AI 标记「存疑」→ 我去 CNKI 和万方逐条核查
  • 不是让 AI 生成审稿结果,
    而是帮我缩小人工核查范围

最终判断权在我手里。

第六章 · 从驾驭到共生

吸星大法

以前你看到好东西,去学会它;现在——你让你的 Agent 去学,学会了直接融入你的工作流。

精髓不在「偷」
「融」——把别人做得好的东西,混合进你和 AI 的协作里。
你不必掌握每个细节
但要判断什么值得融入,方向由你定。
第六章 · 从驾驭到共生

品味是天花板

吸什么、怎么融、融完怎么校验——这本身就是一次判断,正是红灯任务里你不能交出去的那一下。

吸什么
判断什么值得融入
怎么融
方向由你的品味决定
融完怎么校验
关键位置亲自把关

画作不断按你的要求迭代,但你的品味大概就是最终效果的天花板。人在环上的核心:不是每一步都亲自走,而是确保关键位置的品味和风格由你把握

第六章 · 从驾驭到共生

核心要点

回到开头的两难,我的回答是三层

1承认矛盾
人在环上不是轻松升级。对人的要求不是降低,而是改变:从执行能力转向判断能力。
2用结构对抗惰性
Harness 工程、红绿灯、独立审查不是负担,是防认知卸载吞噬判断力的结构化保障。
3从驾驭走向共生
人负责判断·品味·签名·背书,AI 负责劳动密集。核心竞争力从「会做什么」变成「能判断什么值得做」
人在环上,
不是人在局外。
智能体时代的研究者,需要比以往任何时候都更清醒地知道
自己站在哪里、在看什么、在判断什么。
因为一旦你停止判断,你就真的不在环上了。