返回文献集

观察到的失效模式

Observed Failure Modes

4.1 单智能体系统中的工具调用幻觉

在基于数字孪生仿真框架构建的制造分析平台开发过程中,本文部署了 12 个分析工具,参数为无约束字符串。智能体(Qwen3-32B,32K 上下文,函数调用模式,部署于企业 AI 平台)可访问正确数据、SQL 模板和领域词汇。当被问及"显示键合工位的不合格趋势"时,智能体给出结构良好的分析:引用胶粘剂固化温度超限、NADCAP 工艺规范 [31],并呈现故障模式帕累托图。行文技术流畅。底层 SQL 使用 WHERE station_id = 'BOND-1'

ISA-95 合规模型 [11] 定义的设备层次中不存在名为 BOND-1 的工位。键合工位标识符为 S4,即六工位产线中的第四站。智能体幻觉出一个统计上看似合理的标识符,查询返回零行,工具响应空结果集,智能体将其解读为"未记录故障",自信总结:键合工位质量优秀,未检测到不合格。实际上,该周键合工位是产线上不合格报告(NCR)率最高的工位。该失效模式区别于 LLM 中已有充分文献的幻觉问题 [24,25],因为幻觉内容不是事实知识而是工具参数,决定系统检索何种数据的程序输入。幻觉事实可核查;幻觉查询参数静默返回错误数据。第 7 节对照实验量化该现象:72 次无约束参数工具调用中,43% 的标识符值由模型伪造。

4.2 多智能体系统中的语义漂移

在多智能体分析平台验证过程中,本文观察到三个在无共享本体约束时出现的具体漂移向量:

  1. 工具联邦缺口。 主端点暴露 4 个工具;聚合网关暴露 0 个。工具不会在智能体间自动联邦。两个智能体问同一问题却访问不同能力,产生结构不同的答案。
  2. 本体版本独立。 多智能体模式全局切换,非按会话。无机制确保智能体共享同一版本领域定义。智能体 A 可能在工位层次 version 1 上操作,智能体 B 在 version 2。
  3. 参数自由文本方差。 字符串类型工具参数允许智能体对同一概念使用不同标识符,"S1"、"CNC-Bay-1" 与 "North Machining Area"。每个语言上都有效,仅一个映射到本体。这些漂移向量在独立多智能体系统(非第 7 节实验评估所用数字孪生框架)的平台验证中观察到。本文注明该区别:问题在一平台识别,方案在另一平台实现并验证。产生漂移的架构模式,无约束参数、未联邦工具、版本独立智能体,与平台无关;方案针对结构性原因,与首次观察平台无关 [32]。