第4章

观察到的失效模式

Observed Failure Modes

4.1 单智能体系统中的工具调用幻觉

在基于数字孪生仿真框架构建的制造分析平台开发过程中，本文部署了 12 个分析工具，参数为无约束字符串。智能体（Qwen3-32B，32K 上下文，函数调用模式，部署于企业 AI 平台）可访问正确数据、SQL 模板和领域词汇。当被问及"显示键合工位的不合格趋势"时，智能体给出结构良好的分析：引用胶粘剂固化温度超限、NADCAP 工艺规范 [31]，并呈现故障模式帕累托图。行文技术流畅。底层 SQL 使用 WHERE station_id = 'BOND-1'。

ISA-95 合规模型 [11] 定义的设备层次中不存在名为 BOND-1 的工位。键合工位标识符为 S4，即六工位产线中的第四站。智能体幻觉出一个统计上看似合理的标识符，查询返回零行，工具响应空结果集，智能体将其解读为"未记录故障"，自信总结：键合工位质量优秀，未检测到不合格。实际上，该周键合工位是产线上不合格报告（NCR）率最高的工位。该失效模式区别于 LLM 中已有充分文献的幻觉问题 [24,25]，因为幻觉内容不是事实知识而是工具参数，决定系统检索何种数据的程序输入。幻觉事实可核查；幻觉查询参数静默返回错误数据。第 7 节对照实验量化该现象：72 次无约束参数工具调用中，43% 的标识符值由模型伪造。

4.2 多智能体系统中的语义漂移

在多智能体分析平台验证过程中，本文观察到三个在无共享本体约束时出现的具体漂移向量：

工具联邦缺口。 主端点暴露 4 个工具；聚合网关暴露 0 个。工具不会在智能体间自动联邦。两个智能体问同一问题却访问不同能力，产生结构不同的答案。
本体版本独立。 多智能体模式全局切换，非按会话。无机制确保智能体共享同一版本领域定义。智能体 A 可能在工位层次 version 1 上操作，智能体 B 在 version 2。
参数自由文本方差。 字符串类型工具参数允许智能体对同一概念使用不同标识符，"S1"、"CNC-Bay-1" 与 "North Machining Area"。每个语言上都有效，仅一个映射到本体。这些漂移向量在独立多智能体系统（非第 7 节实验评估所用数字孪生框架）的平台验证中观察到。本文注明该区别：问题在一平台识别，方案在另一平台实现并验证。产生漂移的架构模式，无约束参数、未联邦工具、版本独立智能体，与平台无关；方案针对结构性原因，与首次观察平台无关 [32]。