第8章

讨论

Discussion

8.1 回应潜在异议

"零样本推理已经有效。" 零样本推理对通用知识有效。然而无约束时，模型会自信查询 BOND-1，而设备层次仅知 S4。第 7 节测量的 43% 幻觉率量化了这一鸿沟。

"本体维护太昂贵。" 本体维护确实昂贵。但不维护的成本在灾难发生前不可见。本文发现同平台智能体可能访问完全不同的工具集而无人知晓。本体维护是连贯性的成本。替代是静默发散。本文在六种配置上的经验表明，输入已知后每领域约 4–8 小时编写，领域研究视作者对目标行业熟悉度另加 1–3 天。

"嵌入隐式学习结构。" 隐式结构不可审计（无法要求嵌入展示 ISA-95 层次）、不可在智能体间共享（各模型学自己的版本）、不符合监管（FAA 认证须声明和强制，而非"学习"）[40]。嵌入发现结构。本体声明并强制它。

8.2 可扩展性

当前验证使用 6 工位本体配置（食品饮料 14 工位除外）。真实制造设施有数百或数千设备实体，跨多个 ISA-95 层次（企业 → 站点 → 区域 → 工作中心 → 工作单元 → 设备模块）。若干可扩展性考虑适用：

本体解析性能。 resolve 操作为字典查找，平均 O(1)。即使 10000 实体，解析成本相对查询执行时间可忽略。本体配置启动时加载一次驻内存；无 per-call I/O。

仿真可扩展性。 单线程 Python 仿真引擎随工位数和订单量线性扩展。6 工位与 14 工位配置 profiling 表明，50 工位模板 100 订单/天约使 tick 成本增 12 倍，30 天批运行约 2 分钟。超出该规模，Python GIL 成为约束。生产规模仿真需迁移至编译语言或并行执行 [29]。

工具调用扇出。 更广本体产生更大枚举有效集合。50 工位时 station_id 枚举从 6 增至 50。LLM 处理更大枚举集在参数选择准确率上无退化，但更长工具描述消耗更多上下文窗口。熔断器不变量（第 5.3 节）无论本体大小均限制查询扇出。

8.3 与现有制造 IT 架构集成

该架构的生产就绪版本须与现有制造信息系统集成。本文识别三条集成路径：

OPC UA（IEC 62541）[15]。 现代生产设备上的 OPC UA 服务器已将设备层次、标签-实体映射和信号定义建模为类型化信息模型。本体配置的 STATIONS、EQUIPMENT 和跨域实体解析映射可通过浏览 OPC UA 服务器地址空间填充。特定领域 OPC UA 配套规范（如包装 PackML、注塑 Euromap 77）提供直接映射到本体配置领域词汇导出的标准化词汇。

AutomationML（IEC 62714）[16]。 AutomationML 项目文件（从 TIA Portal、EPLAN、Codesys 等工程工具导出）含工厂拓扑、设备层次和信号映射的标准化 XML。本体配置中 STATION_TO_WC 和跨域实体解析映射直接对应 AutomationML 的 SystemUnitClass 和 RoleClass 结构。解析 AutomationML CAEX 文件为 45 导出配置格式的导入工具，可消除有现有工程文档设施的人工本体编写。

B2MML / ISA-95 XML [12]。 B2MML 为 ISA-95 信息交换提供 XML 模式。MES 系统中现有 B2MML 实现（如 Siemens Opcenter、Rockwell Plex）可作为本体设备层次、产品定义和人员资质的数据源。当前工作均未实现这些集成路径。它们被识别为工程工作（周级而非月级），将架构连接至本体发现问题（第 8.4 节）已由现有自动化标准部分解决的既有工厂制造环境。对评估采纳的从业者，本文建议优先级：OPC UA 优先，OPC UA 服务器已部署于多数现代生产设备，浏览现有地址空间填充本体配置无需访问工程工具或 MES 数据库；AutomationML 其次，有工程工具导出（TIA Portal、EPLAN）时适用，提供更丰富信号级细节但需访问工程环境；B2MML 第三，需与工厂 MES 集成，通常实施成本最高但提供最完整运营数据模型，含产品定义、人员资质和工艺计划。

8.4 局限性

若干局限需承认：

仅仿真验证。 第 7 节所有实验结果均在数字孪生仿真语境获得，每个工位、产品和故障代码在启动时已知，因作者定义了模型。六种行业配置由同一团队在同一框架内编写。这演示跨领域可配置性，架构可用单一代码库参数化至不同领域，非领域专家对照真实过程数据的独立工业验证。在既有工厂，继承标签命名、孤立 PLC 变量和未文档化 MES 配置下，本体须先被发现才能被强制。架构在本体存在后有效；在遗留环境使其存在是不同且往往更难的项目。

本体协商。 本文假设本体定义已达成一致。实践中，两个业务单元可能对"周期时间"定义不同；两工厂可能用相同工位标识符但底下设备层次不同。本体协商本身是政治和技术挑战。本文讨论人类达成一致后 AI 仍不知道会发生什么。

单一 LLM 评估。 幻觉实验使用 Qwen3-32B，因它是数字孪生部署所用企业 AI 平台（Fuse）上的主要可用模型，且支持工具服务器所需函数调用协议。不同模型（GPT-4o、Claude 3.5 Sonnet、Llama 3 70B、Mistral Large）在无约束条件下会产生不同基线幻觉率，指令遵循和工具使用训练更强的模型可能幻觉更少标识符，较小或较弱模型可能更多。表 2–4 报告的 43% 率因此是模型特定的，不应泛化。然而在本体约束条件下 0% 率是模型无关的：由编排器参数验证门架构强制，而非模型学习。任何在函数调用模式中尊重枚举约束的模型（所有主要 LLM 提供商均支持）在本体约束架构下将实现 0% 工具参数幻觉。后续有待研究的问题不是本体约束是否跨模型消除幻觉（按构造会），而是无约束条件下基线幻觉率如何随模型变化，以及 RAG、few-shot 等中间语义锚定是否实现模型依赖的部分降低。计划后续工作对 GPT-4o、Claude 3.5 Sonnet、Llama 3 70B 在同一 72 查询集进行基准测试。

无正式人工评估。 参数正确性以外的答案质量由作者对照已知基准真值评估，非专家小组的结构化量表。正式用户研究（质量工程师评估 NCR 分诊效用）将加强信任恢复声明。

扩展至 RAG。 接口契约可扩展至检索增强生成：若按本体范围界定给定实体相关文档，上下文化（contextualize）操作成为检索过滤器。该扩展架构上自然，当前实现未探索，列为未来工作。