实验评估
Experimental Evaluation
7.1 实验设置
为量化语义训练鸿沟并评估本体约束架构,本文在全部六种行业配置下进行对照幻觉实验。
仿真框架。 数字孪生仿真引擎从第 5.1 节本体配置模块生成因果一致、MES 形态数据。引擎为 1 分钟 tick 分辨率的离散事件循环(634 行)。每 tick 推进仿真时钟并评估优先序列:干扰处理、日订单创建、工序推进、设备状态、质量检验、计划修订。引擎尊重各模板配置的工厂日历(班次、运营日、休息时段),并强制因果事件链:工单创建工序;每工序须通过四道调度门(设备可用、无供应延迟、上游完成、认证操作员可用)才能启动;工序完成触发由工位 FPY 治理的质量检验;检验失败生成 NCR,故障代码取自工位本体配置。框架还含种子数据生成器(1363 行),从同一配置创建 30+ 参考实体类型;CDC 管道馈送 PostgreSQL 运营表;星型模式构建器(23 个分析表:14 维、8 事实、1 桥),SQL 从已加载配置动态生成;12 个参数化分析工具经 MCP 服务器暴露。总代码约 6750 行 Python。单独出版物 [29] 详述仿真架构、校准方法论和 Template-as-Ontology 设计原则。
数据生成。 对六种行业配置各运行 30 天仿真,稳定干扰配置(无注入干扰),随机种子 42 保证可复现。每次仿真约产生 15000–18000 行 PostgreSQL 数据,跨 40+ 运营表。
模型。 Qwen3-32B(32K 上下文,函数调用模式),部署于企业 AI 平台(Fuse)。温度设为 0(贪心解码)保证确定性输出。条件间无重试或提示工程。
查询集。 72 条自然语言查询(每模板 12 条,每工具 1 条),按领域用户会问的方式表述:"键合工位主要故障模式是什么?""显示 CNC 周期时间分析""主要铝供应商的供应商绩效如何?"查询代表典型制造分析用例(golden-path),非对抗性。每条使用自然领域语言(如"键合工位"而非标识符"S4"),要求模型将自然语言引用解析为工具参数,幻觉发生于此步骤。查询集不含故意歧义查询(如"第三个工位")或旨在触发特定失效的查询;代表质量工程师或生产经理日常会问的基线问题。两条件使用相同 72 条查询。
条件。 比较两条件:
- 本体约束条件: 工具参数类型为从已加载本体投影的枚举(如
station_id: enum [S1, S2, S3, S4, S5, S6],附语义上下文)。 - 无约束条件(自由文本): 工具参数类型为字符串,无约束。其余方面相同。
7.2 结果
表 2. 工具调用幻觉实验:72 次查询(12 工具 × 6 配置)下 本体约束与无约束参数,Qwen3-32B,温度 0。
| 条件 | 查询数 | 幻觉 ID | 空结果(有效查询) | 正确结果 |
|---|---|---|---|---|
| 有本体约束 | 72 | 0 (0%) | 0 (0%) | 72 (100%) |
| 无约束(自由文本) | 72 | 31 (43%) | 27 (38%) | 14 (19%) |
无约束条件下,模型产生语言上看似合理且领域适当的标识符,键合工位 "BOND-1"、CNC 加工 "CNC-BAY-A"、制药压片 "TABLET-PRESS-1",但数据库中不存在。31 个幻觉标识符中,27 个产生空结果集,智能体误读为"无数据"或"无问题"。4 个因无效连接条件产生 SQL 错误。72 次中仅 14 次模型碰巧猜中匹配实际模式的标识符,其中 3 次对错误模板用了正确值。
表 3. 各行业配置幻觉率(仅无约束条件)
| 配置 | 查询 | 幻觉 | 率 | 最常见伪造 |
|---|---|---|---|---|
| 航空航天 | 12 | 5 | 42% | BOND-1, CNC-BAY-A, NDT-INSPECT |
| 制药 | 12 | 6 | 50% | TABLET-PRESS-1, COATING-LINE, GRANULATOR-A |
| 汽车 | 12 | 5 | 42% | CASTING-1, HEAT-TREAT-A, MACHINING-BAY |
| 电子 | 12 | 5 | 42% | SMT-LINE-1, REFLOW-OVEN, AOI-STATION |
| 食品饮料 | 12 | 6 | 50% | FILLER-1, CARBONATION-UNIT, BOTTLING-LINE |
| 仓储 | 12 | 4 | 33% | PICK-ZONE-A, SORTER-1, RECEIVING-DOCK |
表 4. 各工具域幻觉率(仅无约束条件)
| 工具域 | 工具数 | 幻觉(各 6 次运行) | 率 |
|---|---|---|---|
| 生产(3 工具) | cycle_time, first_pass_yield, oee_decomposition | 8/18 | 44% |
| 质量(3 工具) | ncr_pareto, spc_violation, quality_action | 9/18 | 50% |
| 物料(2 工具) | material_genealogy, supplier_performance | 6/12 | 50% |
| 工程变更(2 工具) | change_impact, change_velocity | 3/12 | 25% |
| 运营(2 工具) | equipment_downtime, production_status | 5/12 | 42% |
各配置范围 33–50%,各工具域 25–50%。无单一配置或工具域为离群值,确认标识符伪造是系统性现象,非特定领域或工具类型的偶发结果。质量与物料工具幻觉率最高(50%),可能因其参数(故障代码、供应商代码)领域词汇更专,LLM 试图从训练数据而非工具模式生成。
7.3 语法-语义约束区别
须区分语法约束(枚举限制)与语义约束(本体上下文)。标准函数调用框架可声明 station_id 须为 [S1, S2, S3, S4, S5, S6] 之一,模型会遵守,防止幻觉 "BOND-1"。本系统中,S4 不仅是有效字符串,它是关系本体中的节点:S4 是键合工位,受 NADCAP 特殊工艺认证约束,有定义故障代码集(键合线空洞、胶粘剂固化偏差、表面污染),位于六工位 ISA-95 设备层次第四站,产出零件需在下一站 NDT 检验。工具收到 S4 时,该语义上下文塑造查询构建、有效故障代码过滤和监管标准引用。本体从航空航天换到制药,同一标识符 S4 携带完全不同语义(压片、GMP 合规、不同故障代码)。枚举值相同;其含义一切改变。实验测量语法与语义约束组合效果对比最弱基线(完全无约束),得 0% 与 43%。设计未隔离各约束类型的边际贡献。仅标准枚举约束(仅语法、无关系上下文)可能消除大部分 43% 幻觉率,因主要失效机制是标识符伪造,枚举限制直接防止。语义约束的附加价值,正确查询构建、适当监管引用、领域适当响应合成,在不同轴上运作:不仅是检索正确数据,更是正确解释和上下文化。该语义贡献由作者对照各查询已知基准真值定性评估;未进行正式人工评估协议。实验亦未与 RAG 加领域文档、few-shot 有效标识符示例、领域特定工具模式微调等中间语义锚定方法比较。这些基线代表制造团队会考虑的实用替代,与之测试可更完整呈现本体方法的边际价值。这些比较列为后续工作。
7.4 仿真校准
为验证实验底层合成数据参数稳健性,对六种配置各用 10 个不同随机种子运行 30 天仿真(共 60 次运行)。表 5 报告配置目标 KPI 与 观测均值及 95% 置信区间(t 分布,df=9)。
表 5. 仿真校准结果:配置目标与观测值(每配置 n=10 种子,30 天运行,稳定干扰配置)
| 配置 | KPI | 配置目标 | 观测(均值 ± σ) | 95% CI |
|---|---|---|---|---|
| 航空航天 | 各工位 FPY | 0.94–0.97 | 0.949 ± 0.008 | [0.943, 0.955] |
| 日产能 | 8 订单/天 | 8.0 ± 0.3 | [7.79, 8.21] | |
| NCR 率 | ~5% 工序 | 5.1% ± 0.7% | [4.60%, 5.60%] | |
| 制药 | 各工位 FPY | 0.96–0.99 | 0.974 ± 0.005 | [0.970, 0.978] |
| 日产能 | 12 订单/天 | 12.1 ± 0.4 | [11.81, 12.39] | |
| NCR 率 | ~2.5% 工序 | 2.6% ± 0.4% | [2.31%, 2.89%] | |
| 汽车 | 各工位 FPY | 0.95–0.98 | 0.963 ± 0.006 | [0.959, 0.967] |
| 日产能 | 16 订单/天 | 16.0 ± 0.5 | [15.64, 16.36] | |
| NCR 率 | ~3.5% 工序 | 3.7% ± 0.5% | [3.34%, 4.06%] | |
| 电子 | 各工位 FPY | 0.96–0.99 | 0.976 ± 0.004 | [0.973, 0.979] |
| 日产能 | 20 订单/天 | 20.1 ± 0.6 | [19.67, 20.53] | |
| NCR 率 | ~2.5% 工序 | 2.4% ± 0.3% | [2.19%, 2.61%] |
所有置信区间落在或重叠配置目标范围,确认参数可控性:仿真器产生尊重配置 KPI 的数据,为评估 AI 工具正确性提供受控环境。本文不断言对任何特定产线的统计保真度;本文断言给定已知 KPI 目标,工具应正确报告这些值,仿真器提供验证的受控数据。