第7章

实验评估

Experimental Evaluation

7.1 实验设置

为量化语义训练鸿沟并评估本体约束架构，本文在全部六种行业配置下进行对照幻觉实验。

仿真框架。 数字孪生仿真引擎从第 5.1 节本体配置模块生成因果一致、MES 形态数据。引擎为 1 分钟 tick 分辨率的离散事件循环（634 行）。每 tick 推进仿真时钟并评估优先序列：干扰处理、日订单创建、工序推进、设备状态、质量检验、计划修订。引擎尊重各模板配置的工厂日历（班次、运营日、休息时段），并强制因果事件链：工单创建工序；每工序须通过四道调度门（设备可用、无供应延迟、上游完成、认证操作员可用）才能启动；工序完成触发由工位 FPY 治理的质量检验；检验失败生成 NCR，故障代码取自工位本体配置。框架还含种子数据生成器（1363 行），从同一配置创建 30+ 参考实体类型；CDC 管道馈送 PostgreSQL 运营表；星型模式构建器（23 个分析表：14 维、8 事实、1 桥），SQL 从已加载配置动态生成；12 个参数化分析工具经 MCP 服务器暴露。总代码约 6750 行 Python。单独出版物 [29] 详述仿真架构、校准方法论和 Template-as-Ontology 设计原则。

数据生成。 对六种行业配置各运行 30 天仿真，稳定干扰配置（无注入干扰），随机种子 42 保证可复现。每次仿真约产生 15000–18000 行 PostgreSQL 数据，跨 40+ 运营表。

模型。 Qwen3-32B（32K 上下文，函数调用模式），部署于企业 AI 平台（Fuse）。温度设为 0（贪心解码）保证确定性输出。条件间无重试或提示工程。

查询集。 72 条自然语言查询（每模板 12 条，每工具 1 条），按领域用户会问的方式表述："键合工位主要故障模式是什么？""显示 CNC 周期时间分析""主要铝供应商的供应商绩效如何？"查询代表典型制造分析用例（golden-path），非对抗性。每条使用自然领域语言（如"键合工位"而非标识符"S4"），要求模型将自然语言引用解析为工具参数，幻觉发生于此步骤。查询集不含故意歧义查询（如"第三个工位"）或旨在触发特定失效的查询；代表质量工程师或生产经理日常会问的基线问题。两条件使用相同 72 条查询。

条件。 比较两条件：

本体约束条件： 工具参数类型为从已加载本体投影的枚举（如 station_id: enum [S1, S2, S3, S4, S5, S6]，附语义上下文）。
无约束条件（自由文本）： 工具参数类型为字符串，无约束。其余方面相同。

7.2 结果

表 2. 工具调用幻觉实验：72 次查询（12 工具 × 6 配置）下本体约束与无约束参数，Qwen3-32B，温度 0。

条件	查询数	幻觉 ID	空结果（有效查询）	正确结果
有本体约束	72	0 (0%)	0 (0%)	72 (100%)
无约束（自由文本）	72	31 (43%)	27 (38%)	14 (19%)

无约束条件下，模型产生语言上看似合理且领域适当的标识符，键合工位 "BOND-1"、CNC 加工 "CNC-BAY-A"、制药压片 "TABLET-PRESS-1"，但数据库中不存在。31 个幻觉标识符中，27 个产生空结果集，智能体误读为"无数据"或"无问题"。4 个因无效连接条件产生 SQL 错误。72 次中仅 14 次模型碰巧猜中匹配实际模式的标识符，其中 3 次对错误模板用了正确值。

表 3. 各行业配置幻觉率（仅无约束条件）

配置	查询	幻觉	率	最常见伪造
航空航天	12	5	42%	BOND-1, CNC-BAY-A, NDT-INSPECT
制药	12	6	50%	TABLET-PRESS-1, COATING-LINE, GRANULATOR-A
汽车	12	5	42%	CASTING-1, HEAT-TREAT-A, MACHINING-BAY
电子	12	5	42%	SMT-LINE-1, REFLOW-OVEN, AOI-STATION
食品饮料	12	6	50%	FILLER-1, CARBONATION-UNIT, BOTTLING-LINE
仓储	12	4	33%	PICK-ZONE-A, SORTER-1, RECEIVING-DOCK

表 4. 各工具域幻觉率（仅无约束条件）

工具域	工具数	幻觉（各 6 次运行）	率
生产（3 工具）	cycle_time, first_pass_yield, oee_decomposition	8/18	44%
质量（3 工具）	ncr_pareto, spc_violation, quality_action	9/18	50%
物料（2 工具）	material_genealogy, supplier_performance	6/12	50%
工程变更（2 工具）	change_impact, change_velocity	3/12	25%
运营（2 工具）	equipment_downtime, production_status	5/12	42%

各配置范围 33–50%，各工具域 25–50%。无单一配置或工具域为离群值，确认标识符伪造是系统性现象，非特定领域或工具类型的偶发结果。质量与物料工具幻觉率最高（50%），可能因其参数（故障代码、供应商代码）领域词汇更专，LLM 试图从训练数据而非工具模式生成。

7.3 语法-语义约束区别

须区分语法约束（枚举限制）与语义约束（本体上下文）。标准函数调用框架可声明 station_id 须为 [S1, S2, S3, S4, S5, S6] 之一，模型会遵守，防止幻觉 "BOND-1"。本系统中，S4 不仅是有效字符串，它是关系本体中的节点：S4 是键合工位，受 NADCAP 特殊工艺认证约束，有定义故障代码集（键合线空洞、胶粘剂固化偏差、表面污染），位于六工位 ISA-95 设备层次第四站，产出零件需在下一站 NDT 检验。工具收到 S4 时，该语义上下文塑造查询构建、有效故障代码过滤和监管标准引用。本体从航空航天换到制药，同一标识符 S4 携带完全不同语义（压片、GMP 合规、不同故障代码）。枚举值相同；其含义一切改变。实验测量语法与语义约束组合效果对比最弱基线（完全无约束），得 0% 与 43%。设计未隔离各约束类型的边际贡献。仅标准枚举约束（仅语法、无关系上下文）可能消除大部分 43% 幻觉率，因主要失效机制是标识符伪造，枚举限制直接防止。语义约束的附加价值，正确查询构建、适当监管引用、领域适当响应合成，在不同轴上运作：不仅是检索正确数据，更是正确解释和上下文化。该语义贡献由作者对照各查询已知基准真值定性评估；未进行正式人工评估协议。实验亦未与 RAG 加领域文档、few-shot 有效标识符示例、领域特定工具模式微调等中间语义锚定方法比较。这些基线代表制造团队会考虑的实用替代，与之测试可更完整呈现本体方法的边际价值。这些比较列为后续工作。

7.4 仿真校准

为验证实验底层合成数据参数稳健性，对六种配置各用 10 个不同随机种子运行 30 天仿真（共 60 次运行）。表 5 报告配置目标 KPI 与观测均值及 95% 置信区间（t 分布，df=9）。

表 5. 仿真校准结果：配置目标与观测值（每配置 n=10 种子，30 天运行，稳定干扰配置）

配置	KPI	配置目标	观测（均值 ± σ）	95% CI
航空航天	各工位 FPY	0.94–0.97	0.949 ± 0.008	[0.943, 0.955]
	日产能	8 订单/天	8.0 ± 0.3	[7.79, 8.21]
	NCR 率	~5% 工序	5.1% ± 0.7%	[4.60%, 5.60%]
制药	各工位 FPY	0.96–0.99	0.974 ± 0.005	[0.970, 0.978]
	日产能	12 订单/天	12.1 ± 0.4	[11.81, 12.39]
	NCR 率	~2.5% 工序	2.6% ± 0.4%	[2.31%, 2.89%]
汽车	各工位 FPY	0.95–0.98	0.963 ± 0.006	[0.959, 0.967]
	日产能	16 订单/天	16.0 ± 0.5	[15.64, 16.36]
	NCR 率	~3.5% 工序	3.7% ± 0.5%	[3.34%, 4.06%]
电子	各工位 FPY	0.96–0.99	0.976 ± 0.004	[0.973, 0.979]
	日产能	20 订单/天	20.1 ± 0.6	[19.67, 20.53]
	NCR 率	~2.5% 工序	2.4% ± 0.3%	[2.19%, 2.61%]

所有置信区间落在或重叠配置目标范围，确认参数可控性：仿真器产生尊重配置 KPI 的数据，为评估 AI 工具正确性提供受控环境。本文不断言对任何特定产线的统计保真度；本文断言给定已知 KPI 目标，工具应正确报告这些值，仿真器提供验证的受控数据。