第11章

AI增强机器人与自主系统

AI-Enhanced Robotics and Autonomous Systems

Satyandra K. Gupta¹

¹ 美国加利福尼亚州洛杉矶南加州大学先进制造中心

E-mail: guptask@usc.edu

现状

过去十年间，人工智能技术取得了显著进展，包括强化学习、深度学习、大语言模型和生成式AI等[2-6, 10]。这些进展赋予了机器人和自主系统新的能力。我们在日常生活中接触到的大多数AI都属于数字AI，例如生成求职申请信、电影观看推荐、创作绘画以及医学影像中肿瘤检测等。而驱动机器人行为则需要另一种类型的AI。例如，在飞机机翼上进行打磨作业的机器人需要AI来实现自主运行，这种AI被称为物理AI。物理AI承担一个或多个目标，利用传感器数据生成机器人执行的动作序列以达成目标。物理AI通过传感器监控任务执行并规划机器人动作以完成任务。物理AI在以下与机器人和自主系统相关的领域得到应用：（1）感知；（2）规划；（3）控制；（4）人机交互；（5）从人类演示中学习；（6）测试用例生成；（7）多机器人协作。

图1展示了实现AI驱动的机器人工作单元所面临的挑战，同时列出了应对这些挑战所必需的进展。物理AI应用的风险特征通常与数字AI应用有着根本性的不同。风险包含两个维度：（1）发生错误的概率；（2）产生错误的后果。当错误后果不严重时，可以容忍较高的错误概率。因此，在许多数字AI应用中，1%的错误概率是可接受的。相反，许多工业应用要求错误概率低至百万分之一。使用数据驱动方法降低错误概率需要使用海量数据，但在工业应用中获取数据的代价极为高昂。因此，需要将基于模型的方法与数据驱动方法相结合以解决数据规模问题。

图1. 实现人工智能驱动机器人单元所面临的挑战，以及应对这些挑战所需的技术进步。

机器人系统的部署需要投入大量的人力工作，这主要源于编写软件和测试系统所需的时间。机器人系统日益增加的复杂性使这一问题更加严重。不幸的是，人类专业知识的可获得性往往成为机器人部署的瓶颈。生成式AI正在成为应对这一挑战的工具。数字孪生已成为复杂物理系统的有用工具，AI驱动的数字孪生正越来越多地被用于支持机器人和自主系统的运行。最后，AI正在为人机交互创造新的模态。

当前和未来面临的挑战

数字AI在训练过程中使用大量数据。在许多工业应用中，收集高质量数据需要耗费大量时间并产生极高的成本。因此，纯粹的数据驱动AI方法在许多工业应用中并非可行的模式。我们需要物理AI来驱动机器人技术。以下是两个代表性用例，说明物理AI如何在工业应用中使用。

• 缺陷检测是机器人制造的重要组成部分。机器学习已成为分析和分类图像的强大技术[11]。然而，收集训练机器学习系统所需的大量物理缺陷图像往往不可行。一个替代方案是开发生成逼真合成图像的流程。近期研究表明，利用逼真合成图像与真实缺陷图像相结合的训练过程在实践中效果良好。

• 机器人工作单元应能够通过自主进行实验来为新材料构建过程模型[5,14]。虽然输入工艺参数与工艺性能之间的精确定量关系可能未知，但许多变量之间的定性关系往往是已知的。在训练阶段可以利用损失函数来惩罚偏离已知工艺约束的情况。这种方法可以强化已知模型并加速模型构建过程[9]。

数字孪生是真实世界系统的数字对应物[7,13]。数字孪生中使用的数字表示是通过传感器和物联网设备的数据创建的，并实时模拟物理对象或系统。数字孪生被用于向任务规划器和调度器提供信息，以便根据系统的当前状态决定下一步执行的任务。数字孪生还实时监控机器和设备的状况与性能，并利用这些数据预测维护需求，减少意外停机并防止机器故障。为了在机器人领域发挥作用，数字孪生需要以显著快于实时的速度运行。AI可用于为下一代数字孪生提供动力。

从历史上看，工业环境中的人机接口并不十分用户友好。人类通常通过按按钮、转旋钮和在键盘上打字来与工业机器人交互。这些传统界面难以掌握，对新用户来说可能相当令人沮丧。改进的人机接口有潜力改变用户体验并提高工业运营效率[17,19]。AI的最新进展正在为人类与机器人的交互提供新的方式。

应对挑战的科学和技术进展

AI正越来越多地被用于增强数字孪生技术的能力，并创造新的能力以支持下一代机器人技术。以下是几个示例：

• 仿真是生成精加工操作最优计划所必需的。传统仿真在处理具有不确定性的零件模型时缺乏所需的速度。机器学习正被用于基于神经网络创建快速仿真，赋予数字孪生新的规划和预测能力。

• 基于AI的预测性健康管理系统可被数字孪生用于确保自动检测不利事件的发生，并采取纠正措施。例如，数字孪生可以利用力和视觉数据确定机器人精加工中快速刀具磨损的原因，并采取纠正措施加以预防。

近期努力在将生成式AI应用于机器人领域以提高人类生产效率方面已显示出初步成功的迹象[8,15,16]。以下示例突出了在机器人领域使用生成式AI的机会。

• 机器人通常需要执行复杂的动作来成功完成任务。以打磨为例，机器人需要以复杂的运动模式移动打磨工具以产生无划伤的表面光洁度。生成式AI现在提供了从文本描述生成代码的能力，使人类能够以更自然、更省时的方式与机器人交流，并自动创建机器人运动。

• 许多应用要求机器人执行复杂任务[12]。这需要将顶层任务分解为更简单的子任务，并确定任务顺序。通过大语言模型（LLM）的最新进展[20]，我们可以提出诸如"提供从锁定架子上获取工具的分步指导"之类的查询，并生成执行整体任务所需的各种子任务序列。一旦确定了原子任务，机器人可以使用运动规划器生成执行任务的动作。

AI正在以下方面革新人机界面：

• 自然语言处理和人类语音理解的最新进展正在为人类与机器人的交互启用新的模态[18]。

• 有时人类可能会犯错并要求机器执行不安全操作[1]。通过监控人类行为和任务状态，机器可以预测未来不安全情况的发生并向人类发出警报。AI可用于模拟可能的未来，并通过考虑不确定性来进行风险评估。

• 大多数传统界面在设计时并未考虑易学性。AI驱动的界面可以在训练阶段为用户提供实时反馈、指导和帮助，帮助他们有效地浏览复杂任务或排除故障。此外，配备AI的虚拟助手可以提供交互式支持教程，提高用户在训练阶段的生产力和学习效果。

结语

机器人应用所需的物理AI无法作为运行在云端的单一整体系统来实现。机器人应用中的物理AI应被视为涉及多个AI组件交互的复杂系统。该系统应使用正确的功能分解，以确保能够实现性能和模块化之间的理想权衡。存在许多不同的AI方法，单一方法不太可能足以提供所需的性能。因此，每个功能块都应通过仔细考虑优缺点来选择正确的AI方法。因此，在物理AI系统中拥有正确的系统架构是在工业应用中取得成功的关键。在工业应用中，从时间和成本角度生成大量数据是不可能的。物理AI的设计应使其能够使用由物理实验生成的有限数据进行训练。需要一种结合基于模型和数据驱动方法的方法来成功地将物理AI部署到工业应用中。在复杂应用中部署机器人工作单元目前需要大量的人力工作。完成这项工作所需的人力资源往往成为瓶颈，并可能导致部署延迟。生成式AI正在提供新工具，以减少工业应用部署机器人所需的人类专业知识。AI驱动的数字孪生正在引领智能系统的新时代，通过降低成本、减少错误、提高质量、提升性能并减少环境足迹。人类是工业运营的重要组成部分，因此人机交互问题需要在系统设计过程中积极应对。AI可用于革新人机界面，通过促进更直观的交互来帮助工人。

致谢

本工作由南加州大学先进制造中心支持。感谢我的现在和 former学生们对本工作的贡献。作者已确认本研究中的任何可识别参与者均已给予出版同意。

参考文献

[1] Al-Hussaini, S.; Guan, Y.; Gregory, J. M.; Pollard, K.; Khooshabeh, P.; and Gupta, S. K. (2024). Assessing the Impact of Alerts on the Human Supervisor’s Decision-Making Performance in Multi-Robot Missions. ACM Transactions on Human-Robot Interaction, 14(1): 1–40.

[2] Chi, C.; Xu, Z.; Feng, S.; Cousineau, E.; Du, Y.; Burchfiel, B.; Tedrake, R.; and Song, S. (2024). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. The International Journal of Robotics Research.

[3] Gao J. et al. (2024) Physically Grounded Vision-Language Models for Robotic Manipulation. 2024 IEEE International Conference on Robotics and Automation (ICRA), Yokohama, Japan, pp. 12462-12469.

[4] Gregory, J. M.; and Gupta, S. K., 2024. Opportunities for Generative Artificial Intelligence to Accelerate Deployment of Human- Supervised Autonomous Robots. Proceedings of the AAAI Symposium Series, 2(1): 177–181.

[5] Gupta, S.K. (2025). Embodied AI for Smart Robotic Cells in Manufacturing Applications. AAAI Conference, Senior Member Track.

[6] Huang, W.; Abbeel, P.; Pathak, D.; and Mordatch, I., (2022). Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In International Conference on Machine Learning, 9118–9147.

[7] Huang, Z.; Shen, Y; Li, J.; Fey, M.; and Brecher, C. (2021). A Survey on AI-Driven Digital Twins in Industry 4.0: Smart Manufacturing and Advanced Robotics. Sensors, 21(19).

[8] Kang, J. H.; Dhanaraj, N.; Wadaskar, S.; and Gupta, S. K. (2024). Using Large Language Models to Generate and Apply Contingency Handling Procedures in Collaborative Assembly Applications. In 2024 IEEE International Conference on Robotics and Automation (ICRA), 15585–15592.

[9] Karniadakis, G.; Kevrekidis, I. G.; Lu, L.; Perdikaris, P.; Wang, S.; Yang, L. (2021). Physics-informed machine learning. Nature Reviews Physics volume 3, pages 422–440.

[10] Kusiak, A. (2020). Convolutional and generative adversarial neural networks in manufacturing. International Journal of Production Research, 58(5): 1594–1604.

[11] Manyar, O. M.; Cheng, J.; Levine, R.; Krishnan, V.; Barbic, J.; and Gupta, S. K. (2022). Physics Informed Synthetic Image Generation for Deep Learning based Detection of Wrinkles and Folds. ASME Journal of Computing and Information Science in Engineering, 1–18.

[12] Manyar, O. M.; McNulty, Z.; Nikolaidis, S.; and Gupta, S. K. (2023). Inverse Reinforcement Learning Framework for Transferring Task Sequencing Policies from Humans to Robots in Manufacturing Applications. In 2023 IEEE International Conference on Robotics and Automation (ICRA), 849–856. London, UK.

[13] Onaji, I.; Tiwari, D.; Soulatiantork, P.; Song, B.; and Tiwari, A. (2022). Digital twin in manufacturing: conceptual framework and case studies. International Journal of Computer Integrated Manufacturing, 35(8), 831–858.

[14] Patel, R.; Kanyuck, A.; McNulty, Z.; Yu, Z.; Carlson, L.; Heng, V.; Johnson, B.; and Gupta, S. K. (2024). Automated Plan Refinement for Improving Efficiency of Robotic Layup of Composite Sheets. In 2024 IEEE 20th International Conference on Automation Science and Engineering (CASE), 3132–3139.

[15] Shen, W.; Garrett, Caelan; Kumar, N.; Goyal, A.; Hermans, T.; Kaelbling, L.P.; Lozano-Pérez, T.; Ramos, F. (2025). Differentiable GPU-Parallelized Task and Motion Planning. Robotics: Science and Systems, Los Angeles, California, June 21 – June 25, 2025.

[16] Singh, I.; Blukis, V.; Mousavian, A.; Goyal, A.; Xu, D.; Tremblay, J.; Fox, D.; Thomason, J.; and Garg, A. (2023). ProgPrompt: program generation for situated robot task planning using large language models. Autonomous Robots, 1–14.

[17] Suzuki, R.; Karim, A.; Xia, T.; Hedayati, H.; and Marquardt, N. (2022). Augmented Reality and Robotics: A Survey and Taxonomy for AR-enhanced Human-Robot Interaction and Robotic Interfaces. CHI '22: Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems.

[18] Tellex, S.; Gopalan, N.; Kress-Gazit, H.; and Matuszek, C. (2020). Robots That Use Language. Annual Review of Control, Robotics, and Autonomous Systems Volume 3.

[19] Wiemann, R.; Posniak, L.; Pregizer, C.; and Raatz A. (2018). Intuitive Robot Programming Using Augmented Reality. Procedia CIRP, Volume 76, Pages 155-160.

[20] Zhang, J.; Zhang, J.; Pertsch, K.; Liu, Z.; Ren, X.; Chang, M.; Sun, S.-H.; and Lim, J. (2023). Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance. In 7th Annual Conference on Robot Learning.