第一期多智能体强化学习讲习班成功举办-西安交通大学-人工智能学院

新闻动态

第一期多智能体强化学习讲习班成功举办

发布时间：2023-08-09 点击量：

2023年8月5日，中国自动化学会共融机器人专委会在西安交通大学创新港校区举办了第一期多智能体强化学习讲习班。

本次讲习班由西安交通大学兰旭光教授、诺亚方舟实验室科学家郝建业副教授担任学术主任，由南京大学人工智能学院的俞扬教授、中山大学计算机学院的余超教授、清华大学交叉信息院助理教授许华哲、北京大学人工智能研究院助理教授杨耀东、上海人工智能实验室青年研究员白辰甲以及上海交通大学约翰·霍普克罗夫特计算机科学中心助理教授温颖等国内一线新锐人工智能专家担任讲习教授。讲习班共收到来自全国各地的近140名学员报名，学员来自高校、企业等相关机构。讲习班由郝建业副教授、赵飞研究员主持。

兰旭光教授作开班致辞并点明本次讲习班主题——“将人工智能带入物理世界”。讲习班教授与学员针对多智能体人工智能强化学习开展了详尽热烈的讨论。

俞扬教授针对智能出行、物流派单等强化学习应用落地过程中存在的数据收集昂贵等问题，以人类及小鼠的海马体细胞的信息编码、集成、解码及记忆功能为例，讲述了环境仿真器与世界模型的起源与发展、应用案例以及当前面临的挑战。俞扬教授对序贯决策问题进行了详尽的剖析，阐述了模仿学习、行为克隆、基于模型的强化学习框架下各种算法的理论及对应的特点，并从模型动力学、神经网络所造成的复合误差、数据漂移以及策略泛化的角度，说明了世界模型学习在强化学习、数据增强及多智能体系统中存在的问题，探讨了策略自我进化、情景学习、离线学习等可能的解决方案，并分享了课题组的相关成果。

余超教授从安保系统、拍卖任务、德州扑克等非完全信息博弈的典型应用入手，讲述了博弈论机人工智能的发展历程，对当代智能博弈对抗提出了深刻的见解。余超教授介绍了自博弈、神经虚拟自博弈、反事实遗憾最小化及策略空间最佳响应等经典方法，分析了其表征与优化困难、非平稳目标、效率低下以及环形策略等问题，结合广义赫尔姆霍兹分解原理，从知识蒸馏、信念虚拟博弈、策略种群多样性的角度给出了多种潜在的增强方法，并对非零和博弈任务、表征及策略泛化、人机增强决策等应用进行了进一步展望。

许华哲老师讲述了决策智能、感知智能、机器人学的基本概念，对具身智能中的视觉外观、几何位姿、组合能力及多智能体协作泛化等问题进行了深刻地分析。许华哲老师提出，具身控制应从计算机视觉的成功中进行学习，在任务多样性、现实场景、高维及连续控制及过拟合方面实现标准化，进而提升学习算法在具有低质量点云及任意位姿的真实场景中的泛化能力。许华哲老师分享了课题组在相关性表征泛化、预训练视觉模型、分布式触觉机械臂以及离线多智能体强化学习及并行编码控制方面的成果，通过生动直观的案例展示了具身智能泛化能力后续可延伸的问题。

杨耀东老师从灵巧双手操纵、无人机群编队、星际争霸游戏等多智能体博弈合作的应用出发，讲解了合作式多智能体强化学习任务中值分解算法及个体-全局最优一致性等相关概念，对基于策略梯度的多智能体优化算法中存在的方差大问题进行了剖析。杨耀东老师从多智能体信赖域优化方法入手，分析了能够保障合作策略单调递增的优势函数分解定理，并对当前业界性能最优的多智能体Transformer算法及安全约束进行了讲解。进一步，杨耀东老师介绍了基于多智能体镜像学习合作博弈求解框架和最大熵优势函数分解定理，并对具有多种学习算法及测试环境的多智能体强化学习训练平台MARLlib进行了分享。

白辰甲老师从离线强化学习中存在的采样策略和学习策略不匹配、值函数迭代产生的分布漂移等问题出发，分析了策略约束、保守值函数等现有方法的特点及存在的问题，并给出了广义值函数的不确定性惩罚、鲁棒的离线策略学习以及贝叶斯的不确定性估计等解决方案。白辰甲老师介绍了广义模仿学习的概念，说明模仿学习不需要通过自举方式求解学习目标，从而避免分布漂移带来的误差，并着重强调了如何从非最优轨迹中学习最优策略是广义模仿的核心问题。进一步，白辰甲老师对大模型与广义模仿学习的关系进行了总结，介绍了Decision Transformer、Trajectory Transformer、Prompt Decision Transformer、MTDiffuser等一系列工作，并对大语言模型指导规划和技能调用、奖励生成等应用进行了展望。

温颖老师以多智能体强化学习中的零样本协作问题为出发点，指出现有基于种群的学习方法虽然试图通过在智能体种群中优化固定目标以提升策略或行为的多样性，但在开放环境下仍存在合作不兼容的问题。温颖老师从博弈论和图论的角度对合作不兼容问题产生的原因进行了分析，介绍了集中偏好的量化评估方法与基于图结构的合作博弈开放式框架，并展示了该方法在多智能体及人机合作任务中可以解决零样本协作中的合作不兼容问题。进一步，温颖老师展望了大语言模型和生成式智能体在开放世界中的应用前景，并分析了其中存在的人类行为理解、多智能体分布式决策等问题。

整个讲习过程中，学术氛围浓厚，参加研讨班的讲习班学员提出了多智能体强化学习、智能博弈、大模型及具身智能等相关问题。各位专家教授根据学员们的提问，由浅入深地进行了多维度的专业解答。

本次讲习班的举办，对促进人工智能前沿发展方向的研究与推广起到了促进作用，对提升相关学科学者对人工智能研究的兴趣起到了推动作用。

中国自动化学会共融机器人专委会人工智能讲习班将根据学科发展进展，不定期开展。欢迎相关从业人员关注参加。