科技创新2030—重大项目 “人机增强的大规模多智能体强化学习理论与应用研究”中期检查准备会在北京大学电子学院举行-西安交通大学-人工智能学院

新闻动态

科技创新2030—重大项目 “人机增强的大规模多智能体强化学习理论与应用研究”中期检查准备会在北京大学电子学院举行

发布时间：2023-04-20 点击量：

2023年4月19日上午,在北京大学电子学院理科二号楼，科技创新2030重大项目“人机增强的大规模多智能体强化学习理论与应用研究”中期检查准备会举行。线下参会共30多位学者，专家，企业领导，同时还有各课题组老师及同学在线上参加。

这是项目组第一次线下会议，各单位负责人都非常重视。会议首先由各单位负责人及参与人进行自我介绍；其次是项目负责人西安交通大学兰旭光教授发言；然后是各课题项目负责人汇报项目中期执行情况；最后是课题间相互交流探讨。

项目负责人兰旭光教授强调，本领域学者间的相互交流非常重要，此次中期准备会是为6月16日的中期检查做准备，为后续工作做好前提条件。学校与企业之间应促进交流，随着课题示范应用难度增加，依靠大模型推动产业发展，通过构建系统提高后期竞争力势在必行。

由北京大学程翔主持的课题一，对标国际一流水平，设计了弹性协同网络架构，实现任务驱动的资源时空耦合优化分配方案，并提出基于空时网络编码的高效信息共享和数据分发方案，显著提升多智能体任务完成率和信息共享效率；此外，针对大规模多智能体协同寻路问题，设计了区域分级协作的多智能体强化学习算法框架，当智能体数量较多时（200+），算法在成功率（SR）、平均完工时间（MS）、智能体/障碍碰撞率（CA/CO）等关键指标上相比于现有最优SOTA方案均取得了显著优势，并可以有效支撑1000+智能体的协同寻路优化。

由东南大学张亚主持的课题二，提出基于意图预测的安全交互机制，时延通信下车辆通行效率提高的同时百回合安全率达到了98%，优于仅模型的预测的0.9，提出基于注意力机制和轻量级安全层的安全交互强化学习算法，车辆控制中百回合安全率超过99%。构建了基于区域协作图的大规模多智能体协作网络，设计了基于图元学习和基于区域GAT的MARL算法；此外，还构建了专家知识指导下的分层MARL框架，设计了基于学习分类器和遗传算法的知识自主更新机制，设计了集成逆向强化学习模型。由浙江大学张森林主持的课题三，建立了种群演化模型，基于随机组合后的种群平均奖励更新种群，可将联合策略空间缩小50%，构建了基于最大信息增益采样的噪声条件下降采样策略评估算法，在噪声场景下相较RGUCB及α-IG算法的交互采样次数降低25%，改进物流仓储环境的奖励制度和协同优化策略的生成方法，进行策略演化，有效提升协同优化策略的效率。构建智能城市电网家用新能源汽车有序充电策略，针对城市电网家用新能源汽车有序充电场景实现了区域峰谷差下降58% ，同时车辆100% SOC 离场的良好效果。

由西安交通大学兰旭光主持的课题四，构建了人机增强的大规模多智能体分布式学习框架，集成20种典型决策算法，支持5个以上复杂任务场景的任务训练；在谷歌足球、格斗游戏等任务中与RLlib2021版、PyMARL2021版等相比，在同等算力条件下，模型达到相同水平所需的时间减少20%，运行效率超过主流强化学习框架17%。

由中国电力科学研究院有限公司王晓辉主持的课题五，提出大规模多智能体特征表征及其群体聚合方法；提出复杂业务流程下大规模多智能体协同博弈决策机制；完成大规模多智能体博弈系统真实场景下的样本高效生成算法设计。提出基于多智能体深度强化学习的电力系统实时调度方法，达到随机故障后的电网处置运行效率提升10%，完成面向实际工程的车路云协同交通控制系统总体设计，基于5G和V2X的数据通信网络架构设计，基于CA的通信加密及智能体安全交互机制设计，研发视觉AMR集群调度系统，打造“订单到人”自动化拣选搬运方案，解决了真实物流仓内大规模视觉AMR多任务协同问题。实现50台视觉AMR的高效集群调度。工人UPH提升100-200%，拣选错误率降低90%，仓库作业人员节省43%。

各位专家积极探讨，会议气氛热烈，亮点不断，通过讨论和交流，大家查找不足，取长补短，最终达成一致的意见。专家们一致认为，在接下来的工作中，继续总结中期工作中的不足，加强学校与产业的联系，打通渠道，为产业升级打下良好的基础，为国家科技繁荣争光添彩，进而实现伟大的复兴使命。