基于python多智能体强化学习VDN、QMIX、QTRAN、QPLEX复现源码+文档说明几个关键概念的作用:
MultiAgentController():
包含了多智能体的网络和所需要的操作
用于生成agent模型(value-based算法为q net;AC的为actor net)(不包含mixing net或者critic net)
包含agent的操作,如产生action、计算individual q值等
SMAC():
星际争霸多智能体强化学习环境
可以编写自己的环境,最好根据SMAC提供的一套api封装一下
ReplayBuffer():
用于存数据(注意有两种存储方式:1)存transition;2)存episode。根据算法需求选择)
用于sample数据,喂给模型训练
注意:on-policy和off-policy之间的区别。on-policy只能用当前时刻的被改进的policy获取的数据训练,因此训练完成后要清空buffer;off-policy可以使用其他策略(行为策略)采集的数据,不用清空buffer,但可能某些算法需要重要性采样。(MAPPO有些特殊
, 相关下载链接:
https://download.csdn.net/download/qq_38140936/89460572?utm_source=bbsseo