基于规划步数自适应Dyna-Q的多功能雷达干扰决策方法

Ordnance Industry Automation(2022)

引用 0|浏览0
暂无评分
摘要
针对基于强化学习的干扰决策方法存在着收敛速度过慢的问题,在Dyna-Q算法的基础上提出一种规划步数自适应的Dyna-Q干扰决策算法.在保证干扰策略有效性的前提下,提升强化学习算法的收敛速度,使算法能以更快的速度学习到最优干扰策略.实验与仿真结果表明:该算法能实现多功能雷达干扰的实时有效,也可扩展到其他强化学习应用领域,具有一定借鉴价值.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要