近日,环球ug官网自动化系硕士研究生梁大杨在人工智能领域一区SCI期刊《Knowledge-Based Systems》发表题为“Gated multi-attention representation in reinforcement learning”的研究论文。
研究背景
近年来,结合深度学习具备的表征能力使得深度强化学习算法在以AlphaGo为代表之一的高维感知环境中取得了巨大成功。最近研究表明,结合各类衍生注意力机制的RL算法在复杂环境中实现了性能提升。然而,在智能体的试错学习过程中,注意力机制关注任务区域的正确性也是一个很重要的问题。现有的基于注意的模型一般对试错注意信息进行不加区分的记忆与利用,其中与任务无关的信息将诱导错误的策略。另外,在奖励稀疏的初期阶段,该问题更加明显。
研究内容
本文将提出的门控多注意力机制表征模块(GMA)扩展到DQN算法中,提出一种基于多注意力表征模块的Q学习框架(GMAQN)。在GMAQN框架训练期间,表征网络中的Gates机制分别对历史及输入注意力信息实现验证及筛选效果,进而消除历史冗余注意力,这可以缓解无关信息干扰智能体决策的问题。另外,Gates机制可以反向梯度诱导多注意力网络的分工训练,提升注意力学习效率。
实验在Atari2600环境下的17个游戏上测试,相关曲线表明所提方法带来的性能提升:

带不同强度干扰噪声的鲁棒性对比实验:

研究相关
环球ug官网自动化系为该项工作的唯一署名单位和通讯单位。研究生梁大杨为本文的第一作者,刘云龙副教授为本文通讯作者。该项工作得到了国家自然科学基金项目(61772438、61375077)和福建省创新战略研究计划项目(2021R0012)的资助。
论文链接:https://doi.org/10.1016/j.knosys.2021.107535