當前位置:首頁 > 新聞中心 > 學術活動

學術活動

【智能決策論壇系列解讀】深度強化學習理論和算法

  • 发表日期:2021-02-02 【 【打印】【關閉】
  •   20209月,由中國科學院自动化研究所主办的首届智能决策论坛成功举办,20余位專家學者齊聚線上,圍繞智能決策相關研究和應用方向進行了精彩的學術報告與交流研討。其中深度強化學習理論和算法是本次論壇的熱點話題之一,吸引了許多學者的關注。 

      深度強化學習(Deep Reinforcement Learning, DRL)是機器學習的一個分支,相較于機器學習中經典的監督學習和無監督學習問題,其最大特點是在交互中學習(Learning from Interaction),也可认为是一种自监督学习方式。智能体在与环境的交互中根据获得的奖励或惩罚不断学习新知识,进而更加适应环境。深度強化學習的范式非常类似于我们人类学习知识的过程,也正因此,深度強化學習被视为实现通用AI的重要途徑。 

      深度強化學習将具有环境“感知”能力的深度学习和具有策略“决策”能力的强化学习融合,形成能够直接处理高维复杂信息作为输入的优化决策方法。深度学习不仅能够为强化学习带来端到端优化的便利,而且使得强化学习不再受限于低维的空间中,极大地拓展了强化学习的使用范围。利用深度強化學習方法,智能体在与环境的交互过程中,根据获得的奖励或惩罚不断地学习知识、更新策略以更加适应环境。 

      目前深度強化學習已经取得了一系列举世瞩目的成就,包括在49Atari視頻遊戲上得分超越人類職業玩家水平的DQN算法、完全信息博弈下的圍棋AI-AlphaGo,對稱開局博弈的國際象棋與日本將棋AI-AlphaZero、部分可觀測信息下的第一人稱團隊協作射擊類(FPS)任務、不完全信息即時戰略遊戲星際爭霸II AI-AlphaStar、多人實時在線競技遊戲Dota2 AI-OpenAI Five,以及非完全多人信息博弈麻將AI-Suphx等。在上述复杂环境下的决策任务中,以深度強化學習方法作为核心决策优化算法均已达到甚至超越人类顶尖玩家水平。 

      除游戏之外,近年来深度強化學習正被逐渐应用于许多工程领域,如机器人控制、自然语言处理、自动驾驶、推荐搜索系统等。到目前为止,深度強化學習仍处于兴起阶段,属于人工智能方向的新兴研究領域,拥有广阔的发展前景。 

    一、基于模型(model-based)的深度強化學習 

      现有的深度強化學習方法,如取得瞩目成果的AlphaGoAlphaStar等,大都是無模型(model-free)的。這類方法在訓練時,需要從系統環境中采集大量的樣本數據,訓練效果也不一定理想,容易産生數據效率低的問題,可能導致對計算資源與時間成本的浪費。針對這些問題,一些基于模型(model-based)的強化學習方法被提出,基于模型的方法一般先從數據中學習模型,然後再基于學到的模型對策略進行優化,其過程和控制論中的系統參數辨識類似。在實際應用中,這兩種方法互有利弊。 

      在本次智能決策論壇中,上海交通大學副教授張偉楠對這兩種方法進行了一些比較:基于模型的強化學習具有on-policy、高數據效率等優點,與環境進行較少交互即可達到很好的效果,但它受到模型複合誤差的影響,訓練結果的最優性不一定能夠得到保證;而無模型的強化學習具有最優漸進性能、更適合大數據的優點,卻存在著off-policy導致訓練不穩定以及較低的數據效率需要大量的交互樣本支持等問題。 

      對基于模型的強化學習,張偉楠也給出了一些模型建模的改進方法,如PETSProbabilistic Ensembles with Trajectory Sampling):通过一组输出为高斯分布均值和方差的神经网络来建模,采样时先随机采样一個高斯分布,再在高斯分布基础上进行采样得到下一個状态。PETS方法提升了在新數據上的泛化性能,同時也能夠捕捉環境輸出采樣本身的隨機性。爲了減小基于模型強化學習方法的複合誤差,張偉楠提出了一種基于雙向建模的BMPO算法(Bidirectional Model-based Policy Optimization),其利用正反雙向建模更有效地約束複合誤差,然後通過基于玻爾茲曼分布的采樣策略和模型預測控制方法來得到更有價值的軌迹,並在理論與實驗中證明了BMPO方法在訓練速度、采樣效率和模型複合誤差上都達到了更好的效果。 

    張偉楠作報告

    二、深度強化學習经验的迁移学习 

      在通过深度強化學習方法解决一些问题时,经常会有一些处理类似问题的经验,如果能够在学习目标任务时借鉴这些先验知识,就可以减少所需的数据量,从而提高学习效率。然而当前的深度強化學習算法大多只关注单一任务场景下的决策训练及模型优化,这就导致学习到的基本策略只适用于当前训练环境,无法直接采用先前的数据集和训练模型。如何使强化学习策略利用过去任务中获得的经验是目前的研究难点之一,在本次智能决策论坛中,南京大学副教授章宗长就针对这一问题提出了一种解决思路——將遷移學習與強化學習結合。 

      章宗長在報告中提出了兩種遷移強化學習的方法:第一種是基于策略重用的策略遷移框架PTFPolicy Transfer Framework):在强化学习框架中引入选项模块,即根据输入的经验元组,给智能体输出有价值的源策略知识,并将其用作目标策略的一個补充优化目标。PTF能夠學習到將源策略重用到目標策略的最優方案,然後將多策略遷移建模爲選項學習問題,並學習到何時終止源策略。章宗長介紹的第二種方法就是貝葉斯策略重用BPRBayesian Policy Reuse)算法及其拓展。BPR引入了性能模型、信念等概念,使智能體面對未知任務時,可用貝葉斯方法學習最優的響應策略。在此基礎上,還可以將BPR擴展至多智能體系統,使其擁有非穩態環境中的在線學習能力,並能夠發現對手的策略切換,在線調整策略。爲了克服BPR+算法中存在的僅采用獎勵信號更新信念模型、無法應對複雜的馬爾可夫博弈過程等問題,章宗長又進一步提出一種深度BPR+算法:采用神經網絡作爲值函數的逼近器,使用獎賞信號和對手模型更新信念模型;同時使用蒸餾策略網絡作爲在線策略學習的初始策略,並通過策略存儲實現高效空間利用。目前深度BPR+算法已在一些博弈任務中實現了良好的效果。 

    章宗長作報告

    三、非完全信息博弈环境下的深度強化學習  

      非完全信息博弈在许多方面都有重要应用,如棋牌娱乐、金融市场与拍卖类经济活动、军事资源配置与战场调度等。目前许多强化学习方法已经较完备地解决了在完全信息条件下的决策问题,但在非完全信息场景下,一個子博弈的求解或许会与另外的子博弈产生关联,其他智能体的位置状态也会破坏强化学习中马尔可夫过程的基本假设,因此难以求出纳什均衡解。此外,还可能存在一個状态不可分的信息集,使得传统方法难以估计状态值,因而无法区分信息集的状态。为解决上述问题,中山大学副教授余超在本次论坛的报告中介绍了一些可行方法。 

      首先,余超介紹了反事實後悔最小化方法 CFRCounterFactual Regret Minimization)。CFR与强化学习类似,不同之处在于其需要计算出反事实后悔值,用来表示某個行为带来的效用提升,策略则根据每個信息集的后悔值进行更新,后悔值越大,越能选出较好的动作值。为了提高CFR的效率並降低方差,余超將CFR与神经网络结合起来:一個网络作为后悔值网络,一個网络作为效用值均值网络,然后通过深度学习来训练优势网络。随后,余老师介绍了我们应如何改进现有的强化学习方法令其适用于非完全信息博弈:首先可以对传统的强化学习的机制或训练方式进行提升(如NFSPRPQ),其次可以將一些搜索和規劃的方法引入進來,最後可以對對手進行建模(如UFO)。 

      为了实现深度強化學習在不完全信息博弈中的应用,余超又介绍了一种强化学习的改进算法:NFSPNeural Fictitious Self Play)。在NFSP中,智能體和博弈中的其他參與者進行交互,並記住自身關于博弈狀態轉移的經驗和行爲。NFSP 将这些记忆分成两個数据集,一個通过深度強化學習训练Q网络,一個通过监督学习训练过去的平均策略。在选取动作时,智能体会以一定概率从Q網絡和平均策略網絡中分別進行策略選擇並更新。因此在博弈過程中,智能體可以從這兩種混合策略中擇優進行選取。 

    余超作報告

    四、討論與總結 

      深度強化學習在游戏和机器系统上的不断成功吸引着研究者们思考是否能将关键技术和方法应用在更为复杂的决策任务上,例如群体行为的指挥和引导、社会政策的制定和实施等。这类问题典型特点是系统状态空间巨大、动力学模型巨复杂,直接与之交互很难产生大量的有效训练数据。然而近年来随着对这类复杂系统的研究,越来越多的群体模型和社会模型被建立起来,并被证实能够有效反映真实场景的运行过程和演化机制。因而将基于模型的强化学习方法和现有的模型理论相结合,为解决这些复杂群体和社会决策问题提供了技术上的可能。在本次智能决策论坛中,各位专家学者提出的一些深度强化理论和算法有望在不完全信息博弈、多目标任务、动态场景等条件下实现良好的应用效果,这类算法也会成为下一個十年人工智能领域的重要研究方向。