當前位置:首頁 > 新聞中心 > 學術活動

學術活動

【智能決策論壇系列解讀】多智能體算法應用

  • 发表日期:2021-01-31 【 【打印】【關閉】
  •   20209月,中國科學院自动化研究所在线上顺利举办了第一届智能决策论坛,其中多智能体算法应用是一个被许多专家学者广泛关注的问题。多智能体算法的核心是解决多个决策主体在合作、竞争、混合博弈环境下,完全与非完全信息、完美与非完美信息等各类条件下,如何做出最优决策,并最大化决策目标的问题。随着人工智能领域的研究从感知智能逐渐深入到决策智能,多智能体算法的应用也变得越来越广泛。下面将结合论坛嘉宾的精彩讲座和相关领域的调研,从政府决策、国防军事、商业与经济、工业领域等方面介绍分析多智能体算法的有关应用。 

      一、政府決策輔助中的應用 

      多智能體算法與博弈論的快速發展能有效助力政府治理能力現代化。政府在資源分配、治安保障、城市建設與運營等方面發揮著關鍵作用,而這些問題都與多智能體算法和博弈論息息相關,深入發展相關應用研究,能輔助政府決策智慧化高效化。 

      反暴反恐的資源分配。南洋理工大學副教授安波在智能決策論壇上分享了近年來安全博弈論領域的相關研究:巧妙地把安全領域的對抗問題建模成博弈問題,並通過博弈問題的求解對現實決策進行理論指導。反暴反恐是安全博弈十分典型的應用場景,由于安保投入預算有限,難以完全保障所有的目標安全,這時候政府安全部門與恐怖分子之間就形成了博弈關系,政府安全部門希望對有限的資源進行合理的分配來盡最大可能保護人民群衆的生命安全與社會秩序,而恐怖分子則會觀察安全部門的資源分配,針對最薄弱的部分進行攻擊,造成盡可能大的破壞。安波目前的研究將反暴反恐問題轉換爲斯塔克博格問題,提出了大規模問題下的均衡算法,並且在實踐中得到了應用。 

      智慧城市建設。智慧城市核心建設任務是依托大量城市數據,建設智能決策系統,實現資源利用效率的提升。路網協同控制是多智能體算法的經典應用場景,訓練得到的協同交通燈控制系統能自動依據交通擁堵情況調節紅綠燈占比,在不同道路間調節車流以保持負載均衡,並讓同一道路上的不同紅綠燈協同形成綠波帶,從而大幅提高相同基礎設施下的通行效率。除此之外,多智能體算法也研究如何通過協作的交通燈控制來抓捕駕車的逃犯,安波在報告中介紹了通過警方的定位信息,基于多智能體算法的協作交通燈能夠使得在逃車輛所在路段附近盡可能擁堵,而警車追逃方向盡可能保持暢通,並且在多輛警車間形成配合,以最快速度構成包圍圈,進而提高抓捕的成功率,保障群衆生命安全。 

    安波作報告

     

      二、國防軍事領域中的應用 

      軍事對抗可以建模爲大量可指揮多智能體構成的複雜系統間的競爭性博弈,多智能體算法在無人機群協同編隊、指揮決策、作戰支援、資源調度等問題上的應用可有效提升作戰效能,增強軍事實力,保證國家安全。 

      無人機集群對抗。本次論壇中,西安交通大學教授柯良軍圍繞無人機集群的背景,描述了其在搜索救援、協同偵察、軍事戰爭、飛行表演等場景下的應用,並詳細介紹了多智能體強化學習算法在無人機集群對抗中的相關應用實踐。研究聚焦于無人機集群對抗中的疆土守衛博弈問題,即將無人機集群分爲紅藍陣營,目標分別是進攻與防守,然後基于平均場理論設計了狀態共享、獎勵共享、平均動作等機制,並建立了智能體與臨近智能體間的協作通信。基于中心訓練與分布執行框架得到的策略優于傳統方法與已有策略,在對抗中無人機形成了自組織、自適應特點和擬人思維屬性,通過感知環境並依據多智能體強化學習訓練得到的規則,以及采取攻擊、避讓、分散、集中、協作、援助等有利策略,在系統整體上湧現出集群對抗的動態特性。 

      三、商業與經濟領域中的應用 

      在大數據背景下,企業掌握了越來越多個性化細粒度的信息數據,而多智能體算法能有效利用這些信息,將商業問題建模成多智能體問題,從而輔助進行企業間博弈決策,例如定價策略定制、資源調度決策、違規行爲檢測、多部門協作分工決策、多模塊推薦系統配合策略等,最終提升企業運行效率,創造更多價值。 

      價格戰分析。在互聯網飛速擴張的背景下,價格戰競爭屢見不鮮,如滴滴和uber,美團和餓了麽,ofo和摩拜等,這些價格戰的邏輯都是通過低價占據市場份額以形成壟斷優勢從而賺取超額收益,企業需要在有限的補貼預算約束下,對消費者進行個性化補貼以實現市場份額最大化,因此對價格戰機制的研究是很有必要的。在本次智能決策論壇中,上海交通大學博士生閻翔將價格戰轉化爲上校博弈,通過合理分配兵力的策略能獲得最大的贏面。由于實際問題中競爭對手的補貼預算和每個消費者的偏好是未知的,傳統算法並不可行,所以閻翔通過可觀測的消費數據結合潛在狄利克雷分布來推測不完美不完全的信息,並結合多智能體算法進行了多輪價格戰的最優策略制定,最終在O2O的真實數據集上取得了最好的效果。閻翔也前瞻性地指出價格戰是一種降價補貼形式的市場份額競爭,而貿易戰則是一種關稅提價形式的市場份額競爭,兩者有很多相似之處,值得進一步研究。 

      共享出行平台匹配問題。共享出行平台面臨的最大問題是乘客出行需求與網約車的供給分布不平衡導致的打車體驗不佳,當前主流的解決思路是通過個性化定價或者車輛調遣匹配來解決這種不平衡,但是個性化定價和車輛調遣匹配之間存在著密切關聯,定價高低會影響用戶最長等待時間,因此可以將兩階段融合考慮,個性化定價可建模成上下文多臂老虎機(Contextual Bandits)問題來推斷用戶的出價分布,車輛調遣匹配可建模成二部圖,通過時序差分的方法學習最優匹配,最終實現出行需求與供給的最優匹配。 

    閻翔作報告

      四、工業領域中的應用 

      在數字化和萬物互聯的大背景下,越來越多的智能單元參與到工業生産與社會生活中,在大家的日常生活正扮演著越發重要的作用。 

      目標追蹤與檢測。本次論壇中,北京大學博士生鍾方威介紹了多智能體強化學習算法在單攝像機主動目標追蹤領域的應用。當前,主動目標追蹤在工業機器人、無人駕駛領域都有所應用,傳統方案一般基于純視覺的方法定位目標再通過控制方案實現目標追蹤,存在障礙物遮擋、人工標注量大等問題。采用強化學習在模擬器中直接訓練一個端到端輸出動作的策略網絡則能有效解決此類問題:通過設計多樣的模擬環境,實現虛擬環境訓練模型到真實世界的遷移;通過設計一個包含全局信息的強大追蹤目標策略對抗網絡來規劃路徑,從而盡可能躲避追蹤者的定位,並加強追蹤策略的表現效果。 

      多單位的協作任務。鍾方威在報告中還介紹了主動目標追蹤可應用在多個固定攝像機上,通過協作進行同一目標多角度追蹤的研究現狀。多個固定攝像機目標追蹤的核心思想是:雖然每個攝像機在固定機位下可能無法繞開障礙物或者難以追蹤較小的目標,但是在多個攝像機配合的情況下,可以通過其他攝像機對目標的定位輔助確定追蹤目標的方位。具體實現上是設計控制方式轉換網絡,並依據自身的數據定位或其他的攝像頭進行協作定位,可基于多智能體算法設計協作定位的控制器,輸入其他協作攝像機的位置與姿態生成最佳的追蹤角度。相關算法在城市場景數據集下的實驗取得了極佳效果,同樣的思路也可以擴展到工業生産中多機械臂協作策略的學習。 

    鍾方威作報告

      五、結束語 

      本次智能決策論壇各位專家學者結合自身的研究方向,分享了多智能體算法目前在政府決策、國防軍事領域、商業與經濟領域、工業領域、競技賽事等方面決策問題中的應用進展,並對當前研究中影響應用的主要困難點進行了建設性討論,對未來更進一步的研究方向和可能的落地應用場景進行了充分的交流。 

      多智能體算法的研究需要結合當前實際問題的重點需求組織攻關,切實解決急迫和困難的實際問題,從而發掘理論的應用價值。例如,在新冠疫情的常態化防疫背景下,國內重點早已從控轉向防,如何將防疫預算在各個預防舉措、預防階段上進行有效的配置調度來實現防疫效果最大化?在零星疫情中,如何迅速果決地確定核酸檢測的範圍,在保證控制疫情的前提下,盡可能降低對生産生活的影響?中美之間在經濟、科技、政治等領域摩擦不斷加劇,如何在貿易戰中制定合理高效的關稅政策,進而采取針對性強的反制措施來最小化自身損失、最大化對惡意關稅的制裁?這些都需要多智能體算法相關研究的支撐。 

      在各種人工智能技術千帆競發、百舸爭流的智能化時代,多智能體算法無疑是其中一支行駛在最前列的艦隊。乘風破浪會有時,直挂雲帆濟滄海,多智能體算法必將在未來應用中取得更加引人矚目的成就!