當前位置:首頁 > 新聞中心 > 科研動態

科研動態

智能感知與計算研究中心提出基于最優傳輸理論的影視換臉技術

  • 发表日期:2020-11-16 【 【打印】【關閉】
  •    

      科技改變影視生態  

      影視劇換臉結果 素材來源自網絡)  

      賦予機器類人創造力,使之能夠自動理解和編輯影像是人工智能領域的前沿方向。  

      中科院自動化所智能感知與計算研究中心長期從事圖像分析理解的信息理論基礎研究,近期提出一種基于最優傳輸理論的影視換臉技術,著力于解決複雜光照和膚色條件下的人臉外觀遷移問題,在挑戰性的影視劇場景中實現了高效逼真的換臉效果。該技術能夠部分緩解影視換臉人力成本高昂的問題,有望進一步推動影視娛樂領域的智能化程度。相關論文因可能會在深度僞造領域帶來人工智能倫理影響,被NeurIPS2020大會條件接收,近日在獲得6位專業審稿人(包含2位人工智能倫理專家)一致肯定後,被正式接收。  

      研究背景  

      影視換臉是指将原有影视作品中演员的人脸替换为另一名演员的人脸。为了实现逼真效果,除却身份信息外,替换后的人脸需保持和替换后人脸相同的属性,如光照和肤色等。传统的影視換臉需要专业人员手动逐帧编辑,费时费力且造价高昂。例如,电影《双子杀手》中将年轻时威尔·史密斯的人脸替换至影片中,短短4分钟的换脸戏份花费了长达九个月的后期制作时间。漫长的周期、高昂的费用严重制约了影視換臉的发展。    

      近年来兴起的生成机器学习模型给影視換臉带来了新颖且经济的解决思路。研究人员利用生成模型强大的学习和映射能力,实现人脸的自动替换。然而,当被替换影视中的人脸处于复杂的外观(光照、肤色)条件下时,当前基于生成模型的换脸技术难以取得令人满意的效果,出现各种“换脸后遗症”,如圖1左邊生成視頻的面部出現忽明忽暗的色塊。如何彌補生成視頻和源視頻之間的顔色屬性差異,從而有效地實現換臉過程中的外觀遷移成爲亟待解決的問題。 

       

      1. 複雜光照條件下,DeepFaceLab ()和新方法()对比圖  

      方法簡述  

      爲了解決上述問題,自動化所智能感知中心研究人員基于最優傳輸理論,將外觀顔色遷移問題建模爲一個最優傳輸問題,並提出外觀最優傳輸模型Appearance Optimal TransportAOT)。如圖2所示,其采用重新打光生成器(Relighting)和混合分割判別器(Mix-and-Segment)分別在特征空間和像素空間同時求解傳輸計劃。   

      特征空間上的遷移:提出一種神經最優傳輸計劃估計模塊(NOTPE),通過最小化隱空間特征的Wasserstein距离近似求解最优传输,实现外观在隐层空间的映射。这样一方面规避了传统最优传输方法的大规模计算问题,另一方面解决了圖像之间运用最优传输时生成不连续且不真实圖片的问题。同时该方法提取人脸相应的坐标以及法线信息,用于表示面部几何和光照,使得在特征空间上迁移的过程更为准确。 

       

      2. AOT方法框架圖  

      像素空间上的迁移:由于同一圖像的特征空间和像素空间之间存在强关联性,该方法进一步探索如何在像素空间上减少外观差异。在传统的生成对抗网络中,判别器用于区分整张圖像的真假,这样会使模型趋向于关注整体特征而忽略局部特征。为了实现更细粒度的圖像生成,该方法利用换脸过程中的结构一致性,引入一种圖像分割游戏。其将生成的假脸切块并和源圖像随机混合,并使用一种新的判别器Mix-and-SegmentMSD)区分真假混合圖像块中的真实部分。这种分割对抗机制能够促使生成圖像在像素空间和目标圖像尽可能相似,从而显著提升换脸效果。  

      應用驗證  

      1.受控場景  

      DPF-1.0數據集上,該方法與當前主流的換臉算法DFLFSGAN的对比如圖3所示。實驗結果顯示出該方法對光照變化的魯棒性,能夠在複雜光照條件下實現更加逼真的換臉效果。  

       

      3. 受控場景下测试结果    

      2.現實場景  

      4表明在現實影視場景中,該方法仍然展現出比傳統方法更加卓越的性能優勢。  

       

      4. 現實影視場景下測試結果  

           

      論文信息:  

      Hao Zhu*, Chaoyou Fu*, Qianyi Wu, Wayne Wu, Chen Qian, Ran He. AOT: Appearance Optimal Transport Based Identity Swapping for Forgery Detection. NeurIPS, 2020.  

      Ran He, Xiang Wu, Zhenan Sun, Tieniu Tan. Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition. IEEE Trans. Pattern Anal. Mach. Intell., 41(7): 1761-1773 (2019)