當前位置:首頁 > 新聞中心 > 媒體掃描

媒體掃描

【科技日報】“多模態自然語言處理研討會”聚焦多模態建模與學習方法

  • 发表日期:2020-11-16 【 【打印】【關閉】
  •   记者获悉,日前在国际自然语言处理与中文计算会议 (NLPCC 2020)上, 第一届“多模态自然语言处理研讨会”举办。

      多模態已成爲新聞報道和信息交流的主要呈現形式,多模態自動摘要技術,旨在利用計算機自動實現從多個模態的信息中壓縮生成摘要的過程,可以廣泛應用于新聞推送和電商推薦等多個領域。

      在本次研讨会中,来自中科院自动化所的研究员张家俊介绍其所在的课题组近年来在多模态摘要方法和评价等方面的研究进展。重点介绍了异源多模态摘要生成的研究方法变迁:从抽取式方法到生成式方法,再到目前融入多模态注意力机制的图文式摘要生成方法等。同时,张家俊也介绍了多模态自动摘要的自动评价方法: 综合考虑文本和图片重要性以及文本图片相关性更加贴近人工打分。

      預訓練模型的出現,使自然語言處理由原來的手工調參、依靠機器學習專家的階段,進入到可以大規模、可複制的大工業施展階段。此階段基于預訓練模型+微調機制,具備很高的可擴展性,展現出很高潛力。而當前研究也從單一語言擴展到多模態。

      微软亚洲研究院的高级研究员、博士段楠介绍了多模态预训练模型的最新研究进展。他首先回顾了典型的预训练模型。随后,重点介绍了3种最新的多模态预训练模型:Unicoder主要应用于跨语言的语言理解和生成任务;Unicoder VL专注于视频语言任务,对视频片段和对应的自然语言描述进行联合建模;CodeBERT则关注在代码语言任务。段楠也和与会学者一起讨论了当前多模态预训练的问题和可能的未来方向。

      “AI+藝術是一個跨界領域。藝術家的想象力往往啓發著科學家的創造力,而在AI時代,藝術家用人工智能機器學習相關技術來創作藝術,表達自己的想法和概念,設計師用神經網絡模型創造自己的設計工具和助手。”

      清華大學未來實驗室博士後高峰分享了AI技術在藝術與設計領域的創新性應用。其團隊開發的道子智能繪畫系統,利用計算機將自然圖像以風格遷移的方式轉變成藝術圖像,根據所得藝術圖像進行水墨畫繪作,實現技術與藝術間的跨界融合。高峰也介紹了道子在服裝設計、工業設計、裝置藝術等領域的探索成果。

      多模态智能分析是近期的研究热点。来自北京航空航天大学的教授刘偲围绕视觉和语言的交互介绍两方面的内容进行了分享。她首先介绍了视觉关系检测的研究,包括人-物关系检测,人-物关系分割,视频关系检测等方面的内容。其次,她指出视觉指代表达和指代分割,对于智能机器人和交互式图像编辑等实际应用有重要意义。 传统的视觉指代表达方法采用两阶段式架构,模型复杂且速度受限,而传统的指代分割方法聚焦于多模态特征融合,缺乏利用语言信息进行上下文建模和推理的能力。在本次讨论中,她给出了针对性的解决方法。

      對話系統一直是自然語言理解領域一個重要的研究內容,它可以使人們更便捷的與機器進行交互,而多模態的對話系統是非常重要的一個研究方向。

      平安壽險AI研發團隊的博士楊海欽,分享了多模態對話系統在平安人壽各種場景的應用,包括保單回訪服務和視頻櫃員客服等。在本次講座中,楊海欽重點介紹了多模態對話系統的核心和創新技術,實際部署經驗以及如何應用該系統來降低運營成本,同時增加用戶體驗。

      同時,京東AI研究院NLP算法科學家、博士吳友政也作了“智能人機交互及其應用”的主題分享。

     

    原文鏈接:http://www.stdaily.com/index/kejixinwen/2020-11/02/content_1038837.shtml