機器之心公布
全世界電子計算機視覺頂會 CVPR 2 上,百度搜索總共有 22 篇畢業(yè)論文被接受。這篇 Oral 畢業(yè)論文中,百度搜索明確提出了 ActBERT,該實體模型能夠學習培訓抒情性視頻開展無監(jiān)管視頻文字關聯(lián),并明確提出糾纏不清伺服電機對部分地區(qū)、全局動作與規(guī)范字開展編號。*后在 5 項有關評測每日任務上獲得了 SOTA 結果。
全世界電子計算機視覺頂會 CVPR 2 上,百度搜索總共有 22 篇畢業(yè)論文被接受。這篇 Oral 畢業(yè)論文中,百度搜索明確提出了 ActBERT,該實體模型能夠學習培訓抒情性視頻開展無監(jiān)管視頻文字關聯(lián),并明確提出糾纏不清伺服電機對部分地區(qū)、全局動作與規(guī)范字開展編號。*后在 5 項有關評測每日任務上獲得了 SOTA 結果。
ActBERT 在中下游視頻和語言表達每日任務上,即文字視頻精彩片段查找、視頻敘述轉化成、視頻話題討論、動作流程精準定位等每日任務上顯著好于別的技術性,展現(xiàn)了其在視頻文字表明層面的自學能力。
畢業(yè)論文:《ActBERT: Learning Global-Local Video-Text Representations》
畢業(yè)論文連接:
目前運用 BERT 訓煉方法開展視頻語言表達建模一般通過量化分析視頻幀特點的方法,根據(jù)聚類算法離散化將視覺特點轉換為視覺英語單詞??墒?,詳盡的部分信息,比如,互動交流目標,在聚類算法全過程中很有可能會遺失,避免 實體模型進一步發(fā)覺粗粒度的視頻和文本對應關系。文中明確提出 ActBERT 從匹配視頻編碼序列中發(fā)掘全局和部分視覺案件線索和文字說明,它運用豐富多彩的前后文信息和粗粒度的關聯(lián)開展視頻 - 文字協(xié)同建模,其奉獻有三點:
*先,ActBERT 融合了全局動作,部分地區(qū)與文字敘述。例如「裁切」、「切成片」這類的動作針對各種各樣視頻有關的中下游每日任務是有好處的。除開全局動作信息,融合當?shù)氐貐^(qū)信息以出示粗粒度的視覺提醒,地區(qū)出示相關全部情景的詳盡視覺案件線索,包含地區(qū)目標特點,目標的部位。語言模型能夠從地區(qū)信息中獲益以得到更強的語言表達和視覺一致性。
次之,糾纏不清伺服電機控制模塊對來源于三個因素開展編號,即全局動作,部分地區(qū)和語言表達敘述。新的糾纏不清編號控制模塊從三個來源于開展多模態(tài)特點學習培訓,以提高2個視覺提醒和語言表達中間的互動交流作用。在全局動作信息的具體指導下,對語言模型引入了視覺信息,并將語言表達信息融合到視覺實體模型中。糾纏不清伺服電機動態(tài)性挑選適合的前后文以推動總體目標預測分析。
除此之外,明確提出四個訓練科目來學習培訓 ActBERT。預訓煉后的 ActBERT 被遷移到五個與視頻有關的中下游每日任務,并定量分析地表明 ActBERT 做到了*優(yōu)秀的特性。
優(yōu)化算法
糾纏不清伺服電機
糾纏不清伺服電機包含三個伺服電機, 三個伺服電機的鍵入來源于三個來源于。為了更好地提升視覺和語言表達特點中間的互動交流,糾纏不清伺服電機將視覺信息引入語言表達伺服電機,并將語言表達信息融合到視覺伺服電機中。從總體上,糾纏不清伺服電機運用動作信息催化反應互相溝通交流。
C_w 是混和后的語言表達表明方式,而 C_r 是正確引導后的區(qū)域特征。隨后,C_w 應用一個線形層得到新的鍵值對。造成的鍵值對與初始的 a 伺服電機和 r 伺服電機鍵值對層疊在一起。根據(jù)這類方法,視覺和語言表達特點更進一步聯(lián)絡在一起。
訓煉方法
文中明確提出四個訓煉方法開展實體模型學習培訓。第一、有掩碼的語言表達建模每日任務。文中運用地區(qū)物件和全局動作中的視覺數(shù)據(jù)信號,發(fā)覺視覺和語言表達實體線中間的關聯(lián)。該每日任務驅使實體模型從前后文敘述中學習培訓,另外獲取有關的視覺特點以幫助文字預測分析。當形容詞被除去時,實體模型應當運用動作特點來更精確預測分析。當敘述部分的專有名詞被除去時,當?shù)貐^(qū)域特征能夠出示大量的前后文信息。
第二、有掩碼的動作歸類每日任務。這一每日任務是依據(jù)語言表達和物件特點,預測分析被除去的動作標識。確立的動作預測分析能夠有兩層面的益處。1)長階段動作編碼序列案件線索能夠被發(fā)掘,該每日任務能夠能夠更好地辨別實行動作時的先后順序;2)運用地區(qū)物件和語言表達文字能夠得到更強的跨多形式建模,該每日任務能夠提高預訓練模型中的動作鑒別工作能力,能夠進一步營銷推廣到很多中下游每日任務。
第三、有掩碼的物件歸類每日任務。在該每日任務中,部分地區(qū)目標特點被任意除去。其總體目標遍布為將該地區(qū)鍵入到同樣的目標檢測實體模型獲得的激話值。提升總體目標是降到*低二種遍布中間的 KL 差別。
第四、跨匹配算法。與下一個語句預測分析(NSP)每日任務相近,在第一個標記 [CLS] 的輸出后添加了一個線形支持向量機,用于標示語言表達與視覺特點的關聯(lián)性。假如成績較高,說明文字非常好地敘述了視頻視頻剪輯。
試驗
試驗設定
ActBERT 在 HowTo100M 數(shù)據(jù)上開展預訓煉。該數(shù)據(jù)包含了累計 23,611 項每日任務,比如維護保養(yǎng)和維修、小動物解救、提前準備食物等。在五個每日任務上測評了 ActBERT 的特性。
視頻敘述轉化成試驗結果
ActBERT 在全部指標值上均好于 VideoBERT,說明預訓煉學習培訓到更強的視頻表明,也說明 ActBERT 對視頻編碼序列建模的實效性。
動作切分試驗結果
ActBERT 顯著好于標準方式。它說明預訓煉的 ActBERT 能夠僅解決視覺。當刪掉地區(qū)信息時,能夠觀查到特性降低了,說明詳盡的部分案件線索針對聚集視頻幀標識每日任務有關鍵功效。
動作流程精準定位試驗結果
ActBERT 的主要表現(xiàn)顯著好于 TVJE,即均值提高有 7%。這一結果乃至比無監(jiān)督學習的特性也要好。為了更好地與 TVJE 有公平公正的比照,文中刪除了部分地區(qū)信息,這一結果也顯著好于 TVJE,證實 ActBERT 預訓煉的實效性。詳細 ActBERT 實體模型進一步提高了 4%。
文字視頻精彩片段查找與視頻話題討論試驗結果
不用繁雜的協(xié)同視頻文字建模,ActBERT 顯著好于目前別的方式。說明 ActBERT 在規(guī)模性數(shù)據(jù)上的強勁自學能力。
結果
ActBERT 以一種自身監(jiān)管的方法開展協(xié)同視頻文字建模。該方式立即為全局和部分視覺信息建模,以開展粗粒度的視覺和語言表達關聯(lián)學習培訓。ActBERT 將信息的三個來源于做為鍵入,并應用了新奇的糾纏不清伺服電機進一步提高三個源中間的互動。五個視頻文字標準檢測的定量分析結果證實了 ActBERT 的實效性。將來能夠根據(jù)設計方案更強勁的視頻和文字學習培訓控制模塊來提高 ActBERT,并將其運用到視頻動作鑒別和檢測中。
論文參考文獻:
Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2.
Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.
Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019
Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.
本 文為機器之心公布, 轉截請聯(lián)絡本微信公眾號得到受權 。
?------------------------------------------------
添加機器之心(全職的新聞記者 / 見習生):
文章投稿或尋找報導:content@jiqizhixin.com
廣告宣傳 & 招商合作: