寫在前面最近幾年出現(xiàn)了很多以短視頻的創(chuàng)作和分發(fā)作為主打的手機應用軟件,這極大地豐富了文本和圖像之外的信息創(chuàng)作和分發(fā)方式。這些短視頻應用自從問世以后,便迅速地占領了市場,得到了廣大用戶的青睞。目前,短視頻正逐漸成為互聯(lián)網上的一種重要的信息傳播方式,由此產生了大量的短視頻數據。
為了更好地利用短視頻數據,提升短視頻的創(chuàng)作和分發(fā)效果及效率,需要為短視頻打上各種有用的標簽,這些標簽可以作為短視頻所記錄的內容的概括和總結。以此為基礎,推薦系統(tǒng)或搜索引擎就可以利用短視頻標簽為用戶提供精準的短視頻推薦或搜索服務了。
為了推動視頻理解的技術進展,2016年谷歌發(fā)布了目前業(yè)內最大的視頻數據集YouTube-8M,并基于此在2017年和2018年舉辦了兩屆視頻理解挑戰(zhàn)賽,挑戰(zhàn)賽的目標是在谷歌給定的訓練數據以及預先提好的音視頻特征上設計并訓練機器學習模型,以求在測試集上達到最佳的性能。以2018年的挑戰(zhàn)賽為例,谷歌發(fā)布的視頻數據共計600多萬條,包含的標簽共計3800多個,吸引了來自全球40多個國家和地區(qū)的390多支隊伍參賽。這個比賽具有很大的挑戰(zhàn)性,所有標簽的標注都是視頻級別的,也就是我們只知道這個視頻中有給定的標簽,但是,我們并不知道它在視頻中出現(xiàn)的具體時間段。我們針對愛奇藝短視頻打標簽的解決方案便是源于對這兩次競賽自研的神經網絡模型。
技術分析
在預先提好的音視頻特征基礎上設計神經網絡模型進行打標簽的問題,可以歸結為設計一個有效的音頻和視頻特征聚合模塊的問題,這里所謂聚合就是將若干個特征向量組成的矩陣變成一個向量,從而可以輸入任意的分類器進行分類。
我們針對音頻和視頻特征聚合采用了相似的處理流程,并在最后對音頻和視頻的聚合結果進行融合,然后輸入混合專家神經網絡進行分類并輸出標簽。以視頻特征聚合為例,視頻首先通過采樣變成了若干張圖像,然后對每張圖像提取一個固定長度的特征向量。我們分別考察了特征向量的不同分量的重要性以及不同的特征向量的重要性,提出了基于門控和注意力機制的神經網絡聚合模塊,簡稱為門控注意力神經網絡,該模塊的所有參數可以通過反向傳播算法學習得到。
特征向量的不同分量的重要性主要是通過將一個視頻的所有特征向量進行時序平均池化生成一個池化向量,并將其輸入一個兩層的神經網絡,第一層的神經元數目小于池化向量的元素數目,這構成了一個瓶頸結構,這個兩層的神經網絡的輸出經過Sigmoid函數激活后逐點地乘以視頻的每個特征向量的不同分量,這個結構被稱為瓶頸門控,通過學習可以自動地得到特征向量每個分量的重要性。
不同的特征向量的重要性是通過注意力機制實現(xiàn)的,通過引入若干個可學習的注意力向量,對于每個注意力向量我們可以得到每個特征向量的權重,然后將特征向量進行加權平均得到一個池化向量,最后將這些池化向量拼接起來就可以得到視頻的所有特征向量的聚合結果。
案例下面我們給出在姜餅短視頻上采用我們研發(fā)的模型打標簽的結果,如下面的圖片所示。這里的每一張圖片來自一段15秒的短視頻的截圖,我們把打出的標簽以及置信度疊加到了圖片上。我們的打標簽模型可以打出實體類標簽,比如,寵物和美食;可以打出人物類標簽,比如,萌娃;可以打出動作類標簽,比如,舞蹈;可以打出時尚類標簽,比如,美妝;還可以打出技術流特效這種標簽。這里僅舉了幾個例子,實際上我們的模型可以涵蓋姜餅短視頻的幾十種類型標簽。

效果說明我們研發(fā)的單個神經網絡模型在2017年YouTube-8M挑戰(zhàn)賽的測試集上領先于最佳單模型NetVLAD達到0.9個百分點GAP(Global Average Precision)。2018年的YouTube-8M挑戰(zhàn)賽增加了模型大小的限制,要求提交的模型解壓縮后小于1GB,并且可以被TensorFlow的API直接讀取。我們擴展了針對2017年挑戰(zhàn)賽設計的模型,提出了一種多分支特征聚合方法,該方法在2018年的YouTube-8M挑戰(zhàn)賽的測試集上領先于兩個并列的最佳單模型NeXtVLAD和谷歌最新版本的DBoF達到0.3個百分點GAP,并且是唯一一個GAP超過88%的單模型。
針對上面介紹的模型,我們進一步加入了文本特征,文本特征來自于標題經過神經網絡處理后的固定長度的向量。通過融合音視頻和文本特征我們的打標簽模型的性能可以得到進一步的提升。目前短視頻打標簽模型已經在公司內部的姜餅短視頻、信息流等業(yè)務中落地,覆蓋上萬種高質量內容標簽和幾十種類型標簽,每天持續(xù)而穩(wěn)定地提供短視頻打標簽服務。
總結/延伸我們針對弱標注下的短視頻打標簽這個問題進行了深入研發(fā),得到了幾種神經網絡模型,取得了業(yè)內性能領先的短視頻打標簽單模型,申請了若干項中國發(fā)明專利,并成功地在公司的幾個業(yè)務中落地。但是現(xiàn)在的技術只輸出了視頻級別的標簽,對于更長的視頻可能會有需求希望能夠定位到標簽出現(xiàn)的具體時間段,未來可以擴展相關技術不僅實現(xiàn)打標簽,還要實現(xiàn)標簽的時間段定位。
未來規(guī)劃
短視頻應用方興未艾,可以預見的是未來將會有大量的短視頻數據被創(chuàng)造出來并發(fā)布到互聯(lián)網上,將短視頻打上標簽是活用短視頻數據的主要途徑之一。我們針對短視頻打標簽這個問題進行了深入的研發(fā),并取得了一些結果,但是,仍然有很多問題亟待解決。
第一,我們目前的模型只覆蓋了上萬種高頻的標簽詞,但是,這些標簽詞只能代表短視頻內容的一部分,未來還需要對標簽詞的數量進行擴展,以覆蓋盡可能多的視頻內容;
第二,我們研發(fā)的模型受限于底層提取音視頻和文本特征的神經網絡的性能,未來還需要研發(fā)性能更好的提取音視頻和文本特征的神經網絡模型;
第三,我們無法期望僅用一個模型解決所有的短視頻打標簽問題,未來我們會針對現(xiàn)有模型無法很好處理的標簽類型研發(fā)更好的短視頻打標簽模型。
發(fā)表評論 取消回復