近日,國際人工智能頂會CVPR 2024舉辦的第6屆自然場景情感行為分析挑戰(zhàn)賽(6th Workshop and Competition on Affective Behavior Analysis in-the-wild,簡稱ABAW)公布比賽結(jié)果,天翼云AI團隊(CtyunAI)在情感識別任務(wù)中表現(xiàn)出色,斬獲雙賽道亞軍、單個賽道季軍,并受邀在CVPR ABAW研討會上作論文分享。這是繼天翼云在CVPR中榮獲多次佳績后再一次斬獲殊榮。
CVPR會議是由IEEE主辦的關(guān)于計算機視覺和模式識別的國際學(xué)術(shù)會議,收錄了該領(lǐng)域最新的研究成果和技術(shù)發(fā)展,是全球計算機視覺三大頂級會議之一。
ABAW競賽是由國際頂級計算機視覺研究者和科學(xué)家們共同發(fā)起的競賽,致力于解決自然情境下計算機對人的情感行為進行分析的問題,并以此提升人機交互系統(tǒng)的場景應(yīng)用能力,目標(biāo)是創(chuàng)造出能夠理解人的感覺、情緒和行為的機器和機器人,從而讓機器能夠與人類互動并有效地成為人類的數(shù)字助手。
本屆競賽共吸引了來自世界各地的100多支團隊參加,其中不乏國內(nèi)外知名大學(xué)和研究機構(gòu),如中國科學(xué)院、中國科學(xué)技術(shù)大學(xué)等。參賽隊伍需要對來源于現(xiàn)實場景的594個視頻共300萬幀圖像進行分析,通過視頻中的圖像、人物、聲音來預(yù)測指定人物在連續(xù)時間下的情感。
天翼云AI團隊在本次競賽中嘗試簡化問題,僅使用純視覺特征進行任務(wù)建模。首先,通過使用可擴展的vision表征學(xué)習(xí)的掩碼式自動編碼器(Masked Autoencoder)在大量人臉表情相關(guān)的數(shù)據(jù)集上進行預(yù)訓(xùn)練,以學(xué)習(xí)魯棒的圖像表征;其次,在比賽提供的aff-wild2數(shù)據(jù)集上使用Expr標(biāo)簽進行微調(diào),以更好地適合該數(shù)據(jù)集的分布;最后,利用時域卷積網(wǎng)絡(luò)(Temporal Convolutional Network)和Transformer對數(shù)據(jù)在時間維度上進行建模,從而使模型能夠通過視頻的上下文對結(jié)果進行預(yù)測,大大提升了模型的任務(wù)表現(xiàn)。
當(dāng)前,以大模型為代表的AI技術(shù)的發(fā)展及應(yīng)用已步入爆發(fā)期,并成為驅(qū)動產(chǎn)業(yè)數(shù)字化與智能化的重要引擎。天翼云將繼續(xù)在圖像、音頻及多模態(tài)領(lǐng)域持續(xù)深耕,不斷夯實國云智算底座,推動AI技術(shù)變革升級,為數(shù)字經(jīng)濟發(fā)展注入新的活力。