近日,由天翼云彈性網(wǎng)絡產(chǎn)品線撰寫的《Small?Scale?Data-free?Knowledge?Distillation》長文被IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition收錄。
IEEE?CVPR是人工智能與模式識別技術(shù)領域的頂級國際學術(shù)會議,也是中國計算機學會CCF推薦的A類國際會議之一。該會議始于1983年,是業(yè)界公認的全球計算機視覺三大頂級會議之一。此次論文被IEEE?CVPR成功收錄,不僅展現(xiàn)了天翼云在AI領域的創(chuàng)新能力,也意味著中國企業(yè)在國際學術(shù)舞臺上的影響力日益增強。
《Small?Scale?Data-free?Knowledge?Distillation》這篇長文提到,知識蒸餾技術(shù)(Knowledge?Distillation)可以利用預訓練的眾多網(wǎng)絡信息,在相同的訓練數(shù)據(jù)上訓練一個更小的新建特定網(wǎng)絡。傳統(tǒng)的知識蒸餾方法假設原始訓練數(shù)據(jù)總是可以獲得的,但在實際應用中,由于網(wǎng)絡用戶關(guān)注數(shù)據(jù)隱私和安全問題,通常無法獲取網(wǎng)絡的訓練數(shù)據(jù)集。為了放寬對獲取訓練數(shù)據(jù)的限制,零數(shù)據(jù)條件下的知識蒸餾技術(shù)應運而生。
本論文提出了基于小規(guī)模逆向生成數(shù)據(jù)的零數(shù)據(jù)知識蒸餾技術(shù)(Small?Scale?Data-free?Knowledge?Distillation,下文簡寫為SSD-KD),引入了兩個相互依賴的模塊,顯著加快了逆向生成數(shù)據(jù)的質(zhì)量和蒸餾范式的整體訓練效率。SSD-KD的第一個模塊依賴于一個新穎的調(diào)制函數(shù),定義了樣本多樣性分布感知項和樣本難度分布感知項,以顯式方式共同平衡了逆向生成數(shù)據(jù)過程中的數(shù)據(jù)樣本分布。
第二個模塊定義了借鑒強化學習優(yōu)化策略的優(yōu)先級采樣函數(shù)。該函數(shù)選擇適當?shù)哪嫦蛏蓸颖緛砀聞討B(tài)重放緩沖區(qū)中的一部分現(xiàn)有樣本,進一步提高了逆向生成樣本在知識蒸餾中的采樣效率。得益于上述兩個模塊,本論文所提出的方法可極大地滿足客戶對于高性能、高效率的需求。一方面,SSD-KD可以在極小規(guī)模的合成樣本(比原始訓練數(shù)據(jù)規(guī)模少10倍)條件下進行網(wǎng)絡蒸餾訓練,使得整體訓練效率比眾多主流零數(shù)據(jù)知識蒸餾方法快一到兩個數(shù)量級,同時保持有競爭力的模型性能。另一方面,當放寬逆向生成樣本的數(shù)據(jù)規(guī)模到一個相對較大的數(shù)字(盡管仍然小于現(xiàn)有零數(shù)據(jù)知識蒸餾方法的規(guī)模)時,論文中提出的方法在更小的新建特定網(wǎng)絡的準確性上取得了大幅改進,并保持了整體訓練效率。該方法已在不同人工智能應用上進行實驗,驗證了方法的普適性。同時,天翼云將把論文中提出的人工智能模型訓練方法,應用于彈性網(wǎng)絡智能運維的深度學習模型訓練中,讓深度學習模型適配更多的彈性網(wǎng)絡環(huán)境,讓彈性網(wǎng)絡更高效,更智能。
人工智能的蓬勃發(fā)展激蕩新一輪產(chǎn)業(yè)變革,天翼云彈性網(wǎng)絡產(chǎn)品線今后將持續(xù)發(fā)力云網(wǎng)絡領域的架構(gòu)創(chuàng)新及高新技術(shù)預備研發(fā),不斷攻堅提升云網(wǎng)絡的關(guān)鍵性能指標;針對廣泛的人工智能和機器學習業(yè)務應用,基于智能算力架構(gòu)平臺,結(jié)合云網(wǎng)融合、智能運維等技術(shù),賦予網(wǎng)絡在人工智能及大模型領域內(nèi)模型的高可用、低時延和強魯棒等特性。
面向未來,天翼云將通過不斷地科技創(chuàng)新與服務優(yōu)化,推動云計算、人工智能等新興技術(shù)融合發(fā)展,為各行各業(yè)的數(shù)字化轉(zhuǎn)型提供更加智能、高效、安全的云服務體驗,為經(jīng)濟社會的高質(zhì)量發(fā)展注入源源不斷的新動能。