注冊(cè)帳號(hào)丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁(yè)右上角的“充值”按鈕可以為您的帳號(hào)充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購(gòu)買網(wǎng)站上的任意文章或雜志的電子版
4.購(gòu)買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開(kāi)文本圖片集
摘要:在傳統(tǒng)的知識(shí)蒸餾中,若教師、學(xué)生模型的參數(shù)規(guī)模差距過(guò)大,則會(huì)出現(xiàn)學(xué)生模型無(wú) 法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點(diǎn),提出了一種新型的來(lái)自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語(yǔ)言理解的廣義自回歸預(yù)訓(xùn)練模型(XLNET)等多個(gè)擁有 BERT 結(jié)構(gòu)的教師模型對(duì) 其進(jìn)行蒸餾,同時(shí)修改了對(duì)教師模型中間層知識(shí)表征的蒸餾方案,加入了對(duì) Transformer 層的 蒸餾。(剩余13352字)
登錄龍?jiān)雌诳W(wǎng)
購(gòu)買文章
一種針對(duì) BERT 模型的多教師蒸餾方案
文章價(jià)格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會(huì)員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:longyuandom@163.com