本申請(qǐng)涉及網(wǎng)絡(luò)模型,尤其涉及一種模型優(yōu)化方法、裝置、計(jì)算平臺(tái)及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù):
1、點(diǎn)擊率(click?through?rate,簡(jiǎn)稱ctr)預(yù)測(cè)是通過(guò)估計(jì)用戶點(diǎn)擊候選物品的概率,在推薦、檢索和廣告等服務(wù)的應(yīng)用場(chǎng)景中,點(diǎn)擊率的預(yù)測(cè)操作是一項(xiàng)基礎(chǔ)任務(wù)。預(yù)測(cè)ctr的精確性不僅對(duì)用戶參與度有顯著影響,還對(duì)工業(yè)企業(yè)的效益產(chǎn)生重大影響。
2、其中,點(diǎn)擊率的預(yù)測(cè)操作可以通過(guò)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn),這使得點(diǎn)擊率預(yù)測(cè)的效果與網(wǎng)絡(luò)模型的推理精確度息息相關(guān)。為了能夠提升網(wǎng)絡(luò)模型的推理能力,需要不斷地對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化訓(xùn)練。目前,往往會(huì)通過(guò)構(gòu)建好的損失函數(shù)來(lái)對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化訓(xùn)練操作,由于損失函數(shù)的實(shí)現(xiàn)方式較為單一和固定,進(jìn)而無(wú)法保證對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化操作的質(zhì)量和效果。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)的多個(gè)方面提供一種模型優(yōu)化方法、裝置、計(jì)算平臺(tái)及計(jì)算機(jī)存儲(chǔ)介質(zhì),能夠在一定程度上保證模型優(yōu)化操作的質(zhì)量和效果。
2、第一方面,本發(fā)明實(shí)施例提供了一種模型優(yōu)化方法,包括:
3、獲取用于實(shí)現(xiàn)點(diǎn)擊率的預(yù)測(cè)操作的待優(yōu)化模型,其中,所述待優(yōu)化模型包括至少兩個(gè)不同的子模型,所述子模型用于點(diǎn)擊率預(yù)測(cè),且任意兩個(gè)子模型針對(duì)同一樣本數(shù)據(jù)的擬合能力不同;
4、基于任意兩個(gè)不同的子模型,確定交叉熵?fù)p失函數(shù),其中,所述交叉熵?fù)p失函數(shù)用于指導(dǎo)兩個(gè)不同的子模型中的一子模型的學(xué)習(xí)訓(xùn)練操作;
5、基于所述交叉熵?fù)p失函數(shù)對(duì)所述待優(yōu)化模型進(jìn)行優(yōu)化,獲得優(yōu)化后模型。
6、第二方面,本發(fā)明實(shí)施例提供了一種模型優(yōu)化裝置,包括:
7、第一獲取模塊,用于獲取用于實(shí)現(xiàn)點(diǎn)擊率的預(yù)測(cè)操作的待優(yōu)化模型,其中,所述待優(yōu)化模型包括至少兩個(gè)不同的子模型,所述子模型用于點(diǎn)擊率預(yù)測(cè),且任意兩個(gè)子模型針對(duì)同一樣本數(shù)據(jù)的擬合能力不同;
8、第一確定模塊,用于基于任意兩個(gè)不同的子模型,確定交叉熵?fù)p失函數(shù),其中,所述交叉熵?fù)p失函數(shù)用于指導(dǎo)兩個(gè)不同的子模型中的一子模型的學(xué)習(xí)訓(xùn)練操作;
9、第一處理模塊,用于基于所述交叉熵?fù)p失函數(shù)對(duì)所述待優(yōu)化模型進(jìn)行優(yōu)化,獲得優(yōu)化后模型。
10、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算平臺(tái),包括:存儲(chǔ)器、處理器;其中,所述存儲(chǔ)器用于存儲(chǔ)一條或多條計(jì)算機(jī)指令,其中,所述一條或多條計(jì)算機(jī)指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中所述的模型優(yōu)化方法。
11、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)儲(chǔ)存有計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如第一方面中所述的模型優(yōu)化方法。
12、第五方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被計(jì)算平臺(tái)的處理器執(zhí)行時(shí),使所述處理器執(zhí)行上述第一方面中所述的模型優(yōu)化方法中的步驟。
13、本實(shí)施例提供的模型優(yōu)化方法、裝置、計(jì)算平臺(tái)及計(jì)算機(jī)存儲(chǔ)介質(zhì),通過(guò)獲取用于實(shí)現(xiàn)點(diǎn)擊率預(yù)測(cè)操作的待優(yōu)化模型,其中,待優(yōu)化模型至少包括兩個(gè)不同的能夠單獨(dú)實(shí)現(xiàn)點(diǎn)擊率預(yù)測(cè)操作的子模型,而后基于待優(yōu)化模型中所包括的任意兩個(gè)不同的子模型來(lái)確定交叉熵?fù)p失函數(shù),由于兩個(gè)不同的子模型針對(duì)同一組樣本數(shù)據(jù)的擬合能力不同,這種差異性使得所構(gòu)建的交叉熵?fù)p失函數(shù)能夠指導(dǎo)兩個(gè)不同的子模型中的一子模型進(jìn)行學(xué)習(xí)訓(xùn)練操作,并且,由于交叉熵?fù)p函數(shù)與待優(yōu)化模型中的任意兩個(gè)子模型相對(duì)應(yīng),不同的子模型之間所確定的交叉熵?fù)p失函數(shù)不同,即說(shuō)明交叉熵?fù)p失函數(shù)是基于待優(yōu)化模型所包括的子模型的變化而進(jìn)行靈活變化的,尤其是在待優(yōu)化模型包括多個(gè)子模型的場(chǎng)景中,待優(yōu)化模型所對(duì)應(yīng)的交叉熵?fù)p失函數(shù)的數(shù)量可以為多個(gè),這樣在基于交叉熵?fù)p失函數(shù)來(lái)對(duì)待優(yōu)化模型進(jìn)行優(yōu)化訓(xùn)練,能夠在一定程度上保證模型優(yōu)化訓(xùn)練的質(zhì)量和效果,進(jìn)而保證了所獲得的優(yōu)化后模型進(jìn)行點(diǎn)擊率預(yù)測(cè)操作的精確度,并在一定程度上提高了該方法的實(shí)用性。
1.一種模型優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述至少兩個(gè)不同的子模型至少包括第一子模型和第二子模型;基于任意兩個(gè)不同的子模型,確定交叉熵?fù)p失函數(shù),包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定所述第一子模型的第一類型和所述第二子模型的第二類型,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,分別基于所述第一損失函數(shù)值和所述第二損失函數(shù)值,確定所述第一類型和所述第二類型,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于所述第一類型、第二類型、第一子模型和所述第二子模型,確定所述交叉熵?fù)p失函數(shù),包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于所述第一類型、第二類型、第一預(yù)測(cè)概率值和所述第二預(yù)測(cè)概率值,確定所述交叉熵?fù)p失函數(shù),包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,基于所述樣本數(shù)量、停止梯度參數(shù)、第一類型、第二類型、第一預(yù)測(cè)概率值和所述第二預(yù)測(cè)概率值,確定所述交叉熵?fù)p失函數(shù),包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述交叉熵?fù)p失函數(shù)與所述分支損失函數(shù)呈負(fù)相關(guān),所述交叉熵?fù)p失函數(shù)與所述樣本數(shù)量呈正相關(guān)。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待優(yōu)化模型還包括與至少兩個(gè)不同的子模型相對(duì)應(yīng)的融合子模型,所述融合子模型用于通過(guò)融合特征進(jìn)行點(diǎn)擊率的預(yù)測(cè)操作,其中,所述融合特征通過(guò)對(duì)各個(gè)子模型所輸出的隱空間特征進(jìn)行融合操作所獲得;
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,其中,所述第一隱空間特征與所述第二隱空間特征之間滿足正交變換;基于所述第一隱空間特征和所述第二隱空間特征,確定與任意兩個(gè)子模型相對(duì)應(yīng)的差異性損失函數(shù),包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述差異性損失函數(shù)與所述數(shù)量呈負(fù)相關(guān),所述差異性損失函數(shù)與所述正交變換矩陣呈正相關(guān)。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,基于所述差異性損失函數(shù)和所述交叉熵?fù)p失函數(shù)對(duì)所述待優(yōu)化模型進(jìn)行優(yōu)化,獲得優(yōu)化后模型,包括:
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,基于所述差異性損失函數(shù)、所述交叉熵?fù)p失函數(shù)、分支損失函數(shù)以及所述融合分支損失函數(shù),確定目標(biāo)損失函數(shù),包括:
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,基于所述預(yù)估損失函數(shù)、所述差異性損失函數(shù)以及所述交叉熵?fù)p失函數(shù),確定所述目標(biāo)損失函數(shù),包括:
15.根據(jù)權(quán)利要求9-14中任意一項(xiàng)所述的方法,其特征在于,在獲得優(yōu)化后模型之后,所述方法還包括:
16.一種模型優(yōu)化裝置,其特征在于,包括:
17.一種計(jì)算平臺(tái),其特征在于,包括:存儲(chǔ)器、處理器;其中,所述存儲(chǔ)器用于存儲(chǔ)一條或多條計(jì)算機(jī)指令,其中,所述一條或多條計(jì)算機(jī)指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)上述權(quán)利要求1-15中任意一項(xiàng)的方法。
18.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)儲(chǔ)存有計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述權(quán)利要求1-15中任意一項(xiàng)的方法。
19.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括:計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被計(jì)算平臺(tái)的處理器執(zhí)行時(shí),使所述處理器執(zhí)行上述權(quán)利要求1-15中任意一項(xiàng)的方法中的步驟。