本說明書一個(gè)或多個(gè)實(shí)施例涉及計(jì)算機(jī),尤其涉及一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置。
背景技術(shù):
1、生成式人工智能(aigc)是一種人工智能技術(shù),它能夠自主地從數(shù)據(jù)中學(xué)習(xí)和生成新的內(nèi)容包括圖像、聲音、文字等。以合成語音為例,可以將文本轉(zhuǎn)換為可聽的語音音頻。在合成語音的過程中,計(jì)算機(jī)會(huì)根據(jù)輸入的文本內(nèi)容,通過語音合成引擎將文本轉(zhuǎn)換為自然語音。偽造音頻信息可能帶來的潛在風(fēng)險(xiǎn)例如有:虛假信息傳播、隱私泄露、破壞社交信任等。因此語音合成或者轉(zhuǎn)換技術(shù)在aigc時(shí)代存在安全隱患。采取相應(yīng)的措施來規(guī)避這些風(fēng)險(xiǎn),防止這種技術(shù)的濫用,有利于保護(hù)個(gè)人隱私和社會(huì)安全。
技術(shù)實(shí)現(xiàn)思路
1、本說明書一個(gè)或多個(gè)實(shí)施例描述了一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置,用以解決背景技術(shù)提到的一個(gè)或多個(gè)問題。
2、根據(jù)第一方面,提供一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒?,所述方法包括:針?duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量;檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度,單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別隱空間內(nèi)的單個(gè)隱藏類別,單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別;利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>
3、在一個(gè)實(shí)施例中,所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量包括:從所述第一音頻信息中提取聲音特征,所述聲音特征包括以下中的至少一項(xiàng):響度、音調(diào)、頻率、音色、樂音、持續(xù)時(shí)間、諧波結(jié)構(gòu);對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量。
4、在一個(gè)進(jìn)一步的實(shí)施例中,所述對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量包括:在對(duì)所述聲音特征進(jìn)行編碼或嵌入之前或之后,還對(duì)各個(gè)特征維度上的數(shù)據(jù)分別進(jìn)行歸一化操作,所述歸一化操作為以下操作中的一項(xiàng):重新縮放、均值歸一化、標(biāo)準(zhǔn)化、單位長度歸一化。
5、在一個(gè)實(shí)施例中,各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整:在單個(gè)參數(shù)調(diào)整周期:處理當(dāng)前批次的樣本音頻信息,得到預(yù)測(cè)的分類類別;將預(yù)測(cè)的分類類別與相應(yīng)分類標(biāo)簽相比較,從而得到當(dāng)前的模型損失;根據(jù)模型損失更新各個(gè)待定參數(shù),以調(diào)整各個(gè)原型向量;其中,待定參數(shù)包括以下中的一項(xiàng):原型向量中各個(gè)維度的數(shù)值;對(duì)各個(gè)隱藏類別的獨(dú)熱表示進(jìn)行嵌入得到原型向量的嵌入網(wǎng)絡(luò)中的模型參數(shù)。
6、在一個(gè)實(shí)施例中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ簷z測(cè)最大相似度對(duì)應(yīng)的原型向量所屬的第一分類類別,所述第一分類類別為真實(shí)聲音分類類別或偽造聲音分類類別;根據(jù)所述第一分類類別確定所述第一音頻信息中的聲音真?zhèn)巍?/p>
7、在一個(gè)實(shí)施例中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ豪酶鱾€(gè)相似度,確定真實(shí)聲音和偽造聲音兩個(gè)分類類別分別對(duì)應(yīng)的第一融合相似度和第二融合相似度,其中,所述第一融合相似度或第二融合相似度通過對(duì)對(duì)應(yīng)于相應(yīng)分類類別各個(gè)原型向量的各個(gè)相似度進(jìn)行融合操作得到;根據(jù)所述第一融合相似度和所述第二融合相似度中的較大值,確定所述第一音頻信息中的聲音真?zhèn)巍?/p>
8、在一個(gè)進(jìn)一步的實(shí)施例中,在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量一致的情況下,所述融合操作包括:加權(quán)求和、加和、求均值、取最大值中的至少一項(xiàng);在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量不一致的情況下,所述融合操作包括:加權(quán)求和、求均值、取最大值中的至少一項(xiàng),其中,加權(quán)求和操作中的權(quán)值與相應(yīng)分類類別對(duì)應(yīng)的原型向量數(shù)量負(fù)相關(guān)。
9、根據(jù)第二方面,提供一種鑒別音頻信息中的聲音真?zhèn)蔚难b置,所述裝置包括:
10、編碼單元,配置為針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量;
11、檢測(cè)單元,配置為檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度,單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別對(duì)應(yīng)的隱空間內(nèi)的單個(gè)隱藏類別,單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別;
12、識(shí)別單元,配置為利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>
13、根據(jù)第三方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行第一方面的方法。
14、根據(jù)第四方面,提供了一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)第一方面的方法。
15、通過本說明書實(shí)施例提供的裝置和方法,在鑒別音頻信息中的聲音為真實(shí)聲音或偽造聲音(如合成聲音等)過程中,可以對(duì)分類類別進(jìn)行細(xì)化,具體而言,將真實(shí)聲音或偽造聲音分類類別各自細(xì)化為隱空間內(nèi)的隱藏類別,單個(gè)隱藏類別通過單個(gè)原型向量表征。在針對(duì)待識(shí)別的音頻信息進(jìn)行編碼,得到相應(yīng)的編碼向量之后,可以將編碼向量與各個(gè)原型向量分別比較得到相應(yīng)的各個(gè)相似度,然后,根據(jù)各個(gè)相似度確定待識(shí)別的音頻信息的聲音真?zhèn)?,即屬于真?shí)聲音分類類別或偽造聲音分類類別。如此,可以隱式地為單個(gè)分類類別確定一個(gè)或多個(gè)數(shù)據(jù)中心,提高音頻信息中聲音真假識(shí)別的準(zhǔn)確度。
1.一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒ǎ龇椒òǎ?/p>
2.如權(quán)利要求1所述的方法,其中,所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量包括:
3.如權(quán)利要求2所述的方法,其中,所述對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量包括:
4.如權(quán)利要求1所述的方法,其中,各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整:
5.如權(quán)利要求1所述的方法,其中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>
6.如權(quán)利要求1所述的方法,其中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>
7.如權(quán)利要求6所述的方法,其中,
8.一種鑒別音頻信息中的聲音真?zhèn)蔚难b置,所述裝置包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行權(quán)利要求1-7中任一項(xiàng)的所述的方法。
10.一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。