日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置與流程

文檔序號(hào):42169785發(fā)布日期:2025-06-13 16:26閱讀:9來源:國知局

本說明書一個(gè)或多個(gè)實(shí)施例涉及計(jì)算機(jī),尤其涉及一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置。


背景技術(shù):

1、生成式人工智能(aigc)是一種人工智能技術(shù),它能夠自主地從數(shù)據(jù)中學(xué)習(xí)和生成新的內(nèi)容包括圖像、聲音、文字等。以合成語音為例,可以將文本轉(zhuǎn)換為可聽的語音音頻。在合成語音的過程中,計(jì)算機(jī)會(huì)根據(jù)輸入的文本內(nèi)容,通過語音合成引擎將文本轉(zhuǎn)換為自然語音。偽造音頻信息可能帶來的潛在風(fēng)險(xiǎn)例如有:虛假信息傳播、隱私泄露、破壞社交信任等。因此語音合成或者轉(zhuǎn)換技術(shù)在aigc時(shí)代存在安全隱患。采取相應(yīng)的措施來規(guī)避這些風(fēng)險(xiǎn),防止這種技術(shù)的濫用,有利于保護(hù)個(gè)人隱私和社會(huì)安全。


技術(shù)實(shí)現(xiàn)思路

1、本說明書一個(gè)或多個(gè)實(shí)施例描述了一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置,用以解決背景技術(shù)提到的一個(gè)或多個(gè)問題。

2、根據(jù)第一方面,提供一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒?,所述方法包括:針?duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量;檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度,單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別隱空間內(nèi)的單個(gè)隱藏類別,單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別;利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

3、在一個(gè)實(shí)施例中,所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量包括:從所述第一音頻信息中提取聲音特征,所述聲音特征包括以下中的至少一項(xiàng):響度、音調(diào)、頻率、音色、樂音、持續(xù)時(shí)間、諧波結(jié)構(gòu);對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量。

4、在一個(gè)進(jìn)一步的實(shí)施例中,所述對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量包括:在對(duì)所述聲音特征進(jìn)行編碼或嵌入之前或之后,還對(duì)各個(gè)特征維度上的數(shù)據(jù)分別進(jìn)行歸一化操作,所述歸一化操作為以下操作中的一項(xiàng):重新縮放、均值歸一化、標(biāo)準(zhǔn)化、單位長度歸一化。

5、在一個(gè)實(shí)施例中,各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整:在單個(gè)參數(shù)調(diào)整周期:處理當(dāng)前批次的樣本音頻信息,得到預(yù)測(cè)的分類類別;將預(yù)測(cè)的分類類別與相應(yīng)分類標(biāo)簽相比較,從而得到當(dāng)前的模型損失;根據(jù)模型損失更新各個(gè)待定參數(shù),以調(diào)整各個(gè)原型向量;其中,待定參數(shù)包括以下中的一項(xiàng):原型向量中各個(gè)維度的數(shù)值;對(duì)各個(gè)隱藏類別的獨(dú)熱表示進(jìn)行嵌入得到原型向量的嵌入網(wǎng)絡(luò)中的模型參數(shù)。

6、在一個(gè)實(shí)施例中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ簷z測(cè)最大相似度對(duì)應(yīng)的原型向量所屬的第一分類類別,所述第一分類類別為真實(shí)聲音分類類別或偽造聲音分類類別;根據(jù)所述第一分類類別確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

7、在一個(gè)實(shí)施例中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ豪酶鱾€(gè)相似度,確定真實(shí)聲音和偽造聲音兩個(gè)分類類別分別對(duì)應(yīng)的第一融合相似度和第二融合相似度,其中,所述第一融合相似度或第二融合相似度通過對(duì)對(duì)應(yīng)于相應(yīng)分類類別各個(gè)原型向量的各個(gè)相似度進(jìn)行融合操作得到;根據(jù)所述第一融合相似度和所述第二融合相似度中的較大值,確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

8、在一個(gè)進(jìn)一步的實(shí)施例中,在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量一致的情況下,所述融合操作包括:加權(quán)求和、加和、求均值、取最大值中的至少一項(xiàng);在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量不一致的情況下,所述融合操作包括:加權(quán)求和、求均值、取最大值中的至少一項(xiàng),其中,加權(quán)求和操作中的權(quán)值與相應(yīng)分類類別對(duì)應(yīng)的原型向量數(shù)量負(fù)相關(guān)。

9、根據(jù)第二方面,提供一種鑒別音頻信息中的聲音真?zhèn)蔚难b置,所述裝置包括:

10、編碼單元,配置為針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量;

11、檢測(cè)單元,配置為檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度,單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別對(duì)應(yīng)的隱空間內(nèi)的單個(gè)隱藏類別,單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別;

12、識(shí)別單元,配置為利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

13、根據(jù)第三方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行第一方面的方法。

14、根據(jù)第四方面,提供了一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)第一方面的方法。

15、通過本說明書實(shí)施例提供的裝置和方法,在鑒別音頻信息中的聲音為真實(shí)聲音或偽造聲音(如合成聲音等)過程中,可以對(duì)分類類別進(jìn)行細(xì)化,具體而言,將真實(shí)聲音或偽造聲音分類類別各自細(xì)化為隱空間內(nèi)的隱藏類別,單個(gè)隱藏類別通過單個(gè)原型向量表征。在針對(duì)待識(shí)別的音頻信息進(jìn)行編碼,得到相應(yīng)的編碼向量之后,可以將編碼向量與各個(gè)原型向量分別比較得到相應(yīng)的各個(gè)相似度,然后,根據(jù)各個(gè)相似度確定待識(shí)別的音頻信息的聲音真?zhèn)?,即屬于真?shí)聲音分類類別或偽造聲音分類類別。如此,可以隱式地為單個(gè)分類類別確定一個(gè)或多個(gè)數(shù)據(jù)中心,提高音頻信息中聲音真假識(shí)別的準(zhǔn)確度。



技術(shù)特征:

1.一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒ǎ龇椒òǎ?/p>

2.如權(quán)利要求1所述的方法,其中,所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼,得到第一編碼向量包括:

3.如權(quán)利要求2所述的方法,其中,所述對(duì)所述聲音特征進(jìn)行編碼或嵌入,得到所述第一編碼向量包括:

4.如權(quán)利要求1所述的方法,其中,各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整:

5.如權(quán)利要求1所述的方法,其中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>

6.如權(quán)利要求1所述的方法,其中,所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>

7.如權(quán)利要求6所述的方法,其中,

8.一種鑒別音頻信息中的聲音真?zhèn)蔚难b置,所述裝置包括:

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行權(quán)利要求1-7中任一項(xiàng)的所述的方法。

10.一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本說明書實(shí)施例提供一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置,在鑒別音頻信息中的聲音為真實(shí)聲音或偽造聲音(如合成聲音等)的情況下,可以對(duì)分類類別進(jìn)行細(xì)化,具體而言,將真實(shí)聲音或偽造聲音分類類別各自細(xì)化為隱空間內(nèi)的至少一個(gè)隱藏類別,單個(gè)隱藏類別通過單個(gè)原型向量表征。在針對(duì)待識(shí)別的音頻信息進(jìn)行編碼,得到相應(yīng)的編碼向量之后,可以將編碼向量與各個(gè)原型向量分別比較得到相應(yīng)的各個(gè)相似度,然后,根據(jù)各個(gè)相似度確定待識(shí)別的音頻信息的聲音真?zhèn)?,即屬于真?shí)聲音分類類別或偽造聲音分類類別。如此,可以提高音頻信息中聲音真假識(shí)別的準(zhǔn)確度。

技術(shù)研發(fā)人員:顧艷梅,王志銘,?;奂?br/>受保護(hù)的技術(shù)使用者:支付寶(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/12
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1