鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置與流程

文檔序號(hào)：42169785發(fā)布日期：2025-06-13 16:26閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本說明書一個(gè)或多個(gè)實(shí)施例涉及計(jì)算機(jī)，尤其涉及一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置。

背景技術(shù)：

1、生成式人工智能(aigc)是一種人工智能技術(shù)，它能夠自主地從數(shù)據(jù)中學(xué)習(xí)和生成新的內(nèi)容包括圖像、聲音、文字等。以合成語音為例，可以將文本轉(zhuǎn)換為可聽的語音音頻。在合成語音的過程中，計(jì)算機(jī)會(huì)根據(jù)輸入的文本內(nèi)容，通過語音合成引擎將文本轉(zhuǎn)換為自然語音。偽造音頻信息可能帶來的潛在風(fēng)險(xiǎn)例如有：虛假信息傳播、隱私泄露、破壞社交信任等。因此語音合成或者轉(zhuǎn)換技術(shù)在aigc時(shí)代存在安全隱患。采取相應(yīng)的措施來規(guī)避這些風(fēng)險(xiǎn)，防止這種技術(shù)的濫用，有利于保護(hù)個(gè)人隱私和社會(huì)安全。

技術(shù)實(shí)現(xiàn)思路

1、本說明書一個(gè)或多個(gè)實(shí)施例描述了一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置，用以解決背景技術(shù)提到的一個(gè)或多個(gè)問題。

2、根據(jù)第一方面，提供一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒?，所述方法包括：針?duì)待識(shí)別的第一音頻信息進(jìn)行編碼，得到第一編碼向量；檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度，單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別隱空間內(nèi)的單個(gè)隱藏類別，單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別；利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

3、在一個(gè)實(shí)施例中，所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼，得到第一編碼向量包括：從所述第一音頻信息中提取聲音特征，所述聲音特征包括以下中的至少一項(xiàng)：響度、音調(diào)、頻率、音色、樂音、持續(xù)時(shí)間、諧波結(jié)構(gòu)；對(duì)所述聲音特征進(jìn)行編碼或嵌入，得到所述第一編碼向量。

4、在一個(gè)進(jìn)一步的實(shí)施例中，所述對(duì)所述聲音特征進(jìn)行編碼或嵌入，得到所述第一編碼向量包括：在對(duì)所述聲音特征進(jìn)行編碼或嵌入之前或之后，還對(duì)各個(gè)特征維度上的數(shù)據(jù)分別進(jìn)行歸一化操作，所述歸一化操作為以下操作中的一項(xiàng)：重新縮放、均值歸一化、標(biāo)準(zhǔn)化、單位長度歸一化。

5、在一個(gè)實(shí)施例中，各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整：在單個(gè)參數(shù)調(diào)整周期：處理當(dāng)前批次的樣本音頻信息，得到預(yù)測(cè)的分類類別；將預(yù)測(cè)的分類類別與相應(yīng)分類標(biāo)簽相比較，從而得到當(dāng)前的模型損失；根據(jù)模型損失更新各個(gè)待定參數(shù)，以調(diào)整各個(gè)原型向量；其中，待定參數(shù)包括以下中的一項(xiàng)：原型向量中各個(gè)維度的數(shù)值；對(duì)各個(gè)隱藏類別的獨(dú)熱表示進(jìn)行嵌入得到原型向量的嵌入網(wǎng)絡(luò)中的模型參數(shù)。

6、在一個(gè)實(shí)施例中，所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ簷z測(cè)最大相似度對(duì)應(yīng)的原型向量所屬的第一分類類別，所述第一分類類別為真實(shí)聲音分類類別或偽造聲音分類類別；根據(jù)所述第一分類類別確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

7、在一個(gè)實(shí)施例中，所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ豪酶鱾€(gè)相似度，確定真實(shí)聲音和偽造聲音兩個(gè)分類類別分別對(duì)應(yīng)的第一融合相似度和第二融合相似度，其中，所述第一融合相似度或第二融合相似度通過對(duì)對(duì)應(yīng)于相應(yīng)分類類別各個(gè)原型向量的各個(gè)相似度進(jìn)行融合操作得到；根據(jù)所述第一融合相似度和所述第二融合相似度中的較大值，確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

8、在一個(gè)進(jìn)一步的實(shí)施例中，在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量一致的情況下，所述融合操作包括：加權(quán)求和、加和、求均值、取最大值中的至少一項(xiàng)；在真實(shí)聲音分類類別和偽造聲音分類類別對(duì)應(yīng)的原型向量數(shù)量不一致的情況下，所述融合操作包括：加權(quán)求和、求均值、取最大值中的至少一項(xiàng)，其中，加權(quán)求和操作中的權(quán)值與相應(yīng)分類類別對(duì)應(yīng)的原型向量數(shù)量負(fù)相關(guān)。

9、根據(jù)第二方面，提供一種鑒別音頻信息中的聲音真?zhèn)蔚难b置，所述裝置包括：

10、編碼單元，配置為針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼，得到第一編碼向量；

11、檢測(cè)單元，配置為檢測(cè)所述第一編碼向量與各個(gè)原型向量分別對(duì)應(yīng)的各個(gè)相似度，單個(gè)原型向量用于描述真實(shí)聲音或偽造聲音兩個(gè)分類類別對(duì)應(yīng)的隱空間內(nèi)的單個(gè)隱藏類別，單個(gè)分類類別對(duì)應(yīng)至少一個(gè)隱藏類別；

12、識(shí)別單元，配置為利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)巍?/p>

13、根據(jù)第三方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí)，令計(jì)算機(jī)執(zhí)行第一方面的方法。

14、根據(jù)第四方面，提供了一種計(jì)算設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述處理器執(zhí)行所述可執(zhí)行代碼時(shí)，實(shí)現(xiàn)第一方面的方法。

15、通過本說明書實(shí)施例提供的裝置和方法，在鑒別音頻信息中的聲音為真實(shí)聲音或偽造聲音(如合成聲音等)過程中，可以對(duì)分類類別進(jìn)行細(xì)化，具體而言，將真實(shí)聲音或偽造聲音分類類別各自細(xì)化為隱空間內(nèi)的隱藏類別，單個(gè)隱藏類別通過單個(gè)原型向量表征。在針對(duì)待識(shí)別的音頻信息進(jìn)行編碼，得到相應(yīng)的編碼向量之后，可以將編碼向量與各個(gè)原型向量分別比較得到相應(yīng)的各個(gè)相似度，然后，根據(jù)各個(gè)相似度確定待識(shí)別的音頻信息的聲音真?zhèn)?，即屬于真?shí)聲音分類類別或偽造聲音分類類別。如此，可以隱式地為單個(gè)分類類別確定一個(gè)或多個(gè)數(shù)據(jù)中心，提高音頻信息中聲音真假識(shí)別的準(zhǔn)確度。

技術(shù)特征：

1.一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒ǎ龇椒òǎ?/p>

2.如權(quán)利要求1所述的方法，其中，所述針對(duì)待識(shí)別的第一音頻信息進(jìn)行編碼，得到第一編碼向量包括：

3.如權(quán)利要求2所述的方法，其中，所述對(duì)所述聲音特征進(jìn)行編碼或嵌入，得到所述第一編碼向量包括：

4.如權(quán)利要求1所述的方法，其中，各個(gè)原型向量在訓(xùn)練階段通過以下方式進(jìn)行調(diào)整：

5.如權(quán)利要求1所述的方法，其中，所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>

6.如權(quán)利要求1所述的方法，其中，所述利用各個(gè)相似度確定所述第一音頻信息中的聲音真?zhèn)伟ǎ?/p>

7.如權(quán)利要求6所述的方法，其中，

8.一種鑒別音頻信息中的聲音真?zhèn)蔚难b置，所述裝置包括：

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí)，令計(jì)算機(jī)執(zhí)行權(quán)利要求1-7中任一項(xiàng)的所述的方法。

10.一種計(jì)算設(shè)備，包括存儲(chǔ)器和處理器，其特征在于，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述處理器執(zhí)行所述可執(zhí)行代碼時(shí)，實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本說明書實(shí)施例提供一種鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置，在鑒別音頻信息中的聲音為真實(shí)聲音或偽造聲音(如合成聲音等)的情況下，可以對(duì)分類類別進(jìn)行細(xì)化，具體而言，將真實(shí)聲音或偽造聲音分類類別各自細(xì)化為隱空間內(nèi)的至少一個(gè)隱藏類別，單個(gè)隱藏類別通過單個(gè)原型向量表征。在針對(duì)待識(shí)別的音頻信息進(jìn)行編碼，得到相應(yīng)的編碼向量之后，可以將編碼向量與各個(gè)原型向量分別比較得到相應(yīng)的各個(gè)相似度，然后，根據(jù)各個(gè)相似度確定待識(shí)別的音頻信息的聲音真?zhèn)?，即屬于真?shí)聲音分類類別或偽造聲音分類類別。如此，可以提高音頻信息中聲音真假識(shí)別的準(zhǔn)確度。

技術(shù)研發(fā)人員：顧艷梅,王志銘,?；奂?br/>受保護(hù)的技術(shù)使用者：支付寶（杭州）信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/12

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顧艷梅,王志銘,?；奂?/span>
技術(shù)所有人：支付寶（杭州）信息技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

鑒別音頻信息中的聲音真?zhèn)蔚姆椒把b置與流程