日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配方法及系統(tǒng)與流程

文檔序號(hào):42165254發(fā)布日期:2025-06-13 16:17閱讀:6來源:國知局

本發(fā)明涉及邊緣計(jì)算,特別指一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配方法及系統(tǒng)。


背景技術(shù):

1、隨著邊緣計(jì)算設(shè)備(如路由器、網(wǎng)關(guān)、攝像頭)的興起帶來許多創(chuàng)新的應(yīng)用場(chǎng)景,其中語音匹配是一個(gè)重要的應(yīng)用場(chǎng)景,通過語音匹配可實(shí)現(xiàn)語音命令識(shí)別、語音搜索等功能。

2、針對(duì)語音匹配,傳統(tǒng)上需要獲取用戶輸入的語音數(shù)據(jù),并與云服務(wù)器上的已知語音數(shù)據(jù)進(jìn)行比對(duì),但傳統(tǒng)方法通常需要大量的計(jì)算資源和網(wǎng)絡(luò)帶寬,這在邊緣計(jì)算設(shè)備上往往會(huì)受到限制,進(jìn)而影響語音匹配的及時(shí)性和準(zhǔn)確性;而為了保障語音匹配的及時(shí)性,進(jìn)而保障用戶體驗(yàn),產(chǎn)生了在邊緣計(jì)算設(shè)備上進(jìn)行語音匹配的需求。

3、然而,在邊緣計(jì)算設(shè)備上進(jìn)行語音匹配面臨如下技術(shù)瓶頸:1、算力和精度失衡矛盾:傳統(tǒng)語音匹配算法(如hmm-gmm)在低算力的邊緣計(jì)算設(shè)備上難以滿足實(shí)時(shí)性要求,而基于深度學(xué)習(xí)的匹配方法(如端到端asr模型)往往需要超過500mb的內(nèi)存占用,難以部署在資源受限的邊緣計(jì)算設(shè)備。2、噪聲魯棒性缺陷:語音前端處理多采用固定閾值的譜減法,在突發(fā)性噪聲場(chǎng)景(如家用攝像頭安裝于廚房時(shí)遭遇的油煙機(jī)噪聲)下,信噪比惡化嚴(yán)重,將導(dǎo)致聲學(xué)特征失準(zhǔn)。3、動(dòng)態(tài)匹配效率低下:傳統(tǒng)dtw算法的時(shí)間復(fù)雜度高,當(dāng)處理長度超過5秒的語音序列時(shí)(如智能網(wǎng)關(guān)的連續(xù)對(duì)話場(chǎng)景),單次匹配耗時(shí)超過800ms。

4、因此,如何提供一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配方法及系統(tǒng),實(shí)現(xiàn)降低語音匹配的資源需求,并提升語音匹配的準(zhǔn)確性和及時(shí)性,以提升用戶體驗(yàn),成為一個(gè)亟待解決的技術(shù)問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題,在于提供一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配方法及系統(tǒng),實(shí)現(xiàn)降低語音匹配的資源需求,并提升語音匹配的準(zhǔn)確性和及時(shí)性,以提升用戶體驗(yàn)。

2、第一方面,本發(fā)明提供一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配方法,包括如下步驟:

3、步驟s1、基于語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建一語音匹配模型,設(shè)定所述語音匹配模型的損失函數(shù);

4、步驟s2、獲取大量的歷史語音數(shù)據(jù),對(duì)各所述歷史語音數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)注后構(gòu)建數(shù)據(jù)集;

5、步驟s3、基于所述數(shù)據(jù)集以及損失函數(shù)對(duì)語音匹配模型進(jìn)行訓(xùn)練,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)所述語音匹配模型進(jìn)行壓縮;

6、步驟s4、將訓(xùn)練后的所述語音匹配模型部署于設(shè)備類型為路由器、網(wǎng)關(guān)或者攝像頭的邊緣計(jì)算設(shè)備上,邊緣計(jì)算設(shè)備對(duì)部署的所述語音匹配模型進(jìn)行微調(diào);

7、步驟s5、邊緣計(jì)算設(shè)備獲取實(shí)時(shí)語音數(shù)據(jù),對(duì)所述實(shí)時(shí)語音數(shù)據(jù)進(jìn)行預(yù)處理后輸入微調(diào)后的語音匹配模型,得到語音匹配結(jié)果,以完成語音匹配;

8、步驟s6、邊緣計(jì)算設(shè)備基于所述語音匹配結(jié)果以及實(shí)時(shí)語音數(shù)據(jù)對(duì)語音匹配模型進(jìn)行不斷優(yōu)化。

9、進(jìn)一步的,所述步驟s1具體為:

10、基于語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建一語音匹配模型,設(shè)定所述語音匹配模型的損失函數(shù);所述語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊依次連接;所述損失函數(shù)基于對(duì)比損失函數(shù)以及二元交叉熵?fù)p失函數(shù)構(gòu)建;

11、所述語音數(shù)據(jù)輸入模塊用于通過譜減法對(duì)輸入的語音數(shù)據(jù)進(jìn)行一階段降噪,再通過三層的一維卷積網(wǎng)絡(luò)進(jìn)行二階段降噪,得到降噪數(shù)據(jù);所述語音數(shù)據(jù)轉(zhuǎn)換模塊用于通過12個(gè)低頻梅爾濾波器和16個(gè)中高頻梅爾濾波器將降噪數(shù)據(jù)轉(zhuǎn)換為特征表示;所述低頻梅爾濾波器和中高頻梅爾濾波器的幀長為25ms,幀移為10ms;所述聲學(xué)特征提取模塊用于從特征表示中提取聲學(xué)特征,基于時(shí)域特征提取單元和頻域特征提取單元構(gòu)建;所述時(shí)域特征提取單元基于cnn網(wǎng)絡(luò)構(gòu)建,所述頻域特征提取單元基于bilstm網(wǎng)絡(luò)構(gòu)建;所述相似度計(jì)算模塊用于按按音素邊界將語音數(shù)據(jù)分段為若干段語音子數(shù)據(jù),依據(jù)斜率約束條件改進(jìn)的dtw算法計(jì)算所述語音子數(shù)據(jù)對(duì)應(yīng)的聲學(xué)特征的相似度;所述輸出模塊用于依據(jù)相似度輸出語音匹配結(jié)果。

12、進(jìn)一步的,所述步驟s2具體為:

13、獲取大量的歷史語音數(shù)據(jù),對(duì)各所述歷史語音數(shù)據(jù)進(jìn)行至少包括格式轉(zhuǎn)換、降噪、采樣率統(tǒng)一、去除靜音段的預(yù)處理,對(duì)預(yù)處理后的各所述歷史語音數(shù)據(jù)進(jìn)行相似語音數(shù)據(jù)的標(biāo)注后構(gòu)建數(shù)據(jù)集。

14、進(jìn)一步的,所述步驟s3具體為:

15、基于預(yù)設(shè)分割比例將所述數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,通過所述訓(xùn)練集對(duì)語音匹配模型進(jìn)行訓(xùn)練,直至所述損失函數(shù)的損失值小于預(yù)設(shè)的損失閾值,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)所述語音匹配模型進(jìn)行壓縮;通過所述驗(yàn)證集對(duì)訓(xùn)練后的語音匹配模型進(jìn)行驗(yàn)證,判斷匹配準(zhǔn)確率是否大于預(yù)設(shè)的準(zhǔn)確率閾值,若否,則驗(yàn)證失敗,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練,若是,則驗(yàn)證成功;通過所述測(cè)試集對(duì)驗(yàn)證成功的語音匹配模型進(jìn)行測(cè)試,判斷置信度是否大于預(yù)設(shè)的置信度閾值,若否,則測(cè)試失敗,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練,若是,則測(cè)試成功,結(jié)束訓(xùn)練。

16、進(jìn)一步的,所述步驟s4具體為:

17、將訓(xùn)練后的所述語音匹配模型部署于設(shè)備類型為路由器、網(wǎng)關(guān)或者攝像頭的邊緣計(jì)算設(shè)備上,邊緣計(jì)算設(shè)備獲取預(yù)設(shè)數(shù)量的實(shí)時(shí)語音數(shù)據(jù)構(gòu)建微調(diào)數(shù)據(jù)集,基于預(yù)設(shè)的學(xué)習(xí)率、批量大小以及優(yōu)化器,通過所述微調(diào)數(shù)據(jù)集對(duì)部署的語音匹配模型進(jìn)行對(duì)抗訓(xùn)練,進(jìn)而對(duì)部署的所述語音匹配模型進(jìn)行微調(diào)。

18、第二方面,本發(fā)明提供一種用于路由器、網(wǎng)關(guān)、攝像頭的語音匹配系統(tǒng),包括如下模塊:

19、語音匹配模型創(chuàng)建模塊,用于基于語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建一語音匹配模型,設(shè)定所述語音匹配模型的損失函數(shù);

20、數(shù)據(jù)集構(gòu)建模塊,用于獲取大量的歷史語音數(shù)據(jù),對(duì)各所述歷史語音數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)注后構(gòu)建數(shù)據(jù)集;

21、語音匹配模型訓(xùn)練模塊,用于基于所述數(shù)據(jù)集以及損失函數(shù)對(duì)語音匹配模型進(jìn)行訓(xùn)練,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)所述語音匹配模型進(jìn)行壓縮;

22、語音匹配模型部署模塊,用于將訓(xùn)練后的所述語音匹配模型部署于設(shè)備類型為路由器、網(wǎng)關(guān)或者攝像頭的邊緣計(jì)算設(shè)備上,邊緣計(jì)算設(shè)備對(duì)部署的所述語音匹配模型進(jìn)行微調(diào);

23、語音匹配模塊,用于邊緣計(jì)算設(shè)備獲取實(shí)時(shí)語音數(shù)據(jù),對(duì)所述實(shí)時(shí)語音數(shù)據(jù)進(jìn)行預(yù)處理后輸入微調(diào)后的語音匹配模型,得到語音匹配結(jié)果,以完成語音匹配;

24、語音匹配模型優(yōu)化模塊,用于邊緣計(jì)算設(shè)備基于所述語音匹配結(jié)果以及實(shí)時(shí)語音數(shù)據(jù)對(duì)語音匹配模型進(jìn)行不斷優(yōu)化。

25、進(jìn)一步的,所述語音匹配模型創(chuàng)建模塊具體用于:

26、基于語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建一語音匹配模型,設(shè)定所述語音匹配模型的損失函數(shù);所述語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊依次連接;所述損失函數(shù)基于對(duì)比損失函數(shù)以及二元交叉熵?fù)p失函數(shù)構(gòu)建;

27、所述語音數(shù)據(jù)輸入模塊用于通過譜減法對(duì)輸入的語音數(shù)據(jù)進(jìn)行一階段降噪,再通過三層的一維卷積網(wǎng)絡(luò)進(jìn)行二階段降噪,得到降噪數(shù)據(jù);所述語音數(shù)據(jù)轉(zhuǎn)換模塊用于通過12個(gè)低頻梅爾濾波器和16個(gè)中高頻梅爾濾波器將降噪數(shù)據(jù)轉(zhuǎn)換為特征表示;所述低頻梅爾濾波器和中高頻梅爾濾波器的幀長為25ms,幀移為10ms;所述聲學(xué)特征提取模塊用于從特征表示中提取聲學(xué)特征,基于時(shí)域特征提取單元和頻域特征提取單元構(gòu)建;所述時(shí)域特征提取單元基于cnn網(wǎng)絡(luò)構(gòu)建,所述頻域特征提取單元基于b?i?lstm網(wǎng)絡(luò)構(gòu)建;所述相似度計(jì)算模塊用于按按音素邊界將語音數(shù)據(jù)分段為若干段語音子數(shù)據(jù),依據(jù)斜率約束條件改進(jìn)的dtw算法計(jì)算所述語音子數(shù)據(jù)對(duì)應(yīng)的聲學(xué)特征的相似度;所述輸出模塊用于依據(jù)相似度輸出語音匹配結(jié)果。

28、進(jìn)一步的,所述數(shù)據(jù)集構(gòu)建模塊具體用于:

29、獲取大量的歷史語音數(shù)據(jù),對(duì)各所述歷史語音數(shù)據(jù)進(jìn)行至少包括格式轉(zhuǎn)換、降噪、采樣率統(tǒng)一、去除靜音段的預(yù)處理,對(duì)預(yù)處理后的各所述歷史語音數(shù)據(jù)進(jìn)行相似語音數(shù)據(jù)的標(biāo)注后構(gòu)建數(shù)據(jù)集。

30、進(jìn)一步的,所述語音匹配模型訓(xùn)練模塊具體用于:

31、基于預(yù)設(shè)分割比例將所述數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,通過所述訓(xùn)練集對(duì)語音匹配模型進(jìn)行訓(xùn)練,直至所述損失函數(shù)的損失值小于預(yù)設(shè)的損失閾值,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)所述語音匹配模型進(jìn)行壓縮;通過所述驗(yàn)證集對(duì)訓(xùn)練后的語音匹配模型進(jìn)行驗(yàn)證,判斷匹配準(zhǔn)確率是否大于預(yù)設(shè)的準(zhǔn)確率閾值,若否,則驗(yàn)證失敗,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練,若是,則驗(yàn)證成功;通過所述測(cè)試集對(duì)驗(yàn)證成功的語音匹配模型進(jìn)行測(cè)試,判斷置信度是否大于預(yù)設(shè)的置信度閾值,若否,則測(cè)試失敗,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練,若是,則測(cè)試成功,結(jié)束訓(xùn)練。

32、進(jìn)一步的,所述語音匹配模型部署模塊具體用于:

33、將訓(xùn)練后的所述語音匹配模型部署于設(shè)備類型為路由器、網(wǎng)關(guān)或者攝像頭的邊緣計(jì)算設(shè)備上,邊緣計(jì)算設(shè)備獲取預(yù)設(shè)數(shù)量的實(shí)時(shí)語音數(shù)據(jù)構(gòu)建微調(diào)數(shù)據(jù)集,基于預(yù)設(shè)的學(xué)習(xí)率、批量大小以及優(yōu)化器,通過所述微調(diào)數(shù)據(jù)集對(duì)部署的語音匹配模型進(jìn)行對(duì)抗訓(xùn)練,進(jìn)而對(duì)部署的所述語音匹配模型進(jìn)行微調(diào)。

34、本發(fā)明的優(yōu)點(diǎn)在于:

35、1、通過語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建語音匹配模型,設(shè)定語音匹配模型的損失函數(shù);接著獲取大量的歷史語音數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)注后構(gòu)建數(shù)據(jù)集,基于數(shù)據(jù)集以及損失函數(shù)對(duì)語音匹配模型進(jìn)行訓(xùn)練,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)語音匹配模型進(jìn)行壓縮,再將訓(xùn)練后的語音匹配模型部署于設(shè)備類型為路由器、網(wǎng)關(guān)或者攝像頭的邊緣計(jì)算設(shè)備上,邊緣計(jì)算設(shè)備對(duì)部署的語音匹配模型進(jìn)行微調(diào);最后邊緣計(jì)算設(shè)備獲取實(shí)時(shí)語音數(shù)據(jù),對(duì)實(shí)時(shí)語音數(shù)據(jù)進(jìn)行預(yù)處理后輸入微調(diào)后的語音匹配模型得到語音匹配結(jié)果,基于語音匹配結(jié)果以及實(shí)時(shí)語音數(shù)據(jù)對(duì)語音匹配模型進(jìn)行不斷優(yōu)化;即基于語音數(shù)據(jù)輸入模塊、語音數(shù)據(jù)轉(zhuǎn)換模塊、聲學(xué)特征提取模塊、相似度計(jì)算模塊以及輸出模塊創(chuàng)建的語音匹配模型進(jìn)行語音匹配,語音數(shù)據(jù)轉(zhuǎn)換模塊中的梅爾濾波器由常規(guī)的40個(gè)優(yōu)化為28個(gè)(12個(gè)低頻梅爾濾波器和16個(gè)中高頻梅爾濾波器),以簡化網(wǎng)絡(luò)結(jié)構(gòu);相似度計(jì)算模塊按按音素邊界將語音數(shù)據(jù)分段,依據(jù)斜率約束條件改進(jìn)的dtw算法計(jì)算相似度,以提升計(jì)算效率;結(jié)合知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)語音匹配模型進(jìn)行壓縮,有效縮小語音匹配模型的體積,便于語音匹配模型部署于資源受限的邊緣計(jì)算設(shè)備;且語音數(shù)據(jù)輸入模塊對(duì)輸入的語音進(jìn)行進(jìn)行兩階段降噪(譜減法、一維卷積網(wǎng)絡(luò)),有效克服噪音的影響,提升魯棒性,結(jié)合語音匹配模型的微調(diào)和優(yōu)化,最終極大的降低了語音匹配的資源需求,并極大的提升了語音匹配的準(zhǔn)確性和及時(shí)性,進(jìn)而極大的提升了用戶體驗(yàn)。

36、2、通過設(shè)置損失函數(shù)基于對(duì)比損失函數(shù)以及二元交叉熵?fù)p失函數(shù)構(gòu)建,即對(duì)對(duì)比損失函數(shù)和二元交叉熵?fù)p失函數(shù)進(jìn)行加權(quán);由于對(duì)比損失函數(shù)用于學(xué)習(xí)特征嵌入空間,使得相似樣本的距離更近,不相似樣本的距離更遠(yuǎn),二元交叉熵?fù)p失函數(shù)用于輸出二分類問題,能有效結(jié)合對(duì)比損失函數(shù)和二元交叉熵?fù)p失函數(shù)的優(yōu)點(diǎn),進(jìn)而極大的提升了語音匹配模型的訓(xùn)練效果。

37、3、通過設(shè)置聲學(xué)特征提取模塊基于時(shí)域特征提取單元和頻域特征提取單元構(gòu)建,時(shí)域特征提取單元基于cnn網(wǎng)絡(luò)構(gòu)建,頻域特征提取單元基于bi?lstm網(wǎng)絡(luò)構(gòu)建,使得聲學(xué)特征提取模塊提取的聲學(xué)特征結(jié)合了時(shí)域特征和頻域特征,有效提升了特征提取能力,進(jìn)而極大的提升了語音匹配的準(zhǔn)確性。

38、4、通過將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,通過訓(xùn)練集對(duì)語音匹配模型進(jìn)行訓(xùn)練,直至損失函數(shù)的損失值小于預(yù)設(shè)的損失閾值,訓(xùn)練過程中通過知識(shí)蒸餾技術(shù)以及動(dòng)態(tài)剪枝技術(shù)對(duì)語音匹配模型進(jìn)行壓縮;通過驗(yàn)證集計(jì)算匹配準(zhǔn)確率以對(duì)訓(xùn)練后的語音匹配模型進(jìn)行驗(yàn)證,通過測(cè)試集計(jì)算置信度以對(duì)驗(yàn)證成功的語音匹配模型進(jìn)行測(cè)試;即語音匹配模型訓(xùn)練過程中不斷進(jìn)行壓縮、驗(yàn)證和測(cè)試,以有效平衡語音匹配模型的模型體積以及匹配準(zhǔn)確性,以便更好的部署于邊緣計(jì)算設(shè)備。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1