本發(fā)明屬于語(yǔ)音識(shí)別,更具體地,涉及一種電網(wǎng)調(diào)控工作臺(tái)環(huán)境的音頻識(shí)別降噪處理方法及系統(tǒng)。
背景技術(shù):
1、由于調(diào)度臺(tái)環(huán)境中存在多種干擾源,如電話鈴聲、告警鈴音、旁人交流、設(shè)備噪音等,傳統(tǒng)音頻采集方法無(wú)法在此復(fù)雜的環(huán)境中獲取到干凈的音頻。此外,電力調(diào)度任務(wù)通常涉及多輪交互,需要連續(xù)的音頻采集,這導(dǎo)致傳統(tǒng)的端點(diǎn)檢測(cè)處理方法無(wú)法有效的應(yīng)對(duì)。
2、進(jìn)行聲音識(shí)別的現(xiàn)有技術(shù)包括:
3、授權(quán)公告號(hào)為cn109686377b的專利公開了一種音頻識(shí)別方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該方法包括:獲取聲紋矢量化模型;獲取同一目標(biāo)說(shuō)話人的多個(gè)不同第一音頻文件;利用聲紋矢量化模型對(duì)每一個(gè)第一音頻文件進(jìn)行矢量化;采用至少一種方式確定多個(gè)不同第一音頻文件的聲紋向量的中心向量,以及利用每一種中心向量分別確定一相似度接受范圍;利用聲紋矢量化模型得到待識(shí)別音頻文件的聲紋向量,以及計(jì)算待識(shí)別音頻文件的聲紋向量與每一種中心向量的相似度;對(duì)于每一種中心向量,判斷待識(shí)別音頻文件的聲紋向量與其相似度是否位于利用其確定的相似度接受范圍內(nèi),以及根據(jù)判斷的結(jié)果確定待識(shí)別音頻文件是否屬于目標(biāo)說(shuō)話人。公開號(hào)為cn116312570a的專利公開了一種基于聲紋識(shí)別的語(yǔ)音降噪方法、裝置、設(shè)備及介質(zhì),方法包括:獲取指定人員的聲紋模板信息,以及包括所述指定人員語(yǔ)音的場(chǎng)景音頻;對(duì)所述場(chǎng)景音頻進(jìn)行語(yǔ)音分離,以得到多個(gè)單一人員分別對(duì)應(yīng)的人員音頻,所述人員音頻中包括場(chǎng)景噪音;通過對(duì)所述人員音頻以及所述聲紋模板信息進(jìn)行匹配,以確定所述指定人員對(duì)應(yīng)的指定人員音頻;對(duì)所述指定人員音頻進(jìn)行降噪處理,以得到目標(biāo)音頻。通過對(duì)場(chǎng)景音頻進(jìn)行語(yǔ)音分離,并在多個(gè)單一人員對(duì)應(yīng)的人員音頻中對(duì)指定人員對(duì)應(yīng)的音頻進(jìn)行匹配,從而能夠得到指定人員對(duì)應(yīng)的音頻,從而在有多說(shuō)話人對(duì)話的場(chǎng)景語(yǔ)音中,能夠?qū)⒄Z(yǔ)音中除目標(biāo)說(shuō)話人外的其他音頻均視為噪聲,并保留目標(biāo)說(shuō)話人語(yǔ)音。但是,以上專利不能在存在多種干擾源,如電話鈴聲、告警鈴音、旁人交流、設(shè)備噪音等復(fù)雜的環(huán)境中獲取到干凈的音頻。
技術(shù)實(shí)現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種融合了端點(diǎn)檢測(cè)、混合音頻分離、聲紋識(shí)別認(rèn)證的綜合判別音頻采集方法。
2、本發(fā)明采用如下的技術(shù)方案。
3、本發(fā)明第一方面提出了一種電網(wǎng)調(diào)控工作臺(tái)環(huán)境的音頻識(shí)別降噪處理方法,其特征在于,包括:
4、獲取所有電網(wǎng)調(diào)控工作人員不同工作場(chǎng)景下的純凈的音頻信號(hào)和調(diào)度臺(tái)中不同的背景噪音,分別從不同的時(shí)間尺度提取純凈的音頻信號(hào)的時(shí)域波形特征和頻域特征,將兩種特征進(jìn)行跨域融合后作為訓(xùn)練集訓(xùn)練說(shuō)話人模型;實(shí)時(shí)采集語(yǔ)音信號(hào),對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)處理,去除語(yǔ)音信號(hào)中的純?cè)肼暫挽o音;
5、根據(jù)噪聲水平估計(jì)和調(diào)度臺(tái)中不同的背景噪音的噪聲功率,計(jì)算去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)的各時(shí)間幀和不同頻率下的權(quán)重,從而對(duì)去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)進(jìn)行加權(quán)處理;
6、對(duì)加權(quán)后的語(yǔ)音信號(hào)采用預(yù)訓(xùn)練出的多分辨率特征的連續(xù)下采樣和重采樣算法,識(shí)別和分離出人聲片段,所述人聲片段包括旁人聲和目標(biāo)說(shuō)話人聲;通過說(shuō)話人模型,判斷人聲片段是否包含目標(biāo)說(shuō)話人;
7、若人聲片段包含目標(biāo)說(shuō)話人,則通過區(qū)域建議、聚類和說(shuō)話人模型,提取出目標(biāo)說(shuō)話人聲,建立工作人員工作場(chǎng)景時(shí)段聲紋映射表,根據(jù)該表構(gòu)建綜合損失函數(shù),利用其和提取出的目標(biāo)說(shuō)話人聲,對(duì)說(shuō)話人模型進(jìn)行更新。
8、優(yōu)選地,電網(wǎng)調(diào)控工作人員不同工作場(chǎng)景包括:監(jiān)控與調(diào)度、故障處理、安全分析;
9、調(diào)度臺(tái)中不同的背景噪音包括變壓器噪音、告警噪音、電話鈴聲噪音、服務(wù)器噪音、人員噪音;
10、所述服務(wù)器噪音包括空調(diào)、風(fēng)扇、電源的噪音,所述人員噪音包括人員走動(dòng)、翻閱文件和敲擊鍵盤聲音。
11、優(yōu)選地,從不同的時(shí)間尺度提取純凈的音頻信號(hào)的時(shí)域波形特征和頻域特征,具體為:
12、將音頻信號(hào)以設(shè)定的時(shí)長(zhǎng)t1為一幀將其分為若干個(gè)長(zhǎng)時(shí)窗信號(hào);將每個(gè)長(zhǎng)時(shí)窗信號(hào),以設(shè)定的時(shí)長(zhǎng)t2為一幀將其分為若干個(gè)中時(shí)窗信號(hào);將每個(gè)中時(shí)窗信號(hào),以設(shè)定的時(shí)長(zhǎng)t3為一幀將其分為若干個(gè)短時(shí)窗信號(hào);計(jì)算所有長(zhǎng)時(shí)窗信號(hào)的波形偏度、中時(shí)窗信號(hào)的能量包絡(luò)和短時(shí)窗信號(hào)的過零率作為時(shí)域波形特征;
13、提取這些音頻信號(hào)的梅爾頻譜和相位導(dǎo)數(shù)譜作為頻域特征。
14、優(yōu)選地,所述將兩種特征進(jìn)行跨域融合后作為訓(xùn)練集訓(xùn)練說(shuō)話人模型,具體為:
15、所述說(shuō)話人模型為卷積神經(jīng)網(wǎng)絡(luò);
16、所述將兩種特征進(jìn)行跨域融合為分別計(jì)算時(shí)域波形特征對(duì)頻域特征的注意力權(quán)重,和頻域特征對(duì)時(shí)域波形特征的注意力權(quán)重;
17、計(jì)算時(shí)域波形特征對(duì)頻域特征的注意力權(quán)重時(shí),先獲取將時(shí)域波形特征映射到設(shè)定的維度的查詢向量,和將頻域特征映射到設(shè)定的維度的鍵向量和值向量,用其計(jì)算時(shí)域波形特征對(duì)頻域特征的注意力權(quán)重;
18、計(jì)算頻域特征對(duì)時(shí)域波形特征的注意力權(quán)重時(shí),先獲取將頻域特征映射到設(shè)定的維度的查詢向量,和將時(shí)域波形特征映射到設(shè)定的維度的鍵向量和值向量,用其計(jì)算時(shí)域波形特征對(duì)頻域特征的注意力權(quán)重;將時(shí)域波形特征乘以時(shí)域波形特征對(duì)頻域特征的注意力權(quán)重,將頻域特征乘以頻域特征對(duì)時(shí)域波形特征的注意力權(quán)重,將兩個(gè)計(jì)算結(jié)果拼接融合后的特征。
19、優(yōu)選地,端點(diǎn)檢測(cè)處理的過程具體為:
20、步驟1:通過麥克風(fēng)采集語(yǔ)音信號(hào),采集設(shè)定時(shí)間周期內(nèi)的語(yǔ)音信號(hào)后,將采集到的語(yǔ)音信號(hào)輸入給語(yǔ)音活動(dòng)檢測(cè)算法模型進(jìn)行判斷,輸出判斷的語(yǔ)音信號(hào)類型;
21、步驟2:若語(yǔ)音類型是非語(yǔ)音信號(hào),則判斷此時(shí)為純?cè)肼暬蜢o音,停止麥克風(fēng)的語(yǔ)音采集;若是語(yǔ)音信號(hào),則進(jìn)入步驟3繼續(xù)使用麥克風(fēng)采集語(yǔ)音信號(hào);
22、步驟3:語(yǔ)音采集過程中,依次將下一時(shí)間周期內(nèi)采集的語(yǔ)音信號(hào)通過語(yǔ)音活動(dòng)檢測(cè)算法,判斷其是否檢測(cè)到非語(yǔ)音信號(hào),若沒有檢測(cè)到,則繼續(xù)采集信號(hào),若檢測(cè)到,則進(jìn)入步驟4;
23、步驟4:?繼續(xù)采集設(shè)定的m個(gè)時(shí)間周期內(nèi)采集的語(yǔ)音信號(hào),每個(gè)時(shí)間周期采集的語(yǔ)音信號(hào)均輸入語(yǔ)音活動(dòng)檢測(cè)算法進(jìn)行檢測(cè);若檢測(cè)到語(yǔ)音信號(hào),則任務(wù)仍處于語(yǔ)音過程,返回步驟3;若m個(gè)時(shí)間周期內(nèi)始終無(wú)語(yǔ)音信號(hào),則認(rèn)為說(shuō)話結(jié)束,停止麥克風(fēng)采集。
24、優(yōu)選地,所述語(yǔ)音活動(dòng)檢測(cè)算法,具體為:
25、將語(yǔ)音信號(hào)通過預(yù)加重、分幀、加窗的預(yù)處理后,通過梅爾頻率倒譜系數(shù)mfcc將其轉(zhuǎn)換為頻域信號(hào);
26、將頻域信號(hào)根據(jù)頻率分成六個(gè)子帶;對(duì)每個(gè)子帶,計(jì)算其能量;使用訓(xùn)練好的高斯模型的概率密度函數(shù)分別對(duì)這六個(gè)子帶的能量與六個(gè)子帶能量加權(quán)之和進(jìn)行運(yùn)算,得出對(duì)應(yīng)的對(duì)數(shù)似然比;其中,六個(gè)子帶的能量計(jì)算出的均為局部對(duì)數(shù)似然函數(shù),六個(gè)子帶能量加權(quán)之和計(jì)算出的為全局對(duì)數(shù)似然比;
27、在進(jìn)行語(yǔ)音判決時(shí),判斷所有的局部和全局對(duì)數(shù)似然比,若任何一個(gè)局部或全局的對(duì)數(shù)似然比超過了設(shè)定的對(duì)數(shù)似然比閾值,則認(rèn)為有語(yǔ)音存在;其中六個(gè)子帶能量加權(quán)的權(quán)重和閾值通過訓(xùn)練得到;每次檢測(cè)后算法對(duì)高斯模型的均值、方差參數(shù)進(jìn)行自學(xué)習(xí)更新。
28、優(yōu)選地,所述根據(jù)噪聲水平估計(jì)和調(diào)度臺(tái)中不同的背景噪音的噪聲功率,計(jì)算去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)的各時(shí)間幀和不同頻率下的權(quán)重,具體為:
29、對(duì)去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)、調(diào)度臺(tái)中不同的背景噪音均以設(shè)定的時(shí)長(zhǎng)t4為一幀將其分幀,并通過短時(shí)傅里葉變換分解為若干個(gè)頻點(diǎn);
30、計(jì)算每一幀去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)的噪聲水平估計(jì)和調(diào)度臺(tái)中不同的背景噪音的噪聲功率;
31、計(jì)算去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)第幀的第 i個(gè)頻點(diǎn)對(duì)應(yīng)的頻率的權(quán)重的公式為:
32、
33、其中,、、均為正則化系數(shù);為設(shè)定的噪聲水平估計(jì)閾值,為最大的噪聲水平估計(jì),為不同頻率下占主導(dǎo)的背景噪音的噪聲功率之和,、、、、分別表示變壓器噪音、告警噪音、電話鈴聲噪音、服務(wù)器噪音、人員噪音的噪聲功率。
34、優(yōu)選地,計(jì)算每一幀去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)的噪聲水平估計(jì)和調(diào)度臺(tái)中不同的背景噪音的噪聲功率,具體為:
35、第幀的噪聲水平估計(jì)計(jì)算公式為:
36、
37、其中,為短時(shí)傅里葉變換的頻點(diǎn)總數(shù);為第幀的第 i個(gè)頻點(diǎn)對(duì)應(yīng)的頻率的復(fù)數(shù)頻譜值;
38、調(diào)度臺(tái)中不同的背景噪音的噪聲功率為計(jì)算調(diào)度臺(tái)中不同的背景噪音其每幀的噪聲水平估計(jì),求其平均值作為其噪聲功率。
39、優(yōu)選地,所述通過區(qū)域建議、聚類和說(shuō)話人模型,提取出目標(biāo)說(shuō)話人聲,具體為:
40、采用區(qū)域建議算法基于人聲片段生成多個(gè)非重疊區(qū)域的語(yǔ)音片段,該算法為全卷積網(wǎng)絡(luò)模型,該模型使用3*3的滑動(dòng)窗口,將人聲片段進(jìn)行滑動(dòng)生成多個(gè)語(yǔ)音片段;
41、利用聚類從多個(gè)非重疊區(qū)域的語(yǔ)音片段中形成多個(gè)簇,將每個(gè)簇中的每個(gè)語(yǔ)音片段輸入說(shuō)話人模型進(jìn)行識(shí)別,統(tǒng)計(jì)每個(gè)簇包含目標(biāo)說(shuō)話人的語(yǔ)音片段個(gè)數(shù),將該個(gè)數(shù)最多的簇的所有語(yǔ)音片段整合為一個(gè)語(yǔ)音信號(hào),該語(yǔ)音信號(hào)為提取出的目標(biāo)說(shuō)話人聲。
42、優(yōu)選地,所述建立工作人員工作場(chǎng)景時(shí)段聲紋映射表,根據(jù)該表構(gòu)建綜合損失函數(shù),利用其和提取出的目標(biāo)說(shuō)話人聲,對(duì)說(shuō)話人模型進(jìn)行更新,具體為:
43、根據(jù)所有電網(wǎng)調(diào)控工作人員的值班表與歷史工作記錄信息,建立工作人員工作場(chǎng)景時(shí)段聲紋映射表,該表建立了每個(gè)電網(wǎng)調(diào)控工作人員的每個(gè)工作時(shí)段中進(jìn)行最多的工作場(chǎng)景、對(duì)應(yīng)的工作場(chǎng)景下的純凈的音頻信號(hào)對(duì)應(yīng)的跨域融合后的特征向量和短時(shí)傅里葉變換復(fù)數(shù)譜的映射關(guān)系;
44、分別從不同的時(shí)間尺度提取目標(biāo)說(shuō)話人聲的時(shí)域波形特征和頻域特征,將其跨域融合為一個(gè)特征向量;根據(jù)工作人員工作場(chǎng)景時(shí)段聲紋映射表,得到目標(biāo)說(shuō)話人當(dāng)前時(shí)段的工作場(chǎng)景下的純凈的音頻信號(hào)的特征向量和短時(shí)傅里葉變換復(fù)數(shù)譜;
45、綜合損失函數(shù)為:
46、
47、其中,、為設(shè)定的參數(shù),其值均在[0,1]的區(qū)間內(nèi),為范數(shù),為的轉(zhuǎn)置,為目標(biāo)說(shuō)話人聲的短時(shí)傅里葉變換復(fù)數(shù)譜。
48、本發(fā)明第二方面提供了一種使用本發(fā)明第一方面所述的音頻識(shí)別降噪方法的電網(wǎng)調(diào)控工作臺(tái)環(huán)境的音頻識(shí)別降噪處理系統(tǒng),包括:說(shuō)話人模型構(gòu)建模塊、端點(diǎn)檢測(cè)模塊、分離人聲片段模塊、語(yǔ)音識(shí)別模塊、目標(biāo)說(shuō)話人聲提取模塊,其特征在于:
49、說(shuō)話人模型構(gòu)建模塊:獲取所有電網(wǎng)調(diào)控工作人員不同工作場(chǎng)景下的純凈的音頻信號(hào)和調(diào)度臺(tái)中不同的背景噪音,分別從不同的時(shí)間尺度提取純凈的音頻信號(hào)的時(shí)域波形特征和頻域特征,將兩種特征進(jìn)行跨域融合后作為訓(xùn)練集訓(xùn)練說(shuō)話人模型;
50、端點(diǎn)檢測(cè)模塊:實(shí)時(shí)采集語(yǔ)音信號(hào),對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)處理,去除語(yǔ)音信號(hào)中的純?cè)肼暫挽o音;
51、分離人聲片段模塊:根據(jù)噪聲水平估計(jì)和調(diào)度臺(tái)中不同的背景噪音的噪聲功率,計(jì)算去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)的各時(shí)間幀和不同頻率下的權(quán)重,從而對(duì)去除純?cè)肼暫挽o音后的語(yǔ)音信號(hào)進(jìn)行加權(quán)處理;對(duì)加權(quán)后的語(yǔ)音信號(hào)采用預(yù)訓(xùn)練出的多分辨率特征的連續(xù)下采樣和重采樣算法,識(shí)別和分離出人聲片段,所述人聲片段包括旁人聲和目標(biāo)說(shuō)話人聲;
52、語(yǔ)音識(shí)別模塊:通過說(shuō)話人模型,判斷人聲片段是否包含目標(biāo)說(shuō)話人;
53、目標(biāo)說(shuō)話人聲提取模塊:若人聲片段包含目標(biāo)說(shuō)話人,則通過區(qū)域建議、聚類和說(shuō)話人模型,提取出目標(biāo)說(shuō)話人聲,建立工作人員工作場(chǎng)景時(shí)段聲紋映射表,根據(jù)該表構(gòu)建綜合損失函數(shù),利用其和提取出的目標(biāo)說(shuō)話人聲,對(duì)說(shuō)話人模型進(jìn)行更新。
54、本發(fā)明的有益效果在于,與現(xiàn)有技術(shù)相比,本發(fā)明考慮了調(diào)控臺(tái)的不同工作人員不同的工作狀態(tài)語(yǔ)音的區(qū)別,以及考慮了調(diào)控臺(tái)的多種不同頻段的背景噪音,從不同的時(shí)間尺度提取這些音頻信號(hào)的時(shí)域波形特征和頻域特征,將這兩種特征融合后作為訓(xùn)練集訓(xùn)練說(shuō)話人模型,同時(shí)利用了語(yǔ)音信號(hào)的時(shí)域和頻域特征,使模型識(shí)別更準(zhǔn)確;通過語(yǔ)音活動(dòng)檢測(cè)算法進(jìn)行端點(diǎn)檢測(cè)處理;并為了適應(yīng)各級(jí)調(diào)控調(diào)度臺(tái)的環(huán)境變化,通過噪聲水平估計(jì)和噪聲功率計(jì)算不同時(shí)間幀不同頻率的權(quán)重進(jìn)行加權(quán),增強(qiáng)了噪聲特征顯著減少環(huán)境噪聲,特別是對(duì)于主頻段的高頻噪聲;采用了基于說(shuō)話人模型和聚類的目標(biāo)說(shuō)話人語(yǔ)音提取,實(shí)現(xiàn)人聲的精準(zhǔn)識(shí)別和提取,并通過建立工作人員工作場(chǎng)景時(shí)段聲紋映射表,根據(jù)該表綜合損失函數(shù)進(jìn)行自學(xué)習(xí)更新,實(shí)現(xiàn)了對(duì)環(huán)境的自適應(yīng),能夠精確地識(shí)別和提取目標(biāo)說(shuō)話人片段,特別是針對(duì)調(diào)控臺(tái)環(huán)境的識(shí)別率大大提高。