本發(fā)明涉及語音信號處理,尤其涉及一種針對短波通信方式的有效音檢測方法及系統(tǒng)。
背景技術:
1、有效語音檢測(voice?activity?detection,vad)是將語音在有背景噪聲存在的情況下正確分出語音段與非語音段,vad在自動語音識別、語音增強、說話人識別等語音信號處理系統(tǒng)中是重要的預處理步驟。早期vad有基于過零率特征、基于能量特征、基于laplace統(tǒng)計模型和基于支持向量機等方法。近些年來,深度學習開始應用于vad,基于深度神經網絡(deep?neural?network,dnn)的vad方法顯示出比傳統(tǒng)方法的優(yōu)越性。一方面,相比基于支持向量機的vad模型,dnn具有更強的非線性變換能力,更適用于語音/非語音的分類問題;另一方面,dnn具有對聲學特征再學習的能力,可以充分挖掘數(shù)據(jù)中的潛在信息,避免了專門設計vad特征。
2、短波通信方式中語音信息傳播主要方式有兩種:天波、地波。因為短波波長較短,因此主要靠天波傳播。天波傳播就是依靠無線電波從電離層反射回地面來傳播消息,但是,天波傳輸很不穩(wěn)定,因為在天波傳播過程中,路徑衰耗、時間延遲、大氣噪聲、多徑效應、電離層衰落等因素,都會造成信號的弱化與畸變。
3、短波通信的惡劣干擾決定了所選擇的語音判決算法必須能有效地區(qū)別語音和較常見的幾種干擾。目前常用的是基于深度神經網絡的語音檢出方法,但基于深度神經網絡語音檢出忽略了聲學特征在時間上的相關性,在短波通話信噪比比較低的環(huán)境下,噪聲會頻繁出現(xiàn),干擾對有效語音的檢測,將會出現(xiàn)將噪聲誤檢為有效語音信號的情況,現(xiàn)有技術對短波通信方式下有效語音信號的檢測的準確性不夠高,語音的復雜性對vad模塊帶來了巨大的挑戰(zhàn)。
技術實現(xiàn)思路
1、有鑒于此,針對在短波通話信噪比比較低的環(huán)境下基于深度神經網絡語音檢出的性能明顯下降的問題,本發(fā)明的目的在于提出一種針對短波通信方式的有效音檢測方法及系統(tǒng),采用深度神經網絡(dnn)和長短時記憶單元(lstm)的混合網絡方式來進行vad檢測,結合了dnn善于對數(shù)據(jù)進行非線性變換與lstm對時間序列分析的能力,在低噪聲環(huán)境下對語音檢測具有很強的魯棒性,在短波通信中有比較好的檢測性能。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、基于上述目的,第一方面,本發(fā)明提供了一種針對短波通信方式的有效音檢測方法,包括以下步驟:
4、收集短波通信中的有效語音數(shù)據(jù)和噪聲數(shù)據(jù),并通過數(shù)據(jù)增強技術生成訓練數(shù)據(jù)集;
5、對收集的信號進行特征提取,使用gamma-tone濾波器組提取gfcc特征;
6、構建深度神經網絡(dnn)與長短時記憶網絡(lstm)的混合模型,通過訓練學習語音與噪聲的區(qū)分;
7、使用訓練好的dnn-lstm混合網絡模型對待檢測短波信號進行實時語音檢測,輸出每一幀信號是否為有效語音的后驗概率;
8、根據(jù)設定的閾值進行語音或非語音判定,輸出檢測結果。
9、作為本發(fā)明的進一步方案,所述有效語音數(shù)據(jù)包含人說話的聲音,噪聲數(shù)據(jù)不包含人說話的聲音。
10、作為本發(fā)明的進一步方案,通過數(shù)據(jù)增強技術生成訓練數(shù)據(jù)集之前,包括:
11、對收集的數(shù)據(jù)進行升采樣或降采樣操作,統(tǒng)一短波通信語音數(shù)據(jù)和噪聲數(shù)據(jù)的采樣率;
12、隨機提取若干段短波通信語音數(shù)據(jù)和噪聲數(shù)據(jù);
13、在短波通信噪聲數(shù)據(jù)上的隨機位置隨機加入短波通信語音數(shù)據(jù),融合生成短波通信語音樣本數(shù)據(jù)庫。
14、作為本發(fā)明的進一步方案,使用gamma-tone濾波器組提取gfcc特征,包括以下步驟:
15、對短波通信語音樣本數(shù)據(jù)庫中的語音數(shù)據(jù)進行分幀處理,并提取每幀語音數(shù)據(jù)的語音特征信息;
16、將語音特征信息作為長短時記憶神經網絡(lstm)的輸入特征,聲學特征信息作為lstm的輸出特征,訓練聲學識別模型;
17、采用深度神經網絡(dnn)和lstm的混合網絡結構,對輸入序列進行映射,輸出語音或非語音后驗概率。
18、作為本發(fā)明的進一步方案,使用訓練好的dnn-lstm混合網絡模型對待檢測信號進行實時語音檢測,提取待檢測語音的gammatone頻率倒譜系數(shù)(gfcc)特征,包括以下子步驟:
19、使用gammatone濾波器組對語音進行濾波;
20、對濾波后的輸出進行分幀并加窗處理;
21、計算每幀的短時對數(shù)能量;
22、對濾波器組輸出的短時對數(shù)能量進行離散余弦變換,得到gfcc系數(shù);
23、將提取的gfcc系數(shù)輸入到dnn-lstm有效音檢測網絡中,獲取語音/非語音的檢測結果。
24、作為本發(fā)明的進一步方案,gammatone濾波器組由64個濾波器組成,模擬人耳聽覺感知模型。
25、作為本發(fā)明的進一步方案,輸出每一幀信號是否為有效語音的后驗概率,包括以下步驟:
26、計算有效音片段檢出查全率,查全率表示一段語音中存在多個語音段時,語音識別算法找出的語音段的比例;
27、計算語音查準率,語音查準率表示找出的整個語音中實際語音段的重合程度;并計算有效語音識別評價指標。
28、作為本發(fā)明的進一步方案,計算有效音片段檢出查全率的計算公式為:
29、
30、式中,r表示語音查全率,n0表示語音中所包括的實際語音段數(shù)量,采用人工標注獲得,n表示算法檢出且正確的語音段數(shù)量;
31、其中,某一段語音的起點或終點的語音查準率計算公式為:
32、
33、δ=|t-t0|
34、式中,p表示音查準率,δ表示端點偏差值,t表示算法檢出的端點時間,t0表示實際語音端點時間;
35、整個語音段的語音查準率計算公式為:
36、
37、式中,p表示整個語音段的查準率;p1至pn的語音查準率為某一段語音的起點或終點的語音查準率的算術平均值;
38、其中,計算有效語音識別評價指標的計算公式為:
39、
40、式中,f表示有效語音識別評價指標,r表示語音查全率,p表示音查準率。
41、作為本發(fā)明的進一步方案,所述針對短波通信方式的有效音檢測方法,還包括有效音檢測模型參數(shù)優(yōu)化,包括以下步驟:
42、計算最近n次短波通信語音的有效語音識別評價指標;
43、計算最近n次有效語音識別評價指標的一階導數(shù),若一階導數(shù)超過預設閾值,則增加語音識別模型的網絡層數(shù);若一階導數(shù)小于預設閾值,則減少語音識別模型的網絡層數(shù);若一階導數(shù)在預設閾值范圍內,則保持語音識別模型的網絡層數(shù);網絡層數(shù)最低為3層,最高為15層;
44、計算最近網絡層數(shù)為2至15層的語音識別模型的有效語音識別評價指標的離散程度,若離散程度超過預定閾值,則在接下來一次或多次的有效語音識別中,保持現(xiàn)有的語音識別模型的網絡層數(shù)。
45、第二方面,本發(fā)明還提供了一種針對短波通信方式的有效音檢測系統(tǒng),包括以下組成:
46、數(shù)據(jù)采集模塊,用于收集短波通信中的有效語音數(shù)據(jù)和噪聲數(shù)據(jù),并通過數(shù)據(jù)增強技術生成訓練數(shù)據(jù)集;
47、特征提取模塊,用于對收集的信號進行特征提取,使用gamma-tone濾波器組提取gfcc特征;
48、模型訓練模塊,用于構建深度神經網絡(dnn)與長短時記憶網絡(lstm)的混合模型,通過訓練學習語音與噪聲的區(qū)分;
49、實時檢測模塊,用于使用訓練好的dnn-lstm混合網絡模型對待檢測短波信號進行實時語音檢測,輸出每一幀信號是否為有效語音的后驗概率;
50、結果輸出模塊,用于根據(jù)設定的閾值進行語音或非語音判定,輸出檢測結果;
51、模型優(yōu)化模塊,用于根據(jù)檢測結果動態(tài)調整模型的網絡層數(shù)和模型參數(shù)。
52、作為本發(fā)明的進一步方案,所述數(shù)據(jù)采集模塊包括:
53、采樣率統(tǒng)一單元:用于對收集的數(shù)據(jù)進行升采樣或降采樣操作,統(tǒng)一短波通信語音數(shù)據(jù)和噪聲數(shù)據(jù)的采樣率;
54、數(shù)據(jù)隨機提取單元:用于隨機提取若干段短波通信語音數(shù)據(jù)和噪聲數(shù)據(jù);
55、數(shù)據(jù)融合單元:用于在短波通信噪聲數(shù)據(jù)上的隨機位置隨機加入短波通信語音數(shù)據(jù),融合生成短波通信語音樣本數(shù)據(jù)庫。
56、作為本發(fā)明的進一步方案,所述特征提取模塊包括:
57、分幀處理單元:用于對短波通信語音樣本數(shù)據(jù)庫中的語音數(shù)據(jù)進行分幀處理,并提取每幀語音數(shù)據(jù)的語音特征信息;
58、gamma-tone濾波器組單元:由64個濾波器組成,模擬人耳聽覺感知模型,用于對語音進行濾波;
59、短時對數(shù)能量計算單元:用于對濾波后的輸出進行分幀并加窗處理,并計算每幀的短時對數(shù)能量;
60、離散余弦變換單元:用于對濾波器組輸出的短時對數(shù)能量進行離散余弦變換,得到gfcc系數(shù)。
61、作為本發(fā)明的進一步方案,所述模型訓練模塊包括:
62、dnn-lstm混合網絡單元:用于將語音特征信息作為lstm的輸入特征,聲學特征信息作為lstm的輸出特征,訓練聲學識別模型;
63、參數(shù)優(yōu)化單元:用于根據(jù)有效語音識別評價指標優(yōu)化模型參數(shù),包括動態(tài)調整網絡層數(shù)。
64、作為本發(fā)明的進一步方案,所述實時檢測模塊包括:
65、gfcc特征提取單元:用于提取待檢測語音的gammatone頻率倒譜系數(shù)(gfcc)特征;
66、后驗概率計算單元:用于將提取的gfcc系數(shù)輸入到dnn-lstm有效音檢測網絡中,獲取語音/非語音的檢測結果。
67、作為本發(fā)明的進一步方案,所述結果輸出模塊包括:
68、查全率計算單元:用于計算有效音片段檢出查全率;
69、查準率計算單元:用于計算語音查準率;
70、評價指標計算單元:用于計算有效語音識別評價指標。
71、作為本發(fā)明的進一步方案,所述模型優(yōu)化模塊通過計算檢測結果的查準率與查全率的導數(shù),自動調整網絡的層數(shù),包括以下步驟:
72、計算最近n次短波通信語音的有效語音識別評價指標;
73、計算最近n次有效語音識別評價指標的一階導數(shù),若一階導數(shù)超過預設閾值,則增加語音識別模型的網絡層數(shù);若一階導數(shù)小于預設閾值,則減少語音識別模型的網絡層數(shù);若一階導數(shù)在預設閾值范圍內,則保持語音識別模型的網絡層數(shù);網絡層數(shù)最低為3層,最高為15層;
74、計算最近網絡層數(shù)為2至15層的語音識別模型的有效語音識別評價指標的離散程度,若離散程度超過預定閾值,則在接下來一次或多次的有效語音識別中,保持現(xiàn)有的語音識別模型的網絡層數(shù)。
75、與現(xiàn)有技術相比較而言,本發(fā)明提出的一種針對短波通信方式的有效音檢測方法及系統(tǒng),具有以下有益效果:
76、本發(fā)明采用gamma-tone濾波器組提取gfcc特征,通過gamma-tone濾波器組模擬人耳聽覺感知模型,能夠更準確地提取短波信號中與語音相關的特征,有效區(qū)分語音和噪聲,提高檢測精度;本發(fā)明還通過構建dnn-lstm混合模型,利用dnn-lstm混合模型結合深度神經網絡強大的特征提取能力和長短時記憶網絡對時序信息的建模能力,能夠更有效地學習語音與噪聲的區(qū)分特征,提高模型的魯棒性。通過數(shù)據(jù)增強技術生成多樣化的訓練數(shù)據(jù),可以擴充訓練數(shù)據(jù)集的規(guī)模,提高模型的泛化能力,使其能夠適應各種復雜的短波通信環(huán)境,采用分幀處理和gfcc特征提取,將短波信號進行分幀處理,并提取每幀信號的gfcc特征,可以有效降低計算復雜度,提高實時檢測的效率,通過動態(tài)調整網絡層數(shù)等參數(shù)優(yōu)化策略,可以在保證檢測精度的前提下,降低模型的計算量,提高系統(tǒng)的運行效率。
77、因此,本發(fā)明從數(shù)據(jù)收集、特征提取、模型訓練到實時檢測和結果判定,提供了一套完整的有效音檢測解決方案,可以滿足不同應用場景的需求,在短波語音通信中,有效音檢測可以用于語音激活檢測、語音端點檢測等,提高語音通信的清晰度和流暢度;在短波數(shù)據(jù)傳輸中,有效音檢測可以用于區(qū)分數(shù)據(jù)信號和噪聲信號,提高數(shù)據(jù)傳輸?shù)臏蚀_性和可靠性;在短波通信干擾抑制中,有效音檢測可以用于識別干擾信號,并采取相應的措施進行抑制,提高通信系統(tǒng)的抗干擾能力;具有檢測精度高、魯棒性強、實時性好、計算效率高、功能完善、應用范圍廣等優(yōu)點,能夠有效解決短波通信中有效音檢測的難題,提高短波通信的質量和效率,具有重要的實際應用價值。
78、本技術的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本技術。