本發(fā)明涉及音頻識別,具體是一種動物音頻聲紋識別的智能深度學習方法及系統(tǒng)。
背景技術:
1、在野生動物監(jiān)測和保護領域,對動物聲紋的識別和分析是一項重要的技術,傳統(tǒng)的動物聲紋識別方法主要依賴于人工識別和簡單的信號處理技術,這些方法存在以下局限:
2、1、人工識別效率低下,容易受到主觀因素的影響,且無法處理大量的音頻數(shù)據(jù);
3、2、簡單的信號處理技術難以提取動物聲紋的復雜特征,導致識別準確率不高;
4、3、缺乏有效的聲紋特征評估和篩選機制,使得建模數(shù)據(jù)集的質(zhì)量不高,影響最終的識別效果。
技術實現(xiàn)思路
1、為了解決上述問題,本發(fā)明的目的在于提供一種動物音頻聲紋識別的智能深度學習方法及系統(tǒng)。
2、本發(fā)明的目的可以通過以下技術方案實現(xiàn):一種動物音頻聲紋識別的智能深度學習方法,包括以下步驟:
3、步驟s1:設置分布式采集終端,在目標區(qū)域內(nèi)的多個監(jiān)測節(jié)點處采集動物音頻,并將動物音頻處理為標準化音頻信息包,濾除標準化音頻信息包中的非目標聲源,提取目標聲源;
4、步驟s2:對目標聲源進行多模態(tài)特征提取,得到相應的多模態(tài)聲紋特征,對多模態(tài)聲紋特征進行置信度評估,獲取全部滿足置信篩選閾值的多模態(tài)聲紋特征作為建模數(shù)據(jù)集;
5、步驟s3:構建混合深度學習模型,并輸入建模數(shù)據(jù)集進行聲紋建模,進而生成聲紋特征庫,設置聲紋特征庫的目標聲紋模板,將需要識別的動物音頻聲紋錄入至聲紋特征庫,計算聲紋相似度,標記出符合目標聲紋模板的目標聲紋片段;
6、步驟s4:判斷目標聲紋片段是否存在模糊片段區(qū)域,根據(jù)判斷結果決定是否進行上下文語義補全,輸出最終完整聲紋信息的識別結果。
7、進一步的,設置分布式采集終端,在目標區(qū)域內(nèi)的多個監(jiān)測節(jié)點處采集動物音頻,并將動物音頻處理為標準化音頻信息包的過程包括:
8、設置分布式采集終端,分布式采集終端由若干個終端錄音設備組成,在目標區(qū)域內(nèi)選擇多個監(jiān)測節(jié)點,并在每個監(jiān)測節(jié)點處部署一個終端錄音設備,通過每個監(jiān)測節(jié)點處的終端錄音設備采集動物音頻;
9、整合全部監(jiān)測節(jié)點處的動物音頻至預設的空白信息包內(nèi),將空白信息包轉(zhuǎn)換為存儲動物音頻對應的音頻信息包,對音頻信息包進行音頻降噪以及格式標準化后轉(zhuǎn)換為標準化音頻信息包。
10、進一步的,濾除標準化音頻信息包中的非目標聲源,提取目標聲源的過程包括:
11、構建目標聲源特征參數(shù)庫以及非目標聲源特征模板庫;
12、獲取目標聲源以及非目標聲源各自的聲源頻譜,基于高斯混合模型為目標聲源以及非目標聲源進行概率建模,生成各自的頻譜分析模型;
13、對標準化音頻信息包進行多通道盲源分離,應用獨立成分分析算法將標準化音頻信息包分解為若干獨立聲源,通過目標聲源的頻譜分析模型計算每一獨立聲源與目標聲源特征參數(shù)庫的匹配度,并記作s-match,設定匹配度閾值,并記作t-match;
14、當s-match≥t-match時,判定相應的獨立聲源為目標聲源,并提取標準化音頻信息包中當前的目標聲源;
15、當s-match<t-match時,判定相應的獨立聲源為非目標聲源,并濾除標準化音頻信息包中當前的非目標聲源。
16、進一步的,對目標聲源進行多模態(tài)特征提取,得到相應的多模態(tài)聲紋特征的過程包括:
17、對目標聲源進行的多模態(tài)特征提取包括時域特征提取、頻域特征提取以及語義特征提取;
18、通過時域特征提取獲得目標聲源對應的時域波形信息,并同步根據(jù)時域波形信息構建目標聲源對應的時域波形圖,時域波形圖用于記錄目標聲源的聲紋時域特征;
19、通過頻域特征提取獲得目標聲源對應的頻域譜線信息,并同步根據(jù)頻域譜線信息構建目標聲源對應的頻域譜線圖,頻域譜線圖用于記錄目標聲源的聲紋頻域特征;
20、通過語義特征提取獲得目標聲源對應的語義片段特征;
21、匯總目標聲源的聲紋時域特征、聲紋頻域特征以及語義片段特征,作為目標聲源的多模態(tài)聲紋特征。
22、進一步的,對多模態(tài)聲紋特征進行置信度評估,獲取全部滿足置信篩選閾值的多模態(tài)聲紋特征作為建模數(shù)據(jù)集的過程包括:
23、定義聲紋時域特征、聲紋頻域特征以及語義片段特征各自的置信度評估指標,根據(jù)置信度評估指標生成各自對應的置信度系數(shù),將聲紋時域特征、聲紋頻域特征以及語義片段特征各自的置信度系數(shù)進行加權融合,得出加權綜合置信度,并根據(jù)加權綜合置信度與預設的置信篩選閾值的大小關系,決定是否將多模態(tài)聲紋特征作為建模數(shù)據(jù)集;
24、將加權綜合置信度記作,將置信篩選閾值記作;
25、將≥的多模態(tài)聲紋特征篩選作為建模數(shù)據(jù)集,剔除<的多模態(tài)聲紋特征。
26、進一步的,構建混合深度學習模型,并輸入建模數(shù)據(jù)集進行聲紋建模,進而生成聲紋特征庫,設置聲紋特征庫的目標聲紋模板的過程包括:
27、選擇gru循環(huán)神經(jīng)網(wǎng)絡作為模型架構,通過lstm對gru循環(huán)神經(jīng)網(wǎng)絡進行架構補充,構建模型門控,進而構建初步的混合深度學習模型;
28、構建初步的混合深度學習模型對應的損失函數(shù),通過不同的損失函數(shù)對初步的混合深度學習模型進行模型訓練,直至模型評估指標符合預期后建立最終的混合深度學習模型;
29、輸入建模數(shù)據(jù)集至混合深度學習模型中,由混合深度學習模型分析建模數(shù)據(jù)集后,構建動物聲紋對應的數(shù)據(jù)層級以及數(shù)據(jù)索引,根據(jù)數(shù)據(jù)層級以及數(shù)據(jù)索引進行聲紋建模,進而構建用于存儲動物聲紋的聲紋特征庫;
30、針對已知物種聲紋,提取已知物種聲紋對應的所有聲紋嵌入向量的均值作為該已知物種的目標聲紋模板,統(tǒng)計已知物種對應目標聲紋模板的模板置信度,預設置信度閾值,若模板置信度低于置信度閾值,則重新構建相應已知物種的目標聲紋模板,否則,不進行任何操作。
31、進一步的,將需要識別的動物音頻聲紋錄入至聲紋特征庫,計算聲紋相似度,標記出符合目標聲紋模板的目標聲紋片段的過程包括:
32、選擇需要進行識別的動物音頻聲紋輸入至聲紋特征庫內(nèi),將需要識別的動物音頻聲紋與聲紋特征庫所關聯(lián)的每個目標聲紋模板,依次進行相似度計算,獲得每個目標聲紋模板對應的模板向量,獲得需要識別的動物音頻聲紋對應的聲紋向量;
33、根據(jù)模板向量以及聲紋向量,獲得當前識別的動物音頻聲紋與每個目標聲紋模板之間的余弦相似度,并作為聲紋相似度,對于每個目標聲紋模板,將聲紋相似度大于預設相似度閾值的部分動物音頻聲紋,標記為符合相應目標聲紋模板的目標聲紋片段,對聲紋相似度小于等于相似度閾值的部分動物音頻聲紋不作任何處理。
34、進一步的,判斷目標聲紋片段是否存在模糊片段區(qū)域,根據(jù)判斷結果決定是否進行上下文語義補全,輸出最終完整聲紋信息的識別結果的過程包括:
35、設置模糊判定指標;
36、模糊判定指標包括時域模糊指標、頻域模糊指標以及語義模糊指標;
37、若目標聲紋片段不符合時域模糊指標、頻域模糊指標或語義模糊指標中的至少任意一個,則判斷目標聲紋片段存在模糊片段區(qū)域,并決定對目標聲紋片段進行上下文語義補全,否則,判斷目標聲紋片段不存在模糊片段區(qū)域,不進行上下文語義補全;
38、當完成對目標聲紋片段對應模糊片段區(qū)域的上下文語義補全后,輸出目標聲紋片段的最終完整聲紋信息的識別結果。
39、進一步的,一種動物音頻聲紋識別的智能深度學習系統(tǒng),該系統(tǒng)包括:
40、動物音頻采集及預處理模塊,設置分布式采集終端,在目標區(qū)域內(nèi)的多個監(jiān)測節(jié)點處采集動物音頻,并將動物音頻處理為標準化音頻信息包,濾除標準化音頻信息包中的非目標聲源,提取目標聲源;
41、聲紋特征提取及置信度評估模塊,對目標聲源進行多模態(tài)特征提取,得到相應的多模態(tài)聲紋特征,對多模態(tài)聲紋特征進行置信度評估,獲取全部滿足置信篩選閾值的多模態(tài)聲紋特征作為建模數(shù)據(jù)集;
42、聲紋建模及目標聲紋匹配模塊,構建混合深度學習模型,并輸入建模數(shù)據(jù)集進行聲紋建模,進而生成聲紋特征庫,設置聲紋特征庫的目標聲紋模板,將需要識別的動物音頻聲紋錄入至聲紋特征庫,計算聲紋相似度,標記出符合目標聲紋模板的目標聲紋片段;
43、聲紋模糊判斷及修復模塊,判斷目標聲紋片段是否存在模糊片段區(qū)域,根據(jù)判斷結果決定是否進行上下文語義補全,輸出最終完整聲紋信息的識別結果。
44、與現(xiàn)有技術相比,本發(fā)明的有益效果是:通過分布式采集終端布置的多個監(jiān)測節(jié)點,實現(xiàn)了對目標區(qū)域內(nèi)動物音頻的大規(guī)模、實時采集,提高了數(shù)據(jù)采集的效率和覆蓋范圍,標準化音頻信息包的處理和目標聲源的提取,有效濾除了非目標聲源,減少了后續(xù)處理的噪聲干擾,提高了聲紋識別的準確性;采用多模態(tài)特征提取技術,能夠全面捕捉動物聲紋的時域、頻域以及語義方面的多個模態(tài)的特征,豐富了聲紋信息的維度,提高了聲紋特征的表征能力;置信度評估的方式,確保了建模數(shù)據(jù)集的質(zhì)量,只有滿足置信篩選閾值的聲紋特征才會被用于建模,從而提高了聲紋模型的泛化能力和識別準確率;構建的混合深度學習模型能夠更有效地學習和表征復雜的聲紋特征,生成的聲紋特征庫具有較高的識別率和魯棒性。