日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于改進(jìn)深度學(xué)習(xí)聲紋識別的方法

文檔序號:42041058發(fā)布日期:2025-05-30 17:39閱讀:17來源:國知局

本發(fā)明屬于聲紋識別,涉及一種糾錯檢錯及自適應(yīng)技術(shù),具體為一種基于改進(jìn)聲紋識別模型的流程方法。


背景技術(shù):

1、聲紋識別技術(shù)是一種基于語音識別和語言模型的技術(shù),它能夠識別個人的聲音特征,并把它與個人的身份信息聯(lián)系起來。它在多個領(lǐng)域有著很有效的應(yīng)用價值,比如說個人身份驗證、語音助手、醫(yī)療技術(shù)和警用安全監(jiān)控。語音信號是一種包含豐富的生理和行為特征的信息體,其中的生理和行為特征可以用來辨別個人獨特的聲音。生物特征包括個體的聲帶結(jié)構(gòu)、大小、形態(tài)、年齡和性格,這些都是影響一個人語言能力的重要因素;行為特征可能會受到語言、文化、社會背景、個人經(jīng)驗、個人喜好和個人情感的影響。這些特征綜合在一起,反映在語音信號中使得每個人的聲音都有著獨特的個性特點。影響聲音識別的因素多種多樣。目前,在涉及身體特征(如年齡差異)的語音識別方面,仍然難以準(zhǔn)確、靈活地識別不同人的聲音信息。因此,可以在聲音庫中進(jìn)行比對,分析聲紋是否受到年齡變化的影響,并針對該因素進(jìn)行相應(yīng)處理是至關(guān)重要的。

2、人的聲音同時也有著復(fù)雜的產(chǎn)生過程。首先是將來自肺呼出的氣體,通過喉腔的控制和聲帶的震動,從而產(chǎn)生人的基音,再受到口、鼻、咽、氣管等器官的共同作用產(chǎn)生聲音的變化,才成為人們所聽到的聲音。所以,聲紋識別構(gòu)成條件足夠復(fù)雜、獲取途徑方便、采集數(shù)據(jù)設(shè)備成本低,只需要有麥克風(fēng)等語音采集設(shè)備就可以錄入數(shù)據(jù)。聲音的識別技術(shù)目前已經(jīng)比較成熟,比如常用的模塊匹配法、最近鄰方法、神經(jīng)元網(wǎng)絡(luò)方法、vq聚類法等。但如果追求更加高效快捷識別,仍然需要提升聲紋識別的速度,在這一方面,目前還沒有非常成熟的學(xué)術(shù)研究概括,因而,本技術(shù)擬尋找一種能夠提升聲音識別速度的方案,通過使用優(yōu)先級排列的方法,使得經(jīng)常頻繁使用的音頻用戶,能夠比以往更快地被識別,從而可以提高聲紋識別的相關(guān)效率和準(zhǔn)確率。

3、因此,本技術(shù)針對于聲紋的識別方法流程進(jìn)行相關(guān)改進(jìn),提出了一種基于深度學(xué)習(xí)的聲紋識別方法,能夠更好更有效地提高聲紋識別的準(zhǔn)確度,從而使聲紋識別技術(shù)在人們?nèi)粘I钪斜桓玫貞?yīng)用。


技術(shù)實現(xiàn)思路

1、針對上述問題,本發(fā)明提供了一種基于改進(jìn)深度學(xué)習(xí)聲紋識別的方法,將通過采用優(yōu)先級隊列以及后端校正的方法提高聲紋識別的準(zhǔn)確性。

2、本發(fā)明采用的技術(shù)方案如下:

3、一種基于改進(jìn)深度學(xué)習(xí)聲紋識別的方法,包括以下步驟:

4、s1、數(shù)據(jù)收集及預(yù)處理:收集語音信號,對語音信號進(jìn)行預(yù)加重、語音分幀、短幀語音加窗、靜音檢測;并劃分成訓(xùn)練集、驗證集和測試集;

5、s2、構(gòu)建模型:基于tdnn神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的x-vector系統(tǒng),并將經(jīng)過預(yù)處理的語音信號輸入模型進(jìn)行訓(xùn)練;

6、s3、聲紋識別:輸入一段測試音頻,進(jìn)行聲紋識別,使用大頂堆形式的優(yōu)先級隊列存儲預(yù)存語音樣本,堆中的每個節(jié)點表示一個語音樣本,其優(yōu)先級由該樣本與測試語音的相似度決定,相似度越高,優(yōu)先級越高,節(jié)點越靠近堆頂;相似度越低,優(yōu)先級越低,節(jié)點越靠近堆底,測試語音首先與堆頂語音比對,之后按順序依次向下比對,直到找到最佳匹配或滿足停止條件,在比對過程中,如果發(fā)現(xiàn)新的樣本與測試語音的相似度更高,則需要更新堆結(jié)構(gòu),重新調(diào)整優(yōu)先級,使用向下調(diào)整算法維護(hù)堆的性質(zhì);

7、s4、若聲紋識別失敗,則對失敗原因進(jìn)行檢測,并將失敗原因告知用戶;

8、s5、若聲紋識別成功,則使用svc分類器進(jìn)行年齡檢測,若檢測年齡與記錄年齡的差異在±3歲內(nèi),則視為檢測成功,若檢測年齡與記錄年齡的差異超過±3歲,則視為檢測失??;

9、s6、聲紋識別結(jié)果評價:若年齡檢測成功,將新樣本與歷史樣本比對,若新樣本與歷史樣本平均相似度介于75%到80%之間,則將新樣本特征與歷史樣本特征按權(quán)重加權(quán)平均,得到新的聲音樣本,若平均相似度低于75%,則提醒用戶進(jìn)行重新錄入,替換原歷史樣本,若相似度高于80%,則保持歷史樣本不變。

10、進(jìn)一步,所述步驟s2具體包括以下步驟:

11、s21、輸入特征:輸入為幀級別的聲學(xué)特征,取20-30ms的語音幀,步長10ms,特征維度為40-60維,包含一階、二階差分;

12、s22、提取動態(tài)特征:tdnn通過局部時間上下文窗口捕捉語音的動態(tài)特征;

13、s23、計算全局特征:將變長的幀級別特征轉(zhuǎn)換為固定維度的說話人特征;對tdnn輸出的所有幀計算均值和標(biāo)準(zhǔn)差,拼接后作為全局特征;

14、s24、降維處理:池化后的特征經(jīng)過多個全連接層,逐步降維,最后一層輸出為x-vector,作為說話人的嵌入向量;

15、s25、訓(xùn)練與推理:訓(xùn)練時,在x-vector后接一個softmax分類層,預(yù)測說話人id,推理時,丟棄分類層,直接使用x-vector進(jìn)行相似度計算。

16、進(jìn)一步,所述步驟s3具體包括以下步驟:

17、s31、計算待測語音與語音庫中預(yù)存語音的相似度

18、利用以下公式進(jìn)行響度歸一化:

19、

20、y′=g·y

21、其中,g是增益因子,y是原始音頻信號,lufs(y)是音頻信號的綜合響度,以lufs為單位,ltarget是目標(biāo)響度水平,y'是歸一化后的音頻信號;

22、利用以下公式進(jìn)行梅爾歸一化

23、

24、其中,m′t,f是歸一化后的梅爾頻譜,mt,f是原始的梅爾頻譜,mmin是梅爾頻譜的最小值,mmax是梅爾頻譜的最大值;

25、利用以下公式計算相似度

26、combined_similarity=ω1×similarity1+ω2×similarity2+...+ωn×similarityn

27、其中:wi是第i種相似度度量的權(quán)重,similarityi是第i種相似度度量的結(jié)果,combined_similarity為相似度的最終結(jié)果;

28、s32、使用大頂堆來管理預(yù)存語音的優(yōu)先級

29、s321、特征提?。簭念A(yù)存語音和測試音頻中提取特征向量;

30、s322、構(gòu)建大頂堆:初始化一個大頂堆,包含所有預(yù)存語音及其初始相似度得分;

31、s323、計算相似度并更新堆:計算每個預(yù)存語音與測試音頻的相似度,并根據(jù)相似度更新堆;

32、s324、進(jìn)行比對:依次從堆頂取出節(jié)點進(jìn)行比對,直到找到匹配的說話者或遍歷完所有節(jié)點。

33、進(jìn)一步,所述步驟s4包括噪聲檢測、分貝檢測和靜音檢測。

34、進(jìn)一步,步驟s6所述將新樣本特征與歷史樣本特征按權(quán)重加權(quán)平均,得到新的聲音樣本,具體的加權(quán)公式如下:

35、

36、ωhist=1-ωnew

37、updated_features=ωnew·new_features+ωhist·hist_features

38、其中,ωnew為新樣本權(quán)重,ωhist為歷史樣本權(quán)重,match_probaility為新樣本與歷史樣本平均相似度,new_features是新樣本提取的特征,hist_features是歷史樣本的特征。

39、有益效果:

40、1、本發(fā)明對于聲紋識別進(jìn)行改進(jìn),引入了優(yōu)先級隊列的數(shù)據(jù)排列方法,使得速度增快,對用戶語音進(jìn)行識別,提高了聲音識別的準(zhǔn)確度,加大了聲紋的可辨識度。

41、2、本發(fā)明對于聲音識別進(jìn)行檢測,如若聲音識別失敗,該模型可以精確地指出用戶對于聲音的錄入在哪些方面需要改進(jìn),如聲音有時候會被外界改變,因而該模型可以規(guī)避外界原因錯誤,從而提高識別的聲音匹配度。

42、3、本發(fā)明對于聲紋識別的后端可以進(jìn)行一定的糾正,聲紋識別成功后進(jìn)行糾正,在錄入時要填寫年齡,采用年齡的輔助標(biāo)準(zhǔn),來反饋聲紋識別的成功與否,其模型提高了聲紋識別的保險性,使得聲紋識別的安全性更加被保障。

43、4、本發(fā)明對于聲紋識別進(jìn)行自適應(yīng),考慮到年齡對應(yīng)的聲音會隨之改變,在該模型中,聲音不是一成不變,是具有更新能力的,系統(tǒng)能對聲音變化進(jìn)行更新,從而提高了聲音的可變化性,使得聲音能夠更持久地被利用,從而提高用戶的體驗感。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1