本發(fā)明涉及藍牙耳機,具體為一種基于藍牙耳機的控制系統(tǒng)及方法。
背景技術(shù):
1、近年來,藍牙耳機作為智能穿戴設(shè)備的重要組成部分,已經(jīng)廣泛應(yīng)用于語音通話、音樂播放、實時翻譯等場景。隨著技術(shù)的進步和消費者需求的變化,藍牙耳機的功能和性能也在不斷提升,現(xiàn)代藍牙耳機越來越多地集成了智能功能,如語音助手、健康監(jiān)測、手勢控制等。
2、例如,當(dāng)前主流藍牙耳機語音交互控制系統(tǒng)需依賴固定喚醒詞激活設(shè)備;這種設(shè)計導(dǎo)致用戶需頻繁重復(fù)喚醒詞,交互流程冗長,且在多人對話場景中易因誤觸發(fā)引發(fā)隱私泄漏風(fēng)險;此外,喚醒詞機制限制了語音指令的自然性,難以實現(xiàn)無縫的多輪對話;傳統(tǒng)系統(tǒng)側(cè)重于語音轉(zhuǎn)文本(asr)與簡單指令識別,缺乏對語音信號中語調(diào)、節(jié)奏等副語言信息的解析能力;例如,現(xiàn)有技術(shù)無法區(qū)分疑問句與陳述句的語調(diào)差異,導(dǎo)致意圖識別錯誤率高;同時,設(shè)備未能有效整合環(huán)境噪聲、用戶位置、設(shè)備狀態(tài)等上下文信息,難以實現(xiàn)情景自適應(yīng)交互。
技術(shù)實現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于藍牙耳機的控制系統(tǒng)及方法,以至于解決現(xiàn)有技術(shù)中需依賴固定喚醒詞激活設(shè)備,同時由于喚醒詞機制限制了語音指令的自然性,難以實現(xiàn)無縫的多輪對話,且缺乏對語音信號中語調(diào)、節(jié)奏等副語言信息的解析能力的問題。
3、(二)技術(shù)方案
4、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):
5、一種基于藍牙耳機的控制系統(tǒng),包括:
6、語音監(jiān)測模塊,通過藍牙耳機持續(xù)監(jiān)聽環(huán)境中聲音,對音頻信號進行獲取并處理,利用語音活動監(jiān)測技術(shù)進行語音對話判斷;
7、語義理解模塊,獲取環(huán)境中聲音,利用語音數(shù)據(jù)處理技術(shù),提取語音數(shù)據(jù);利用內(nèi)嵌式輕量化模型,對處理后的語音數(shù)據(jù)進行語義理解和解構(gòu),并拆分生成重音感知數(shù)據(jù)和情景感知數(shù)據(jù),分別計算重音評估值和環(huán)境復(fù)雜度,并將重音感知數(shù)據(jù)和情景感知數(shù)據(jù)輸出;
8、喚醒模塊,將重音評估值和環(huán)境復(fù)雜度分別同預(yù)設(shè)的重音評估值閾值和環(huán)境復(fù)雜度閾值進行對比,在未滿足直接喚醒的條件下,計算喚醒指數(shù),判斷是否進行喚醒。
9、進一步地,對音頻信號進行獲取并處理,包括:
10、采用多核處理器,將語音檢測任務(wù)分配給低功耗核心,主核心在待機狀態(tài)下保持休眠,利用藍牙耳機中集成輕量級的vad算法,持續(xù)檢測環(huán)境中是否有語音,通過分析音頻信號的特性,判斷當(dāng)前幀中是否包含語音;
11、將連續(xù)的音頻信號分割成短時幀;對每幀信號加窗,利用短時能量,提取語音和非語音的區(qū)分特征,并對連續(xù)多幀的短時幀進行平滑處理。
12、進一步的,語音對話判斷為:
13、通過對連續(xù)三幀的短時幀進行判斷:
14、當(dāng)連續(xù)三幀的短時幀均被判斷為語音時,則判定為語音對話;
15、當(dāng)連續(xù)三幀的短時幀中任一幀被判斷為非語音時,則判定為噪音,并持續(xù)監(jiān)聽。
16、進一步的,語音數(shù)據(jù)提取:
17、調(diào)用低功耗核心,對環(huán)境中聲音進行處理,將音頻信號分割成連續(xù)幀,并通過疊加計算連續(xù)幀中頻譜和噪聲頻譜,對噪聲頻譜進行估計,獲取噪聲頻譜估計值,得到降噪后的語音頻譜,并減去噪聲頻譜估計值。
18、進一步的,語音數(shù)據(jù)處理:
19、通過短時傅里葉變換,將降噪后的語音頻譜中的時域信號轉(zhuǎn)換為頻域表示,得到各時間幀上的復(fù)數(shù)頻譜,利用噪聲頻譜估計值,對當(dāng)前幀的噪聲頻譜進行調(diào)整,在噪聲頻譜平穩(wěn)的條件下,實時更新噪聲頻譜,并通過預(yù)加載進行信號預(yù)處理,提升語音信號的高頻部分,從而補償由于聲道衰減導(dǎo)致的高頻損失,通過對輸入信號應(yīng)用高通濾波器,利用傳遞函數(shù)建立關(guān)系表達。
20、進一步的,語義理解和解構(gòu):
21、從語音數(shù)據(jù)中提取mfcc特征,將mfcc特征轉(zhuǎn)換為適合mobilebert輸入的格式,通過輕量化模型理解語音的語義內(nèi)容,利用mobilebert模型對轉(zhuǎn)換后的特征進行語義理解,生成用戶意圖和關(guān)鍵詞的語義標(biāo)簽,將語義數(shù)據(jù)拆分為重音感知數(shù)據(jù)和情景感知數(shù)據(jù),利用輕量級的bert模型,通過輸入經(jīng)過嵌入層和位置編碼的mfcc特征序列,輸出語義標(biāo)簽,將logits輸入到一個全連接層,輸出意圖類別,使用序列標(biāo)注模型從logits中提取關(guān)鍵詞,使用分類頭從mobilebert的輸出中提取用戶意圖和關(guān)鍵詞。
22、進一步的,重音感知:
23、將處理后的語音數(shù)據(jù),進行語調(diào)分析和節(jié)奏分析,得到重音感知數(shù)據(jù);同時基于處理后的語音數(shù)據(jù),計算基頻的均值和基頻的方差,判斷語調(diào)的高低和變化,利用基頻曲線分析語調(diào)的上升、下降和平穩(wěn)趨勢,并提取語音的語調(diào)信息,進行語調(diào)分析;同時通過短時能量和過零率提取語音的節(jié)奏信息,計算短時能量變化,判斷語音的強弱節(jié)奏,及分析過零率變化;
24、語調(diào)分析:
25、有n個時間幀的基頻值,記為,公式為:
26、
27、式中,為所有時間幀基頻值的平均值;n為總的基頻值的數(shù)量;i為當(dāng)前時間幀;為在第i個時間幀上的基頻值;
28、基頻的方差計算:
29、獲取所有時間幀基頻值的平均值,公式為:
30、
31、式中,為基頻值的方差;為每個時間幀的基頻值與基頻均值之間的差值;
32、通過獲取基頻的均值和基頻的方差,計算重音評估值,公式為:
33、
34、式中,為重音評估值;為短時能量值;為當(dāng)前語調(diào)模式權(quán)重;為當(dāng)前諧波均值權(quán)重;為傳遞函數(shù)值。
35、進一步的,所述情景感知,包括:
36、通過語音數(shù)據(jù)中拆分的語義內(nèi)容和上下文信息,其中語義內(nèi)容包括時間、地點和人物;上下文信息包括:用戶意圖;通過用戶意圖,得到情景感知數(shù)據(jù),從而獲得情景感知數(shù)據(jù);
37、計算環(huán)境復(fù)雜度;
38、通過獲取分貝值、當(dāng)前環(huán)境的平均分貝值,以及語音信號的短時能量方差,并結(jié)合檢測到的說話者數(shù)量,k1、k2和k3分別為對應(yīng)于分貝值、短時能量方差和說話者數(shù)量的權(quán)重系數(shù)影響,公式為:
39、
40、式中,為環(huán)境復(fù)雜度指數(shù);為短時能量方差的閾值;為自然對數(shù)的底數(shù);為自然對數(shù);為分貝值對復(fù)雜度的影響權(quán)重;為音頻波動方差,該指數(shù)項增大,從而使整個分數(shù)部分減小;為識別到的說話者數(shù)量。
41、進一步的,環(huán)境復(fù)雜度獲取,分別同預(yù)設(shè)的重音評估值閾值和環(huán)境復(fù)雜度閾值進行對比,在未滿足直接喚醒條件下,計算喚醒指數(shù),判斷是否進行喚醒,包括:
42、判斷是否進行直接喚醒:
43、通過獲取環(huán)境復(fù)雜度指數(shù)和重音評估值,并分別同預(yù)設(shè)的重音評估值的70%作為重音評估閾值和預(yù)設(shè)環(huán)境復(fù)雜度的45%作為環(huán)境復(fù)雜度閾值進行對比判斷,判斷為:
44、當(dāng)重音評估值大于等于預(yù)設(shè)的重音評估值的70%時,且環(huán)境復(fù)雜度小于等于預(yù)設(shè)環(huán)境復(fù)雜度的45%時,直接喚醒主核心,進行藍牙耳機語音接收,及語音指令識別;
45、當(dāng)重音評估值小于預(yù)設(shè)的重音評估值的70%時,或環(huán)境復(fù)雜度大于預(yù)設(shè)環(huán)境復(fù)雜度的45%時,計算喚醒指數(shù),并對喚醒指數(shù)進行判斷,判斷是否喚醒主核心;
46、喚醒指數(shù)進行判斷:
47、通過獲取重音評估值和環(huán)境復(fù)雜度,計算喚醒指數(shù),公式為:
48、
49、式中,為喚醒指數(shù);r為調(diào)節(jié)系數(shù);是環(huán)境復(fù)雜度的閾值;e為自然對數(shù)的底數(shù);為自然對數(shù);為重音評估值對喚醒指數(shù)的影響權(quán)重;為環(huán)境復(fù)雜度對喚醒指數(shù)的影響權(quán)重;g為設(shè)置的基礎(chǔ)喚醒常數(shù)值偏置項;
50、通過獲取用戶設(shè)置的靈敏度閾值,同計算獲得的喚醒指數(shù)進行對比判斷,判斷過程:
51、當(dāng)喚醒指數(shù)大于靈敏度閾值時,對主核心進行喚醒;
52、當(dāng)喚醒指數(shù)小于等于靈敏度閾值時,保持主核心待機休眠。
53、一種基于藍牙耳機的控制方法,包括如下步驟:
54、步驟一:通過藍牙耳機持續(xù)監(jiān)聽環(huán)境中聲音,對音頻信號進行獲取并處理,利用語音活動檢測技術(shù)進行語音對話判斷;
55、步驟二:獲取環(huán)境中聲音,利用語音數(shù)據(jù)處理技術(shù),提取語音數(shù)據(jù);利用內(nèi)嵌式輕量化模型,對處理后的語音數(shù)據(jù)進行語義理解和解構(gòu),并拆分生成重音感知數(shù)據(jù)和情景感知數(shù)據(jù),分別計算重音評估值和環(huán)境復(fù)雜度,并將重音感知數(shù)據(jù)和情景感知數(shù)據(jù)輸出;
56、步驟三:用于獲取重音評估值和環(huán)境復(fù)雜度,分別同預(yù)設(shè)的重音評估值閾值和環(huán)境復(fù)雜度閾值進行對比,在未滿足直接喚醒條件下,計算喚醒指數(shù),判斷是否進行喚醒。
57、(三)有益效果
58、本發(fā)明提供了一種基于藍牙耳機的控制系統(tǒng)及方法,具備以下有益效果:
59、(1)本方案中用戶無需重復(fù)喚醒詞,直接通過自然語音指令與設(shè)備交互,提升用戶體驗;減少誤觸發(fā)和隱私泄漏風(fēng)險,尤其在多人對話場景中,判斷環(huán)境是否可以進行語音交互;并支持多輪對話和上下文關(guān)聯(lián),使交互更加流暢和智能化;
60、(2)本方案通過低功耗語音活動檢測(vad)模塊和輕量化模型,顯著降低設(shè)備功耗,分階段處理機制(如僅在檢測到有效語音時喚醒主處理器),延長藍牙耳機的續(xù)航時間,在保證實時性的同時,優(yōu)化能耗管理,適合長時間佩戴使用;
61、(3)本方案實時優(yōu)化語音識別和交互策略,增強系統(tǒng)魯棒性,使用輕量化模型在資源受限的藍牙耳機上實現(xiàn)高效計算實時處理和低延遲響應(yīng),滿足用戶對即時交互的需求。