一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)與流程

文檔序號：42022109發(fā)布日期：2025-05-30 17:05閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及語音識別，尤其涉及一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)。

背景技術(shù)：

1、在智能汽車的發(fā)展中，語音交互技術(shù)已經(jīng)越來越多的應(yīng)用到了智能駕艙中。語音交互技術(shù)可以在用戶說出特定關(guān)鍵詞后，喚醒車機(jī)交互系統(tǒng)，通過語音指令控制車機(jī)系統(tǒng)和車輛的狀態(tài)，可以通過語音指令完成打開車窗、播放音樂、打開地圖導(dǎo)航等多樣化操作。

2、傳統(tǒng)的語音交互技術(shù)大多采用固定的關(guān)鍵詞進(jìn)行喚醒系統(tǒng)操作，需要用戶迎合系統(tǒng)記憶預(yù)先設(shè)置好的關(guān)鍵詞來進(jìn)行語音交互，不僅增加了用戶的學(xué)習(xí)成本，還減少了用戶個(gè)性化、智能化的駕艙體驗(yàn)。隨著語音喚醒技術(shù)日漸成熟，用戶自定義關(guān)鍵詞的需求逐漸增多，當(dāng)前的語音喚醒方法大多數(shù)是單一的對解碼網(wǎng)絡(luò)做優(yōu)化或者對關(guān)鍵詞做簡單的融合，當(dāng)用戶自定義的關(guān)鍵詞中存在歧義詞時(shí)無法進(jìn)行準(zhǔn)確的檢出，同時(shí)無法保證語音喚醒的喚醒率，帶來不好的用戶體驗(yàn)。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述問題，本公開提供了一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)。本方法能夠基于自定義關(guān)鍵詞通過語音喚醒系統(tǒng)，解決了用戶需要迎合系統(tǒng)記憶預(yù)先設(shè)置好的關(guān)鍵詞來進(jìn)行語音交互的問題。

2、根據(jù)本公開的第一方面，本公開提供了一種語音喚醒方法，包括：

3、接收用戶的語音信息；

4、將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征；其中，所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊；

5、將所述融合表征輸入到解碼器，輸出每一幀建模單元的后驗(yàn)概率；

6、基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果；其中，所述解碼圖包括由預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列；

7、如果所述解碼結(jié)果為解碼到終點(diǎn)，則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較，當(dāng)所述終點(diǎn)分?jǐn)?shù)大于所述預(yù)設(shè)分?jǐn)?shù)閾值時(shí)，觸發(fā)喚醒系統(tǒng)。

8、作為本公開實(shí)施例一種可選的實(shí)施方式，所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果之前，還包括：

9、接收用戶輸入的預(yù)定義關(guān)鍵詞；

10、評估所述預(yù)定義關(guān)鍵詞是否符合預(yù)設(shè)關(guān)鍵詞條件，得到評估結(jié)果；其中，所述預(yù)設(shè)關(guān)鍵詞條件包括預(yù)設(shè)語言特征、預(yù)設(shè)聲學(xué)特征；

11、如果所述評估結(jié)果為所述預(yù)定義關(guān)鍵詞符合所述預(yù)設(shè)關(guān)鍵詞條件，則將所述預(yù)定義關(guān)鍵詞轉(zhuǎn)換為建模單元序列；

12、基于所述建模單元序列，通過構(gòu)圖程序算法構(gòu)建得到所述解碼圖。

13、作為本公開實(shí)施例一種可選的實(shí)施方式，所述關(guān)鍵詞增強(qiáng)模塊包括注意力模塊和映射模塊，所述將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征，包括：

14、提取所述語音信息中的聲學(xué)特征，將所述聲學(xué)特征輸入到聲學(xué)編碼器中得到聲學(xué)表征；

15、將所述聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到注意力模塊得到注意力表征；其中，所述注意力模塊包括注意力機(jī)制算法；

16、將所述注意力表征與所述聲學(xué)表征拼接輸入到映射模塊中進(jìn)行融合處理，得到融合表征；其中，所述映射模塊包括多維度尺度變換算法。

17、作為本公開實(shí)施例一種可選的實(shí)施方式，所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果，包括：

18、將所述每一幀建模單元的后驗(yàn)概率與預(yù)設(shè)概率閾值進(jìn)行判斷，當(dāng)首幀建模單元的后驗(yàn)概率大于所述預(yù)設(shè)概率閾值時(shí)，啟動(dòng)所述解碼器接收所述每一幀建模單元的后驗(yàn)概率，并基于解碼圖進(jìn)行解碼，得到解碼結(jié)果。

19、作為本公開實(shí)施例一種可選的實(shí)施方式，所述解碼結(jié)果還包括預(yù)設(shè)時(shí)間內(nèi)未解碼到終點(diǎn)，所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果之后，還包括：

20、當(dāng)所述解碼結(jié)果為所述預(yù)設(shè)時(shí)間內(nèi)未解碼到終點(diǎn)時(shí)和所述解碼結(jié)果為解碼到終點(diǎn)時(shí)，停止所述解碼處理。

21、作為本公開實(shí)施例一種可選的實(shí)施方式，所述將所述每一幀建模單元的后驗(yàn)概率與預(yù)設(shè)概率閾值進(jìn)行判斷之后，還包括：

22、當(dāng)所述每一幀建模單元的后驗(yàn)概率都小于所述預(yù)設(shè)概率閾值時(shí)/或終點(diǎn)分?jǐn)?shù)小于預(yù)設(shè)分?jǐn)?shù)閾值，則將所述建模單元得到的預(yù)定義關(guān)鍵詞表征對應(yīng)到空白建模單元中。

23、作為本公開實(shí)施例一種可選的實(shí)施方式，所述預(yù)定義關(guān)鍵詞包括文本預(yù)定義關(guān)鍵詞和音頻預(yù)定義關(guān)鍵詞，所述如果所述解碼結(jié)果為解碼到終點(diǎn)，則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較之前，還包括：

24、若所述預(yù)定義關(guān)鍵詞為所述音頻預(yù)定義關(guān)鍵詞，則將所述音頻預(yù)定義關(guān)鍵詞轉(zhuǎn)換為聲學(xué)建模單元序列構(gòu)建聲學(xué)解碼圖，并基于所述聲學(xué)解碼圖對所述每一幀聲學(xué)建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到音頻終點(diǎn)分?jǐn)?shù)；

25、根據(jù)所述音頻終點(diǎn)分?jǐn)?shù)，進(jìn)行預(yù)設(shè)系數(shù)加權(quán)處理，得到預(yù)設(shè)分?jǐn)?shù)閾值；其中，所述預(yù)設(shè)系數(shù)為小于1的數(shù)值。

26、作為本公開實(shí)施例一種可選的實(shí)施方式，根據(jù)所述音頻終點(diǎn)分?jǐn)?shù)，進(jìn)行預(yù)設(shè)系數(shù)加權(quán)處理，得到預(yù)設(shè)分?jǐn)?shù)閾值之后，還包括：

27、更新所述預(yù)設(shè)分?jǐn)?shù)閾值；其中，所述更新所述預(yù)設(shè)分?jǐn)?shù)閾值包括：根據(jù)閾值訓(xùn)練模型，對所述預(yù)設(shè)分?jǐn)?shù)閾值和所述解碼圖的權(quán)重進(jìn)行更新，所述閾值訓(xùn)練模型包括根據(jù)用戶語音信息對關(guān)鍵詞識別通過率以及誤喚醒率的訓(xùn)練。

28、根據(jù)本公開的第二方面，本公開提供了一種語音喚醒裝置，包括：

29、第一接收模塊，用于接收用戶的語音信息；

30、關(guān)鍵詞增強(qiáng)模塊，用于將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征；其中，所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊；

31、后驗(yàn)?zāi)K，用于將所述融合表征輸入到解碼器，輸出每一幀建模單元的后驗(yàn)概率；

32、解碼模塊，用于基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果；其中，所述解碼圖包括由預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列；

33、處理模塊，用于所述解碼結(jié)果為解碼到終點(diǎn)時(shí)，將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較，當(dāng)所述終點(diǎn)分?jǐn)?shù)大于所述預(yù)設(shè)分?jǐn)?shù)閾值時(shí)，觸發(fā)喚醒系統(tǒng)。

34、作為本公開實(shí)施例一種可選的實(shí)施方式，所述裝置還包括：

35、第二接收模塊，用于接收用戶輸入的預(yù)定義關(guān)鍵詞；

36、評估模塊，用于評估所述預(yù)定義關(guān)鍵詞是否符合預(yù)設(shè)關(guān)鍵詞條件，得到評估結(jié)果；其中，所述預(yù)設(shè)關(guān)鍵詞條件包括預(yù)設(shè)語言特征、預(yù)設(shè)聲學(xué)特征；

37、轉(zhuǎn)換模塊，用于所述評估結(jié)果為所述預(yù)定義關(guān)鍵詞符合所述預(yù)設(shè)關(guān)鍵詞條件時(shí)，將所述預(yù)定義關(guān)鍵詞轉(zhuǎn)換為建模單元序列；

38、構(gòu)建模塊，用于基于所述建模單元序列，通過構(gòu)圖程序算法構(gòu)建得到所述解碼圖。

39、根據(jù)本公開的第三方面，本公開提供一種計(jì)算機(jī)可讀存儲介質(zhì)，其上存儲有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。

40、根據(jù)本公開的第四方面，本公開提供一種電子設(shè)備，包括：

41、至少一個(gè)處理器；以及，

42、與所述至少一個(gè)處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠?qū)崿F(xiàn)如第一方面中任一種實(shí)施方式所述的語音喚醒方法的步驟。

43、根據(jù)本公開的第五方面，本公開提供一種車輛，包括：如上述第二方面中任一種實(shí)施方式所述的語音喚醒裝置。

44、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)：本公開提供了一種語音喚醒方法，該方法包括：接收用戶的語音信息；將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征，其中所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊；將所述融合表征輸入到解碼器，輸出每一幀建模單元的后驗(yàn)概率；基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理，得到解碼結(jié)果；若所述解碼結(jié)果為解碼到終點(diǎn),則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較，當(dāng)所述終點(diǎn)分?jǐn)?shù)大于預(yù)設(shè)分?jǐn)?shù)閾值時(shí)，則觸發(fā)喚醒系統(tǒng)。傳統(tǒng)的語音喚醒方法只能在用戶說出預(yù)先設(shè)置好的關(guān)鍵詞，才進(jìn)行解碼處理和比較解碼結(jié)果來觸發(fā)喚醒系統(tǒng)，現(xiàn)有得語音喚醒技術(shù)也僅是單一的做了解碼優(yōu)化或者關(guān)鍵詞優(yōu)化，并沒有將關(guān)鍵詞增強(qiáng)與專門的解碼圖結(jié)合做語音喚醒處理，本公開通過設(shè)置關(guān)鍵詞增強(qiáng)模塊，對關(guān)鍵詞進(jìn)行增強(qiáng)處理，加強(qiáng)了建模效果，其次通過預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列構(gòu)建的解碼圖做解碼處理，通過解碼結(jié)果中解碼到終點(diǎn)的終點(diǎn)分?jǐn)?shù)做比較才能觸發(fā)語音喚醒系統(tǒng)，提高了基于用戶自定義關(guān)鍵詞喚醒的能力，提高了喚醒率，通過設(shè)定喚醒條件使關(guān)鍵詞可以準(zhǔn)確的檢出，在進(jìn)行語音交互的時(shí)候可以乘客擁有良好的用戶體驗(yàn)。

45、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張奧,鄒勇,周盼,陳偉
技術(shù)所有人：北京羅克維爾斯科技有限公司
我是此專利的發(fā)明人

上一篇：一種抗裂保溫砂漿分裝設(shè)備的制作方法
下一篇：一種食品包裝機(jī)用薄膜熱壓裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)與流程

一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)與流程