本公開涉及語音識別,尤其涉及一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、在智能汽車的發(fā)展中,語音交互技術(shù)已經(jīng)越來越多的應(yīng)用到了智能駕艙中。語音交互技術(shù)可以在用戶說出特定關(guān)鍵詞后,喚醒車機(jī)交互系統(tǒng),通過語音指令控制車機(jī)系統(tǒng)和車輛的狀態(tài),可以通過語音指令完成打開車窗、播放音樂、打開地圖導(dǎo)航等多樣化操作。
2、傳統(tǒng)的語音交互技術(shù)大多采用固定的關(guān)鍵詞進(jìn)行喚醒系統(tǒng)操作,需要用戶迎合系統(tǒng)記憶預(yù)先設(shè)置好的關(guān)鍵詞來進(jìn)行語音交互,不僅增加了用戶的學(xué)習(xí)成本,還減少了用戶個(gè)性化、智能化的駕艙體驗(yàn)。隨著語音喚醒技術(shù)日漸成熟,用戶自定義關(guān)鍵詞的需求逐漸增多,當(dāng)前的語音喚醒方法大多數(shù)是單一的對解碼網(wǎng)絡(luò)做優(yōu)化或者對關(guān)鍵詞做簡單的融合,當(dāng)用戶自定義的關(guān)鍵詞中存在歧義詞時(shí)無法進(jìn)行準(zhǔn)確的檢出,同時(shí)無法保證語音喚醒的喚醒率,帶來不好的用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本公開提供了一種語音喚醒方法、裝置、車輛、設(shè)備以及存儲介質(zhì)。本方法能夠基于自定義關(guān)鍵詞通過語音喚醒系統(tǒng),解決了用戶需要迎合系統(tǒng)記憶預(yù)先設(shè)置好的關(guān)鍵詞來進(jìn)行語音交互的問題。
2、根據(jù)本公開的第一方面,本公開提供了一種語音喚醒方法,包括:
3、接收用戶的語音信息;
4、將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征;其中,所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊;
5、將所述融合表征輸入到解碼器,輸出每一幀建模單元的后驗(yàn)概率;
6、基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果;其中,所述解碼圖包括由預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列;
7、如果所述解碼結(jié)果為解碼到終點(diǎn),則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較,當(dāng)所述終點(diǎn)分?jǐn)?shù)大于所述預(yù)設(shè)分?jǐn)?shù)閾值時(shí),觸發(fā)喚醒系統(tǒng)。
8、作為本公開實(shí)施例一種可選的實(shí)施方式,所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果之前,還包括:
9、接收用戶輸入的預(yù)定義關(guān)鍵詞;
10、評估所述預(yù)定義關(guān)鍵詞是否符合預(yù)設(shè)關(guān)鍵詞條件,得到評估結(jié)果;其中,所述預(yù)設(shè)關(guān)鍵詞條件包括預(yù)設(shè)語言特征、預(yù)設(shè)聲學(xué)特征;
11、如果所述評估結(jié)果為所述預(yù)定義關(guān)鍵詞符合所述預(yù)設(shè)關(guān)鍵詞條件,則將所述預(yù)定義關(guān)鍵詞轉(zhuǎn)換為建模單元序列;
12、基于所述建模單元序列,通過構(gòu)圖程序算法構(gòu)建得到所述解碼圖。
13、作為本公開實(shí)施例一種可選的實(shí)施方式,所述關(guān)鍵詞增強(qiáng)模塊包括注意力模塊和映射模塊,所述將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征,包括:
14、提取所述語音信息中的聲學(xué)特征,將所述聲學(xué)特征輸入到聲學(xué)編碼器中得到聲學(xué)表征;
15、將所述聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到注意力模塊得到注意力表征;其中,所述注意力模塊包括注意力機(jī)制算法;
16、將所述注意力表征與所述聲學(xué)表征拼接輸入到映射模塊中進(jìn)行融合處理,得到融合表征;其中,所述映射模塊包括多維度尺度變換算法。
17、作為本公開實(shí)施例一種可選的實(shí)施方式,所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果,包括:
18、將所述每一幀建模單元的后驗(yàn)概率與預(yù)設(shè)概率閾值進(jìn)行判斷,當(dāng)首幀建模單元的后驗(yàn)概率大于所述預(yù)設(shè)概率閾值時(shí),啟動(dòng)所述解碼器接收所述每一幀建模單元的后驗(yàn)概率,并基于解碼圖進(jìn)行解碼,得到解碼結(jié)果。
19、作為本公開實(shí)施例一種可選的實(shí)施方式,所述解碼結(jié)果還包括預(yù)設(shè)時(shí)間內(nèi)未解碼到終點(diǎn),所述基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果之后,還包括:
20、當(dāng)所述解碼結(jié)果為所述預(yù)設(shè)時(shí)間內(nèi)未解碼到終點(diǎn)時(shí)和所述解碼結(jié)果為解碼到終點(diǎn)時(shí),停止所述解碼處理。
21、作為本公開實(shí)施例一種可選的實(shí)施方式,所述將所述每一幀建模單元的后驗(yàn)概率與預(yù)設(shè)概率閾值進(jìn)行判斷之后,還包括:
22、當(dāng)所述每一幀建模單元的后驗(yàn)概率都小于所述預(yù)設(shè)概率閾值時(shí)/或終點(diǎn)分?jǐn)?shù)小于預(yù)設(shè)分?jǐn)?shù)閾值,則將所述建模單元得到的預(yù)定義關(guān)鍵詞表征對應(yīng)到空白建模單元中。
23、作為本公開實(shí)施例一種可選的實(shí)施方式,所述預(yù)定義關(guān)鍵詞包括文本預(yù)定義關(guān)鍵詞和音頻預(yù)定義關(guān)鍵詞,所述如果所述解碼結(jié)果為解碼到終點(diǎn),則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較之前,還包括:
24、若所述預(yù)定義關(guān)鍵詞為所述音頻預(yù)定義關(guān)鍵詞,則將所述音頻預(yù)定義關(guān)鍵詞轉(zhuǎn)換為聲學(xué)建模單元序列構(gòu)建聲學(xué)解碼圖,并基于所述聲學(xué)解碼圖對所述每一幀聲學(xué)建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到音頻終點(diǎn)分?jǐn)?shù);
25、根據(jù)所述音頻終點(diǎn)分?jǐn)?shù),進(jìn)行預(yù)設(shè)系數(shù)加權(quán)處理,得到預(yù)設(shè)分?jǐn)?shù)閾值;其中,所述預(yù)設(shè)系數(shù)為小于1的數(shù)值。
26、作為本公開實(shí)施例一種可選的實(shí)施方式,根據(jù)所述音頻終點(diǎn)分?jǐn)?shù),進(jìn)行預(yù)設(shè)系數(shù)加權(quán)處理,得到預(yù)設(shè)分?jǐn)?shù)閾值之后,還包括:
27、更新所述預(yù)設(shè)分?jǐn)?shù)閾值;其中,所述更新所述預(yù)設(shè)分?jǐn)?shù)閾值包括:根據(jù)閾值訓(xùn)練模型,對所述預(yù)設(shè)分?jǐn)?shù)閾值和所述解碼圖的權(quán)重進(jìn)行更新,所述閾值訓(xùn)練模型包括根據(jù)用戶語音信息對關(guān)鍵詞識別通過率以及誤喚醒率的訓(xùn)練。
28、根據(jù)本公開的第二方面,本公開提供了一種語音喚醒裝置,包括:
29、第一接收模塊,用于接收用戶的語音信息;
30、關(guān)鍵詞增強(qiáng)模塊,用于將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征;其中,所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊;
31、后驗(yàn)?zāi)K,用于將所述融合表征輸入到解碼器,輸出每一幀建模單元的后驗(yàn)概率;
32、解碼模塊,用于基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果;其中,所述解碼圖包括由預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列;
33、處理模塊,用于所述解碼結(jié)果為解碼到終點(diǎn)時(shí),將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較,當(dāng)所述終點(diǎn)分?jǐn)?shù)大于所述預(yù)設(shè)分?jǐn)?shù)閾值時(shí),觸發(fā)喚醒系統(tǒng)。
34、作為本公開實(shí)施例一種可選的實(shí)施方式,所述裝置還包括:
35、第二接收模塊,用于接收用戶輸入的預(yù)定義關(guān)鍵詞;
36、評估模塊,用于評估所述預(yù)定義關(guān)鍵詞是否符合預(yù)設(shè)關(guān)鍵詞條件,得到評估結(jié)果;其中,所述預(yù)設(shè)關(guān)鍵詞條件包括預(yù)設(shè)語言特征、預(yù)設(shè)聲學(xué)特征;
37、轉(zhuǎn)換模塊,用于所述評估結(jié)果為所述預(yù)定義關(guān)鍵詞符合所述預(yù)設(shè)關(guān)鍵詞條件時(shí),將所述預(yù)定義關(guān)鍵詞轉(zhuǎn)換為建模單元序列;
38、構(gòu)建模塊,用于基于所述建模單元序列,通過構(gòu)圖程序算法構(gòu)建得到所述解碼圖。
39、根據(jù)本公開的第三方面,本公開提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。
40、根據(jù)本公開的第四方面,本公開提供一種電子設(shè)備,包括:
41、至少一個(gè)處理器;以及,
42、與所述至少一個(gè)處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠?qū)崿F(xiàn)如第一方面中任一種實(shí)施方式所述的語音喚醒方法的步驟。
43、根據(jù)本公開的第五方面,本公開提供一種車輛,包括:如上述第二方面中任一種實(shí)施方式所述的語音喚醒裝置。
44、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):本公開提供了一種語音喚醒方法,該方法包括:接收用戶的語音信息;將所述語音信息中的聲學(xué)表征和預(yù)定義關(guān)鍵詞中的關(guān)鍵詞表征輸入到預(yù)先訓(xùn)練的模型中得到融合表征,其中所述預(yù)先訓(xùn)練的模型包括關(guān)鍵詞增強(qiáng)模塊;將所述融合表征輸入到解碼器,輸出每一幀建模單元的后驗(yàn)概率;基于解碼圖對所述每一幀建模單元的后驗(yàn)概率進(jìn)行解碼處理,得到解碼結(jié)果;若所述解碼結(jié)果為解碼到終點(diǎn),則將終點(diǎn)分?jǐn)?shù)與預(yù)設(shè)分?jǐn)?shù)閾值進(jìn)行比較,當(dāng)所述終點(diǎn)分?jǐn)?shù)大于預(yù)設(shè)分?jǐn)?shù)閾值時(shí),則觸發(fā)喚醒系統(tǒng)。傳統(tǒng)的語音喚醒方法只能在用戶說出預(yù)先設(shè)置好的關(guān)鍵詞,才進(jìn)行解碼處理和比較解碼結(jié)果來觸發(fā)喚醒系統(tǒng),現(xiàn)有得語音喚醒技術(shù)也僅是單一的做了解碼優(yōu)化或者關(guān)鍵詞優(yōu)化,并沒有將關(guān)鍵詞增強(qiáng)與專門的解碼圖結(jié)合做語音喚醒處理,本公開通過設(shè)置關(guān)鍵詞增強(qiáng)模塊,對關(guān)鍵詞進(jìn)行增強(qiáng)處理,加強(qiáng)了建模效果,其次通過預(yù)定義關(guān)鍵詞轉(zhuǎn)換的建模單元序列構(gòu)建的解碼圖做解碼處理,通過解碼結(jié)果中解碼到終點(diǎn)的終點(diǎn)分?jǐn)?shù)做比較才能觸發(fā)語音喚醒系統(tǒng),提高了基于用戶自定義關(guān)鍵詞喚醒的能力,提高了喚醒率,通過設(shè)定喚醒條件使關(guān)鍵詞可以準(zhǔn)確的檢出,在進(jìn)行語音交互的時(shí)候可以乘客擁有良好的用戶體驗(yàn)。
45、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過以下的說明書而變得容易理解。