語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：42167829發(fā)布日期：2025-06-13 16:22閱讀：10來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請(qǐng)涉及計(jì)算機(jī)領(lǐng)域，具體涉及一種語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的快速發(fā)展，情感識(shí)別成為人機(jī)交互領(lǐng)域中的研究方向。多模態(tài)情感識(shí)別系統(tǒng)，利用圖像、聲音、語(yǔ)音、姿勢(shì)等多種數(shù)據(jù)源，對(duì)用戶的重要情感狀態(tài)進(jìn)行綜合分析，并在此基礎(chǔ)上調(diào)整人機(jī)交互的模式，全面實(shí)現(xiàn)智能客服、虛擬助手、娛樂(lè)與教育等多個(gè)領(lǐng)域。

2、然而，目前的交互方案通常將情感識(shí)別和動(dòng)作觸發(fā)作為高效獨(dú)立的通道，缺乏一種機(jī)制來(lái)實(shí)現(xiàn)情感狀態(tài)與動(dòng)作表現(xiàn)之間的緊密聯(lián)系。這導(dǎo)致數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活，交互能力較差。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)，可以解決數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活的問(wèn)題，從而提高交互能力。

2、為解決上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法，包括：

3、響應(yīng)用戶的語(yǔ)音觸發(fā)操作，采集所述用戶的多模態(tài)信息；

4、獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征；

5、根據(jù)所述語(yǔ)音特征以及人臉特征，確定所述用戶對(duì)應(yīng)的情感狀態(tài)；

6、基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。

7、可選地，在本申請(qǐng)的一些實(shí)施例中，所述根據(jù)所述語(yǔ)音特征以及人臉特征，確定所述用戶對(duì)應(yīng)的情感狀態(tài)，包括：

8、基于預(yù)設(shè)的語(yǔ)音模型對(duì)所述語(yǔ)音特征進(jìn)行處理，識(shí)別所述用戶對(duì)應(yīng)的語(yǔ)音情感；

9、基于所述人臉特征以及預(yù)設(shè)的參考人臉特征，識(shí)別所述用戶對(duì)應(yīng)的人臉情感。

10、可選地，在本申請(qǐng)的一些實(shí)施例中，所述根基于所述人臉特征以及預(yù)設(shè)的參考人臉特征，識(shí)別所述用戶對(duì)應(yīng)的人臉情感，包括：

11、將所述人臉特征與預(yù)設(shè)的參考人臉特征進(jìn)行匹配；

12、確定匹配的的參考人臉特征為目標(biāo)人臉特征；

13、將所述目標(biāo)人臉特征對(duì)應(yīng)的情感確定為所述用戶對(duì)應(yīng)的人臉情感。

14、可選地，在本申請(qǐng)的一些實(shí)施例中，還包括：

15、獲取多個(gè)樣本用戶對(duì)應(yīng)的樣本數(shù)據(jù)；

16、對(duì)所述樣本數(shù)據(jù)進(jìn)行標(biāo)注，并將標(biāo)注后的樣本數(shù)據(jù)轉(zhuǎn)換為預(yù)設(shè)格式的數(shù)據(jù)；

17、將格式轉(zhuǎn)換后的樣本數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集；

18、利用所述訓(xùn)練集對(duì)預(yù)設(shè)的基礎(chǔ)模型進(jìn)行訓(xùn)練，并利用所述驗(yàn)證集對(duì)訓(xùn)練后的基礎(chǔ)模型進(jìn)行驗(yàn)證，得到表情檢測(cè)模型，所述表情檢測(cè)模型用于檢測(cè)人臉表情。

19、可選地，在本申請(qǐng)的一些實(shí)施例中，所述基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互，包括：

20、將所述情感狀態(tài)轉(zhuǎn)換為標(biāo)準(zhǔn)化的協(xié)議信息；

21、對(duì)所述協(xié)議信息進(jìn)行解析；

22、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。

23、可選地，在本申請(qǐng)的一些實(shí)施例中，所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互，包括：

24、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作和互動(dòng)文本；

25、生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音；

26、根據(jù)所述互動(dòng)語(yǔ)音以及互動(dòng)動(dòng)作，控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。

27、可選地，在本申請(qǐng)的一些實(shí)施例中，所述生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音，包括：

28、根據(jù)語(yǔ)音合成技術(shù)將所述互動(dòng)文本轉(zhuǎn)換為文本音頻；

29、基于所述用戶的情感狀態(tài)對(duì)所述文本音頻進(jìn)行調(diào)整，得到所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音。

30、可選地，在本申請(qǐng)的一些實(shí)施例中，所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作，包括：

31、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果，從預(yù)設(shè)的動(dòng)作序列中獲取數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作。

32、相應(yīng)的，本申請(qǐng)還提供一種語(yǔ)音交互裝置，包括：

33、采集模塊，用于響應(yīng)用戶的語(yǔ)音觸發(fā)操作，采集所述用戶的多模態(tài)信息；

34、獲取模塊，用于獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征；

35、識(shí)別模塊，用于根據(jù)所述語(yǔ)音特征以及人臉特征，確定所述用戶對(duì)應(yīng)的情感狀態(tài)；

36、交互模塊，用于基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。

37、本申請(qǐng)還提供一種智能終端，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述方法的步驟。

38、本申請(qǐng)還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述方法的步驟。

39、如上所述，本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)，在響應(yīng)用戶的語(yǔ)音觸發(fā)操作，采集所述用戶的多模態(tài)信息后，獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征，接著，根據(jù)所述語(yǔ)音特征以及人臉特征，確定所述用戶對(duì)應(yīng)的情感狀態(tài)，最后，基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。在本申請(qǐng)?zhí)峁┑恼Z(yǔ)音交互方案中，可以根據(jù)語(yǔ)音特征以及人臉特征，確定用戶對(duì)應(yīng)的情感狀態(tài)，并基于情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，可以保證數(shù)字人的互動(dòng)信息與用戶的情感狀態(tài)相關(guān)聯(lián)，從而確保在后續(xù)交互式，數(shù)字人是基于該互動(dòng)信息與用戶進(jìn)行動(dòng)態(tài)交互的，由此，可以解決數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活的問(wèn)題，從而提高交互能力。

技術(shù)特征：

1.一種語(yǔ)音交互方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法，其特征在于，所述基于所述語(yǔ)音特征對(duì)應(yīng)的語(yǔ)音情感以及人臉特征對(duì)應(yīng)的人臉表情，識(shí)別所述用戶對(duì)應(yīng)的情感狀態(tài)，包括：

3.根據(jù)權(quán)利要求2所述的語(yǔ)音交互方法，其特征在于，所述基于所述人臉特征以及預(yù)設(shè)的參考人臉特征，識(shí)別所述用戶對(duì)應(yīng)的人臉表情，包括：

4.根據(jù)權(quán)利要求2所述的語(yǔ)音交互方法，其特征在于，還包括：

5.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法，其特征在于，所述基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互，包括：

6.根據(jù)權(quán)利要求5所述的語(yǔ)音交互方法，其特征在于，所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互，包括：

7.根據(jù)權(quán)利要求6所述的語(yǔ)音交互方法，其特征在于，所述生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音，包括：

8.根據(jù)權(quán)利要求6所述的語(yǔ)音交互方法，其特征在于，所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作，包括：

9.一種語(yǔ)音交互裝置，其特征在于，包括：

10.一種智能終端，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述語(yǔ)音交互方法的步驟。

11.一種可讀存儲(chǔ)介質(zhì)，其特征在于，所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述語(yǔ)音交互方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)公開了一種語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)，所述語(yǔ)音交互方法包括：響應(yīng)用戶的語(yǔ)音觸發(fā)操作，采集所述用戶的多模態(tài)信息；獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征；基于所述語(yǔ)音特征的語(yǔ)音情感以及人臉特征對(duì)應(yīng)的人臉表情，識(shí)別所述用戶對(duì)應(yīng)的情感狀態(tài)；基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息，生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息，并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。本申請(qǐng)?zhí)峁┑恼Z(yǔ)音交互方案可以解決數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活的問(wèn)題，從而提高交互能力。

技術(shù)研發(fā)人員：李濤
受保護(hù)的技術(shù)使用者：深圳市卓越智運(yùn)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/12

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李濤
技術(shù)所有人：深圳市卓越智運(yùn)科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)與流程

語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)與流程