本申請(qǐng)涉及計(jì)算機(jī)領(lǐng)域,具體涉及一種語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,情感識(shí)別成為人機(jī)交互領(lǐng)域中的研究方向。多模態(tài)情感識(shí)別系統(tǒng),利用圖像、聲音、語(yǔ)音、姿勢(shì)等多種數(shù)據(jù)源,對(duì)用戶的重要情感狀態(tài)進(jìn)行綜合分析,并在此基礎(chǔ)上調(diào)整人機(jī)交互的模式,全面實(shí)現(xiàn)智能客服、虛擬助手、娛樂(lè)與教育等多個(gè)領(lǐng)域。
2、然而,目前的交互方案通常將情感識(shí)別和動(dòng)作觸發(fā)作為高效獨(dú)立的通道,缺乏一種機(jī)制來(lái)實(shí)現(xiàn)情感狀態(tài)與動(dòng)作表現(xiàn)之間的緊密聯(lián)系。這導(dǎo)致數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活,交互能力較差。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì),可以解決數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活的問(wèn)題,從而提高交互能力。
2、為解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法,包括:
3、響應(yīng)用戶的語(yǔ)音觸發(fā)操作,采集所述用戶的多模態(tài)信息;
4、獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征;
5、根據(jù)所述語(yǔ)音特征以及人臉特征,確定所述用戶對(duì)應(yīng)的情感狀態(tài);
6、基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。
7、可選地,在本申請(qǐng)的一些實(shí)施例中,所述根據(jù)所述語(yǔ)音特征以及人臉特征,確定所述用戶對(duì)應(yīng)的情感狀態(tài),包括:
8、基于預(yù)設(shè)的語(yǔ)音模型對(duì)所述語(yǔ)音特征進(jìn)行處理,識(shí)別所述用戶對(duì)應(yīng)的語(yǔ)音情感;
9、基于所述人臉特征以及預(yù)設(shè)的參考人臉特征,識(shí)別所述用戶對(duì)應(yīng)的人臉情感。
10、可選地,在本申請(qǐng)的一些實(shí)施例中,所述根基于所述人臉特征以及預(yù)設(shè)的參考人臉特征,識(shí)別所述用戶對(duì)應(yīng)的人臉情感,包括:
11、將所述人臉特征與預(yù)設(shè)的參考人臉特征進(jìn)行匹配;
12、確定匹配的的參考人臉特征為目標(biāo)人臉特征;
13、將所述目標(biāo)人臉特征對(duì)應(yīng)的情感確定為所述用戶對(duì)應(yīng)的人臉情感。
14、可選地,在本申請(qǐng)的一些實(shí)施例中,還包括:
15、獲取多個(gè)樣本用戶對(duì)應(yīng)的樣本數(shù)據(jù);
16、對(duì)所述樣本數(shù)據(jù)進(jìn)行標(biāo)注,并將標(biāo)注后的樣本數(shù)據(jù)轉(zhuǎn)換為預(yù)設(shè)格式的數(shù)據(jù);
17、將格式轉(zhuǎn)換后的樣本數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集;
18、利用所述訓(xùn)練集對(duì)預(yù)設(shè)的基礎(chǔ)模型進(jìn)行訓(xùn)練,并利用所述驗(yàn)證集對(duì)訓(xùn)練后的基礎(chǔ)模型進(jìn)行驗(yàn)證,得到表情檢測(cè)模型,所述表情檢測(cè)模型用于檢測(cè)人臉表情。
19、可選地,在本申請(qǐng)的一些實(shí)施例中,所述基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互,包括:
20、將所述情感狀態(tài)轉(zhuǎn)換為標(biāo)準(zhǔn)化的協(xié)議信息;
21、對(duì)所述協(xié)議信息進(jìn)行解析;
22、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。
23、可選地,在本申請(qǐng)的一些實(shí)施例中,所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互,包括:
24、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作和互動(dòng)文本;
25、生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音;
26、根據(jù)所述互動(dòng)語(yǔ)音以及互動(dòng)動(dòng)作,控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。
27、可選地,在本申請(qǐng)的一些實(shí)施例中,所述生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音,包括:
28、根據(jù)語(yǔ)音合成技術(shù)將所述互動(dòng)文本轉(zhuǎn)換為文本音頻;
29、基于所述用戶的情感狀態(tài)對(duì)所述文本音頻進(jìn)行調(diào)整,得到所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音。
30、可選地,在本申請(qǐng)的一些實(shí)施例中,所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作,包括:
31、基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果,從預(yù)設(shè)的動(dòng)作序列中獲取數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作。
32、相應(yīng)的,本申請(qǐng)還提供一種語(yǔ)音交互裝置,包括:
33、采集模塊,用于響應(yīng)用戶的語(yǔ)音觸發(fā)操作,采集所述用戶的多模態(tài)信息;
34、獲取模塊,用于獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征;
35、識(shí)別模塊,用于根據(jù)所述語(yǔ)音特征以及人臉特征,確定所述用戶對(duì)應(yīng)的情感狀態(tài);
36、交互模塊,用于基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。
37、本申請(qǐng)還提供一種智能終端,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述方法的步驟。
38、本申請(qǐng)還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述方法的步驟。
39、如上所述,本申請(qǐng)?zhí)峁┮环N語(yǔ)音交互方法、裝置、智能終端及可讀存儲(chǔ)介質(zhì),在響應(yīng)用戶的語(yǔ)音觸發(fā)操作,采集所述用戶的多模態(tài)信息后,獲取所述多模態(tài)信息中語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征和所述多模態(tài)信息中人臉數(shù)據(jù)對(duì)應(yīng)的人臉特征,接著,根據(jù)所述語(yǔ)音特征以及人臉特征,確定所述用戶對(duì)應(yīng)的情感狀態(tài),最后,基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互。在本申請(qǐng)?zhí)峁┑恼Z(yǔ)音交互方案中,可以根據(jù)語(yǔ)音特征以及人臉特征,確定用戶對(duì)應(yīng)的情感狀態(tài),并基于情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,可以保證數(shù)字人的互動(dòng)信息與用戶的情感狀態(tài)相關(guān)聯(lián),從而確保在后續(xù)交互式,數(shù)字人是基于該互動(dòng)信息與用戶進(jìn)行動(dòng)態(tài)交互的,由此,可以解決數(shù)字人在復(fù)雜的情感變化下的動(dòng)作觸發(fā)不夠靈活的問(wèn)題,從而提高交互能力。
1.一種語(yǔ)音交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述基于所述語(yǔ)音特征對(duì)應(yīng)的語(yǔ)音情感以及人臉特征對(duì)應(yīng)的人臉表情,識(shí)別所述用戶對(duì)應(yīng)的情感狀態(tài),包括:
3.根據(jù)權(quán)利要求2所述的語(yǔ)音交互方法,其特征在于,所述基于所述人臉特征以及預(yù)設(shè)的參考人臉特征,識(shí)別所述用戶對(duì)應(yīng)的人臉表情,包括:
4.根據(jù)權(quán)利要求2所述的語(yǔ)音交互方法,其特征在于,還包括:
5.根據(jù)權(quán)利要求1所述的語(yǔ)音交互方法,其特征在于,所述基于所述情感狀態(tài)對(duì)應(yīng)的協(xié)議解析消息,生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互,包括:
6.根據(jù)權(quán)利要求5所述的語(yǔ)音交互方法,其特征在于,所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)信息,并根據(jù)所述互動(dòng)信息控制所述數(shù)字人與所述用戶進(jìn)行動(dòng)態(tài)交互,包括:
7.根據(jù)權(quán)利要求6所述的語(yǔ)音交互方法,其特征在于,所述生成所述互動(dòng)文本對(duì)應(yīng)的互動(dòng)語(yǔ)音,包括:
8.根據(jù)權(quán)利要求6所述的語(yǔ)音交互方法,其特征在于,所述基于預(yù)設(shè)的大語(yǔ)言模型以及解析結(jié)果生成數(shù)字人對(duì)應(yīng)的互動(dòng)動(dòng)作,包括:
9.一種語(yǔ)音交互裝置,其特征在于,包括:
10.一種智能終端,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述語(yǔ)音交互方法的步驟。
11.一種可讀存儲(chǔ)介質(zhì),其特征在于,所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任一項(xiàng)所述語(yǔ)音交互方法的步驟。