本發(fā)明涉及交互系統(tǒng),具體是實時個性化交互系統(tǒng)。
背景技術(shù):
1、交互系統(tǒng)(i?nteract?ive?system)是一種允許用戶與計算機或其他設(shè)備進行雙向信息交流的軟件或硬件組合,這種系統(tǒng)的目的是通過提供直觀、易用且高效的界面,使得人機之間的溝通更加自然流暢。在人工智能技術(shù)背景下,交互系統(tǒng)的演進正在向“智能體”方向發(fā)展,它將不止與手機、電腦等常用設(shè)備結(jié)合,還會存在于越來越多的新型硬件終端。
2、從個人用戶領(lǐng)域來看,如何實現(xiàn)低延遲、帶視覺理解、高情感互動的實時反饋,如何構(gòu)建個性化的記憶系統(tǒng),如何在虛擬與物理環(huán)境都具備魯棒的執(zhí)行能力,成為“個人基礎(chǔ)智能體”進化和個性化交互的重要挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在于解決背景技術(shù)中存在的缺點,提供實時個性化交互系統(tǒng),本系統(tǒng)具有超低延遲、支持多模態(tài)交互、具有情緒和記憶系統(tǒng),可通過與環(huán)境的交互來不斷優(yōu)化自身的行為策略,為用戶打造“個人基礎(chǔ)智能體”,它會逐漸學(xué)習(xí)到用戶的喜好和習(xí)慣,提供更加個性化的服務(wù)。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案,一種實時個性化交互系統(tǒng),包括:
3、s1、多模態(tài)輸入融合算法;
4、s2、實時交互協(xié)議;
5、s3、語音打斷處理機制;
6、s4、情感計算與表達模塊;
7、s5、設(shè)計情緒模塊;
8、s6、記憶模塊,通過與環(huán)境的交互來不斷優(yōu)化自身的行為策略,它會逐漸學(xué)習(xí)到用戶的喜好和習(xí)慣,提供更加個性化的服務(wù)。
9、進一步的,步驟s1包括:
10、s11、數(shù)據(jù)輸入模塊,其包括音頻收集模塊、圖像采集模塊、文本處理模塊、集中處理模塊;
11、s12、其中,集中處理模塊對輸入的數(shù)據(jù)進行預(yù)處理,包括數(shù)據(jù)對齊和尺度歸一化;
12、s13、其中音頻收集模塊收集的音頻數(shù)據(jù)通過aud?i?o?encoder編碼;
13、s14、其中,圖像采集模塊收集的圖像數(shù)據(jù)通過image?encoder編碼;
14、s15、集中處理模塊中設(shè)有關(guān)鍵詞檢測模塊,用于關(guān)鍵詞檢測,語音激活觸發(fā)器的核心在于關(guān)鍵詞檢測,即系統(tǒng)能夠監(jiān)聽并識別特定的喚醒詞或命令詞。
15、進一步的,步驟s2包括:
16、s21、選擇高效的傳輸層協(xié)議;
17、s22、數(shù)據(jù)壓縮與編碼優(yōu)化;
18、s23、網(wǎng)絡(luò)路徑優(yōu)化,利用先進的路由算法找到從源節(jié)點到目標(biāo)節(jié)點之間的最短路徑,可以有效縮短數(shù)據(jù)包的傳輸距離,進而減少延遲。
19、進一步的,步驟s3包括:
20、s31、引入語音激活觸發(fā)器和上下文感知算法,使得系統(tǒng)能夠在檢測到用戶的語音指令后迅速做出響應(yīng),調(diào)整或暫停正在進行的任務(wù);
21、s32、對話管理,為了確保流暢自然的多輪對話體驗,必須具備強大的對話管理系統(tǒng),該系統(tǒng)需要理解當(dāng)前對話的狀態(tài),并據(jù)此決定如何處理新的輸入,具體來說,當(dāng)檢測到用戶發(fā)出打斷信號時,應(yīng)該立即停止正在播放的內(nèi)容,并切換到傾聽模式等待進一步指示;
22、s33、語音識別引擎配置,可以選擇適當(dāng)調(diào)整語音識別引擎的敏感度,通常情況下,默認值已經(jīng)過精心調(diào)校以平衡準(zhǔn)確性和用戶體驗,但在某些特殊應(yīng)用場景下,可能需要微調(diào)這些參數(shù),比如,在嘈雜環(huán)境中可以適當(dāng)降低敏感度避免過多干擾,而在安靜環(huán)境下則可以提高靈敏度以便更快捕捉到用戶的意圖;
23、s34、語音終止超時,設(shè)定一個短暫的時間窗口,在此期間如果沒有檢測到新的聲音,則認為用戶已經(jīng)說完,合理的超時設(shè)置有助于防止過早截斷用戶的表達,同時也避免了不必要的等待。
24、進一步的,步驟s4包括:
25、s41、情緒模塊包括:表情存儲模塊、語言模塊和顯示模塊;
26、s42、識別輸出的數(shù)據(jù),從表情存儲模塊內(nèi)選取合適的表氣數(shù)據(jù)輸出到顯示模塊上,以及從語言模塊內(nèi)部選擇合適的語氣數(shù)據(jù)輸送到發(fā)聲模塊上,并將輸出的數(shù)據(jù)進行朗讀。
27、本發(fā)明提供了一種實時個性化交互系統(tǒng),具有以下有益效果:
28、本發(fā)明優(yōu)點在于,本系統(tǒng)能夠同時處理文本、音頻、圖像的數(shù)據(jù),并實現(xiàn)跨模態(tài)任務(wù)的轉(zhuǎn)換,同時進行端到端優(yōu)化設(shè)計,強調(diào)直接從輸入到輸出的全流程學(xué)習(xí),其中合成數(shù)據(jù)是優(yōu)化過程中的關(guān)鍵,主要用于生成大規(guī)模的訓(xùn)練數(shù)據(jù),包括從圖片或語音生成文字和語音、從語音生成文本等多種類型的數(shù)據(jù)增強。這種方式有效提升了模型的泛化能力和任務(wù)適應(yīng)性。
1.一種實時個性化交互系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的實時個性化交互系統(tǒng),其特征在于,步驟s1包括:
3.根據(jù)權(quán)利要求1所述的實時個性化交互系統(tǒng),其特征在于,步驟s2包括:
4.根據(jù)權(quán)利要求1所述的實時個性化交互系統(tǒng),其特征在于,步驟s3包括:
5.根據(jù)權(quán)利要求1所述的實時個性化交互系統(tǒng),其特征在于,步驟s4包括: