日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備與流程

文檔序號:42167652發(fā)布日期:2025-06-13 16:22閱讀:10來源:國知局

本發(fā)明涉及實(shí)時(shí)通信領(lǐng)域,尤其涉及一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備。


背景技術(shù):

1、近年來,人工智能技術(shù)的快速發(fā)展推動了語音交互在智能家居、社交陪伴機(jī)器人等領(lǐng)域的廣泛應(yīng)用,逐漸成為人機(jī)交互的核心方式。然而,現(xiàn)有語音交互系統(tǒng)在實(shí)時(shí)通信設(shè)備中的實(shí)際部署,仍然存在技術(shù)問題。

2、例如,傳統(tǒng)方案中設(shè)備麥克風(fēng)采集的音頻信號,通常包含用戶語音與設(shè)備自身播放聲(如音樂、提示音)的混合疊加。此類混合疊加信號在傳輸至云端處理時(shí),因設(shè)備端預(yù)處理能力不足,難以有效分離用戶語音與設(shè)備聲的干擾成分,出現(xiàn)的問題包括回聲干擾難以消除、識別率不高、交互卡頓等。因此,行業(yè)內(nèi)需要設(shè)計(jì)出一種語音交互處理的智能解決方案,來解決上述技術(shù)問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明解決的技術(shù)問題是,如何設(shè)計(jì)一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備,能夠顯著降低語音交互的延遲。

2、第一方面,本申請?zhí)岢鲆环N語音交互智能處理方法,實(shí)現(xiàn)了大模型語音交互的低延遲;所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信,所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音,所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景,所述方法包括:s1,采集混合音頻信號,提取混合音頻信號當(dāng)中的有效語音信號;s2,將有效語音信號轉(zhuǎn)化為消回聲語音信號,之后上傳至云端大模型,處理后生成反饋語音流;s3,接收從云端大模型傳遞的反饋語音流,并由本地渲染模塊播放。

3、發(fā)明人經(jīng)過研究發(fā)現(xiàn),人機(jī)交互普及率提升的一個(gè)重要瓶頸在于,用戶與設(shè)備同時(shí)發(fā)聲的“雙講”場景下,語音識別準(zhǔn)確率顯著下降,制約了交互體驗(yàn);這種瓶頸,會導(dǎo)致內(nèi)嵌了“語音交互”的實(shí)時(shí)通信設(shè)備,市場推廣速度不理想,甚至出現(xiàn)設(shè)備退貨率較高的情況。本發(fā)明所述方案,通過實(shí)時(shí)通信設(shè)備的語音活動檢測(vad)模塊精準(zhǔn)識別有效語音信號,結(jié)合優(yōu)化的回聲消除(aec)算法處理“雙講”場景,確保語音信號純凈;利用webrtc傳輸網(wǎng)絡(luò),通過udp協(xié)議實(shí)現(xiàn)低延遲語音數(shù)據(jù)流傳輸,配合websocket協(xié)議進(jìn)行信令交互和鏈路優(yōu)化;云端大模型采用流式處理技術(shù),實(shí)現(xiàn)實(shí)時(shí)語音識別、語義理解和語音合成。本發(fā)明顯著降低端到端延遲,提升交互流暢性與準(zhǔn)確性,適用于ai社交陪伴、口語學(xué)習(xí)等終端領(lǐng)域,為用戶提供自然高效的語音交互體驗(yàn)。

4、其進(jìn)一步的技術(shù)方案為,所述步驟s1包括:s11,在實(shí)時(shí)通信設(shè)備通過麥克風(fēng)陣列采集混合音頻信號,所述混合音頻信號包括用戶指令語音信號,還包括設(shè)備播放聲音對應(yīng)的設(shè)備播放聲疊加信號;s12,從所述混合音頻信號中分離設(shè)備播放聲音分量,計(jì)算其能量均值作為參考能量基線;s13,提取用戶指令語音信號的頻譜特征,當(dāng)所述用戶指令語音信號的能量峰值超過所述參考能量基線的預(yù)設(shè)倍數(shù)而且頻譜特征匹配時(shí),提取其中的有效語音信號。

5、其進(jìn)一步的技術(shù)方案為,所述步驟s2包括:s21,采用自適應(yīng)回聲消除算法對所述有效語音信號進(jìn)行預(yù)處理,獲得消回聲語音信號;s22,在webrtc傳輸環(huán)境中,將消回聲語音信號封裝為rtp數(shù)據(jù)包,封裝完成后基于udp協(xié)議上傳至云端大模型;s23,云端大模型對流式輸入的rtp數(shù)據(jù)包進(jìn)行實(shí)時(shí)解析,生成反饋語音流。

6、其進(jìn)一步的技術(shù)方案為,所述步驟s21包括:s31,實(shí)時(shí)采集所述設(shè)備播放聲疊加信號;s32,采用自適應(yīng)回聲消除算法,以所述設(shè)備播放聲疊加信號為參考信號,生成與設(shè)備播放聲傳播路徑匹配的反向補(bǔ)償信號;s33,將所述反向補(bǔ)償信號與所述混合音頻信號進(jìn)行相位對齊的數(shù)字域疊加處理,抵消所述設(shè)備播放聲疊加信號中的回聲干擾,獲得消回聲語音信號。

7、其進(jìn)一步的技術(shù)方案為,所述步驟s22包括:s41,在webrtc傳輸環(huán)境中,將消回聲語音信號按動態(tài)碼率參數(shù)編碼為rtp數(shù)據(jù)包序列,所述動態(tài)碼率參數(shù)基于預(yù)設(shè)時(shí)間窗口內(nèi)的信號能量均值生成;s42,檢測所述rtp數(shù)據(jù)包序列中用戶語音的能量峰值,當(dāng)能量峰值超過所述參考能量基線且頻譜特征匹配預(yù)設(shè)模板時(shí),生成攜帶時(shí)間戳及編碼幀率的vad啟動指令;s43,將vad啟動指令與動態(tài)碼率參數(shù)通過websocket協(xié)議傳輸至云端,并同步關(guān)聯(lián)存儲實(shí)時(shí)采集的帶寬、延遲及丟包率參數(shù);s44,根據(jù)動態(tài)碼率參數(shù)的目標(biāo)碼率與帶寬的比值計(jì)算rtp數(shù)據(jù)包序列的封裝間隔,并基于丟包率差值調(diào)整冗余編碼比例;s45,基于udp協(xié)議按所述封裝間隔及冗余比例將rtp數(shù)據(jù)包序列上傳至云端大模型,其中,當(dāng)語音能量均值連續(xù)n周期低于預(yù)設(shè)參考閾值時(shí),生成vad停止指令并中止上傳直至新指令觸發(fā)。

8、其進(jìn)一步的技術(shù)方案為,所述步驟s23包括:s51,以預(yù)設(shè)的間隙時(shí)間窗口對流式輸入的rtp數(shù)據(jù)包進(jìn)行實(shí)時(shí)解析,輸出文本片段序列;s52,基于所述文本片段序列的上下文關(guān)聯(lián)性生成最終意圖指令;s53,根據(jù)所述意圖指令生成反饋語音流,所述反饋語音流的參數(shù)與實(shí)時(shí)通信設(shè)備的音頻采樣率匹配。

9、其進(jìn)一步的技術(shù)方案為,所述步驟s3包括:s71,接收從云端大模型通過udp協(xié)議傳遞的反饋語音流,并由本地渲染模塊播放給用戶收聽,實(shí)現(xiàn)低延遲交互。

10、第二方面,本申請?zhí)岢鲆环N實(shí)時(shí)通信設(shè)備,所述實(shí)時(shí)通信設(shè)備與云端大模型之間通信連接,所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的指令語音,所述實(shí)時(shí)通信設(shè)備用于實(shí)現(xiàn)如第一方面所述的語音交互智能處理方法。

11、綜上所述,本發(fā)明所述的一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備,通過優(yōu)化音頻信號處理、數(shù)據(jù)傳輸和云端計(jì)算流程,實(shí)現(xiàn)低延遲以及高準(zhǔn)確性,還實(shí)現(xiàn)了資源高效的語音交互體驗(yàn)。



技術(shù)特征:

1.一種語音交互智能處理方法,其特征在于,所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信,所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音,所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景,所述方法包括:

2.根據(jù)權(quán)利要求1所述的語音交互智能處理方法,其特征在于,所述實(shí)時(shí)通信設(shè)備包括麥克風(fēng)陣列,所述步驟s1包括:

3.根據(jù)權(quán)利要求2所述的語音交互智能處理方法,其特征在于,所述步驟s2包括:

4.根據(jù)權(quán)利要求3所述的語音交互智能處理方法,其特征在于,所述步驟s21包括:

5.根據(jù)權(quán)利要求4所述的語音交互智能處理方法,其特征在于,所述步驟s22包括:

6.根據(jù)權(quán)利要求5所述的語音交互智能處理方法,其特征在于,所述步驟s23包括:

7.根據(jù)權(quán)利要求1所述的語音交互智能處理方法,其特征在于,所述步驟s3包括:

8.一種實(shí)時(shí)通信設(shè)備,其特征在于,所述實(shí)時(shí)通信設(shè)備與云端大模型之間通信連接,所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的指令語音,所述實(shí)時(shí)通信設(shè)備用于實(shí)現(xiàn)如權(quán)利要求1至7任意一項(xiàng)所述的語音交互智能處理方法。


技術(shù)總結(jié)
本發(fā)明涉及一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備,所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信,所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音,所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景,所述方法包括:采集混合音頻信號,提取混合音頻信號當(dāng)中的有效語音信號;將有效語音信號轉(zhuǎn)化為消回聲語音信號,之后上傳至云端大模型,處理后生成反饋語音流;接收從云端大模型傳遞的反饋語音流,并由本地渲染模塊播放?,F(xiàn)有語音交互系統(tǒng)在實(shí)時(shí)通信設(shè)備中的實(shí)際部署,存在技術(shù)問題;基于此,本申請所述方案,能夠顯著降低語音交互的延遲。

技術(shù)研發(fā)人員:楊尚偉,邵子鳴,陸明,周長用
受保護(hù)的技術(shù)使用者:深圳市云希谷科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/12
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1