一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備與流程

文檔序號：42167652發(fā)布日期：2025-06-13 16:22閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及實(shí)時(shí)通信領(lǐng)域，尤其涉及一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備。

背景技術(shù)：

1、近年來，人工智能技術(shù)的快速發(fā)展推動了語音交互在智能家居、社交陪伴機(jī)器人等領(lǐng)域的廣泛應(yīng)用，逐漸成為人機(jī)交互的核心方式。然而，現(xiàn)有語音交互系統(tǒng)在實(shí)時(shí)通信設(shè)備中的實(shí)際部署，仍然存在技術(shù)問題。

2、例如，傳統(tǒng)方案中設(shè)備麥克風(fēng)采集的音頻信號，通常包含用戶語音與設(shè)備自身播放聲(如音樂、提示音)的混合疊加。此類混合疊加信號在傳輸至云端處理時(shí)，因設(shè)備端預(yù)處理能力不足，難以有效分離用戶語音與設(shè)備聲的干擾成分，出現(xiàn)的問題包括回聲干擾難以消除、識別率不高、交互卡頓等。因此，行業(yè)內(nèi)需要設(shè)計(jì)出一種語音交互處理的智能解決方案，來解決上述技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明解決的技術(shù)問題是，如何設(shè)計(jì)一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備，能夠顯著降低語音交互的延遲。

2、第一方面，本申請?zhí)岢鲆环N語音交互智能處理方法，實(shí)現(xiàn)了大模型語音交互的低延遲；所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信，所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音，所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景，所述方法包括：s1，采集混合音頻信號，提取混合音頻信號當(dāng)中的有效語音信號；s2，將有效語音信號轉(zhuǎn)化為消回聲語音信號，之后上傳至云端大模型，處理后生成反饋語音流；s3，接收從云端大模型傳遞的反饋語音流，并由本地渲染模塊播放。

3、發(fā)明人經(jīng)過研究發(fā)現(xiàn)，人機(jī)交互普及率提升的一個(gè)重要瓶頸在于，用戶與設(shè)備同時(shí)發(fā)聲的“雙講”場景下，語音識別準(zhǔn)確率顯著下降，制約了交互體驗(yàn)；這種瓶頸，會導(dǎo)致內(nèi)嵌了“語音交互”的實(shí)時(shí)通信設(shè)備，市場推廣速度不理想，甚至出現(xiàn)設(shè)備退貨率較高的情況。本發(fā)明所述方案，通過實(shí)時(shí)通信設(shè)備的語音活動檢測(vad)模塊精準(zhǔn)識別有效語音信號，結(jié)合優(yōu)化的回聲消除(aec)算法處理“雙講”場景，確保語音信號純凈；利用webrtc傳輸網(wǎng)絡(luò)，通過udp協(xié)議實(shí)現(xiàn)低延遲語音數(shù)據(jù)流傳輸，配合websocket協(xié)議進(jìn)行信令交互和鏈路優(yōu)化；云端大模型采用流式處理技術(shù)，實(shí)現(xiàn)實(shí)時(shí)語音識別、語義理解和語音合成。本發(fā)明顯著降低端到端延遲，提升交互流暢性與準(zhǔn)確性，適用于ai社交陪伴、口語學(xué)習(xí)等終端領(lǐng)域，為用戶提供自然高效的語音交互體驗(yàn)。

4、其進(jìn)一步的技術(shù)方案為，所述步驟s1包括：s11，在實(shí)時(shí)通信設(shè)備通過麥克風(fēng)陣列采集混合音頻信號，所述混合音頻信號包括用戶指令語音信號，還包括設(shè)備播放聲音對應(yīng)的設(shè)備播放聲疊加信號；s12，從所述混合音頻信號中分離設(shè)備播放聲音分量，計(jì)算其能量均值作為參考能量基線；s13，提取用戶指令語音信號的頻譜特征，當(dāng)所述用戶指令語音信號的能量峰值超過所述參考能量基線的預(yù)設(shè)倍數(shù)而且頻譜特征匹配時(shí)，提取其中的有效語音信號。

5、其進(jìn)一步的技術(shù)方案為，所述步驟s2包括：s21，采用自適應(yīng)回聲消除算法對所述有效語音信號進(jìn)行預(yù)處理，獲得消回聲語音信號；s22，在webrtc傳輸環(huán)境中，將消回聲語音信號封裝為rtp數(shù)據(jù)包，封裝完成后基于udp協(xié)議上傳至云端大模型；s23，云端大模型對流式輸入的rtp數(shù)據(jù)包進(jìn)行實(shí)時(shí)解析，生成反饋語音流。

6、其進(jìn)一步的技術(shù)方案為，所述步驟s21包括：s31，實(shí)時(shí)采集所述設(shè)備播放聲疊加信號；s32，采用自適應(yīng)回聲消除算法，以所述設(shè)備播放聲疊加信號為參考信號，生成與設(shè)備播放聲傳播路徑匹配的反向補(bǔ)償信號；s33，將所述反向補(bǔ)償信號與所述混合音頻信號進(jìn)行相位對齊的數(shù)字域疊加處理，抵消所述設(shè)備播放聲疊加信號中的回聲干擾，獲得消回聲語音信號。

7、其進(jìn)一步的技術(shù)方案為，所述步驟s22包括：s41，在webrtc傳輸環(huán)境中，將消回聲語音信號按動態(tài)碼率參數(shù)編碼為rtp數(shù)據(jù)包序列，所述動態(tài)碼率參數(shù)基于預(yù)設(shè)時(shí)間窗口內(nèi)的信號能量均值生成；s42，檢測所述rtp數(shù)據(jù)包序列中用戶語音的能量峰值，當(dāng)能量峰值超過所述參考能量基線且頻譜特征匹配預(yù)設(shè)模板時(shí)，生成攜帶時(shí)間戳及編碼幀率的vad啟動指令；s43，將vad啟動指令與動態(tài)碼率參數(shù)通過websocket協(xié)議傳輸至云端，并同步關(guān)聯(lián)存儲實(shí)時(shí)采集的帶寬、延遲及丟包率參數(shù)；s44，根據(jù)動態(tài)碼率參數(shù)的目標(biāo)碼率與帶寬的比值計(jì)算rtp數(shù)據(jù)包序列的封裝間隔，并基于丟包率差值調(diào)整冗余編碼比例；s45，基于udp協(xié)議按所述封裝間隔及冗余比例將rtp數(shù)據(jù)包序列上傳至云端大模型，其中，當(dāng)語音能量均值連續(xù)n周期低于預(yù)設(shè)參考閾值時(shí)，生成vad停止指令并中止上傳直至新指令觸發(fā)。

8、其進(jìn)一步的技術(shù)方案為，所述步驟s23包括：s51，以預(yù)設(shè)的間隙時(shí)間窗口對流式輸入的rtp數(shù)據(jù)包進(jìn)行實(shí)時(shí)解析，輸出文本片段序列；s52，基于所述文本片段序列的上下文關(guān)聯(lián)性生成最終意圖指令；s53，根據(jù)所述意圖指令生成反饋語音流，所述反饋語音流的參數(shù)與實(shí)時(shí)通信設(shè)備的音頻采樣率匹配。

9、其進(jìn)一步的技術(shù)方案為，所述步驟s3包括：s71，接收從云端大模型通過udp協(xié)議傳遞的反饋語音流，并由本地渲染模塊播放給用戶收聽，實(shí)現(xiàn)低延遲交互。

10、第二方面，本申請?zhí)岢鲆环N實(shí)時(shí)通信設(shè)備，所述實(shí)時(shí)通信設(shè)備與云端大模型之間通信連接，所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的指令語音，所述實(shí)時(shí)通信設(shè)備用于實(shí)現(xiàn)如第一方面所述的語音交互智能處理方法。

11、綜上所述，本發(fā)明所述的一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備，通過優(yōu)化音頻信號處理、數(shù)據(jù)傳輸和云端計(jì)算流程，實(shí)現(xiàn)低延遲以及高準(zhǔn)確性，還實(shí)現(xiàn)了資源高效的語音交互體驗(yàn)。

技術(shù)特征：

1.一種語音交互智能處理方法，其特征在于，所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信，所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音，所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景，所述方法包括：

2.根據(jù)權(quán)利要求1所述的語音交互智能處理方法，其特征在于，所述實(shí)時(shí)通信設(shè)備包括麥克風(fēng)陣列，所述步驟s1包括：

3.根據(jù)權(quán)利要求2所述的語音交互智能處理方法，其特征在于，所述步驟s2包括：

4.根據(jù)權(quán)利要求3所述的語音交互智能處理方法，其特征在于，所述步驟s21包括：

5.根據(jù)權(quán)利要求4所述的語音交互智能處理方法，其特征在于，所述步驟s22包括：

6.根據(jù)權(quán)利要求5所述的語音交互智能處理方法，其特征在于，所述步驟s23包括：

7.根據(jù)權(quán)利要求1所述的語音交互智能處理方法，其特征在于，所述步驟s3包括：

8.一種實(shí)時(shí)通信設(shè)備，其特征在于，所述實(shí)時(shí)通信設(shè)備與云端大模型之間通信連接，所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的指令語音，所述實(shí)時(shí)通信設(shè)備用于實(shí)現(xiàn)如權(quán)利要求1至7任意一項(xiàng)所述的語音交互智能處理方法。

技術(shù)總結(jié)
本發(fā)明涉及一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備，所述方法用于云端大模型、實(shí)時(shí)通信設(shè)備以及用戶之間的通信，所述實(shí)時(shí)通信設(shè)備用于接收來自用戶的用戶指令語音，所述方法用于用戶指令語音與設(shè)備播放聲音同時(shí)存在的雙講場景，所述方法包括：采集混合音頻信號，提取混合音頻信號當(dāng)中的有效語音信號；將有效語音信號轉(zhuǎn)化為消回聲語音信號，之后上傳至云端大模型，處理后生成反饋語音流；接收從云端大模型傳遞的反饋語音流，并由本地渲染模塊播放?，F(xiàn)有語音交互系統(tǒng)在實(shí)時(shí)通信設(shè)備中的實(shí)際部署，存在技術(shù)問題；基于此，本申請所述方案，能夠顯著降低語音交互的延遲。

技術(shù)研發(fā)人員：楊尚偉,邵子鳴,陸明,周長用
受保護(hù)的技術(shù)使用者：深圳市云希谷科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/12

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊尚偉,邵子鳴,陸明,周長用
技術(shù)所有人：深圳市云希谷科技有限公司
我是此專利的發(fā)明人

上一篇：一種新型摩托車尾箱的制作方法
下一篇：一種具有去屑、控油和/或防斷作用的生姜洗發(fā)水及其制備方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種語音交互智能處理方法及實(shí)時(shí)通信設(shè)備與流程