一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法與流程

文檔序號(hào)：42167535發(fā)布日期：2025-06-13 16:21閱讀：14來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)設(shè)計(jì)，尤其涉及一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法。

背景技術(shù)：

1、隨著信息技術(shù)的發(fā)展，會(huì)議逐漸成為一種普遍的社會(huì)現(xiàn)象，世界上每時(shí)每刻都有著會(huì)議的召開，小到學(xué)校、實(shí)驗(yàn)室、工作室，大到政府、企業(yè)、國(guó)際上，可以說只要有組織的地方就存在會(huì)議山。每一場(chǎng)會(huì)議的召開都有著其作用和意義，如果不能對(duì)會(huì)議進(jìn)行清晰、準(zhǔn)確的會(huì)議音視頻解析，對(duì)于后期查詢會(huì)議上與會(huì)人員的發(fā)言記錄以及對(duì)會(huì)議的復(fù)盤將無法順利進(jìn)行。傳統(tǒng)的會(huì)議音視頻解析依靠人工紙筆手寫進(jìn)行，但是采用手動(dòng)會(huì)議音視頻解析的方式存在效率低、準(zhǔn)確性不高、耗時(shí)耗力等局限性。即使是后續(xù)采用錄音設(shè)備的方式對(duì)會(huì)議進(jìn)行錄制，想要查詢不同與會(huì)人員的發(fā)言時(shí)間點(diǎn)仍然需要人工瀏覽一遍，雖然準(zhǔn)確性有所提升，但是人力成本高和低效率的問題依然未得到改善。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于：為了解決傳統(tǒng)的會(huì)議音視頻解析依靠人工紙筆手寫進(jìn)行，采用手動(dòng)會(huì)議音視頻解析的方式存在效率低、準(zhǔn)確性不高、耗時(shí)耗力等局限性的問題，而提出的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法。

2、為了實(shí)現(xiàn)上述目的，一方面，本發(fā)明采用了如下技術(shù)方案：一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其包括：

3、身份采集模塊，用于采集用戶的特征信息，根據(jù)特征信息建立對(duì)應(yīng)用戶的存儲(chǔ)夾；

4、數(shù)據(jù)采集模塊，用于采集會(huì)議信息；

5、數(shù)據(jù)處理模塊，用于對(duì)會(huì)議信息進(jìn)行分離，得到分離信息，并存儲(chǔ)；

6、時(shí)間標(biāo)記模塊，其用于對(duì)分離信息進(jìn)行時(shí)間標(biāo)記，記錄分離信息的開始和結(jié)束時(shí)間；

7、對(duì)比模塊，用于對(duì)數(shù)據(jù)處理模塊分離后的分離信息與特征信息進(jìn)行比對(duì)，將與特征信息相同的分離信息存儲(chǔ)在對(duì)應(yīng)用戶的存儲(chǔ)件，并根據(jù)時(shí)間進(jìn)行排序；

8、文字轉(zhuǎn)換模塊，其用于將分離信息轉(zhuǎn)換成文字，生成文字記錄。

9、作為上述技術(shù)方案的進(jìn)一步描述：

10、所述數(shù)據(jù)采集模塊包括音頻采集模塊和視頻采集模塊，所述音頻采集模塊用于采集會(huì)議當(dāng)前說話者的音頻數(shù)據(jù)；視頻采集模塊用于采集會(huì)議當(dāng)前說話者的視頻數(shù)據(jù)。

11、作為上述技術(shù)方案的進(jìn)一步描述：

12、所述音頻采集模塊為麥克風(fēng)，所述視頻采集模塊為攝像頭。

13、作為上述技術(shù)方案的進(jìn)一步描述：

14、所述數(shù)據(jù)處理模塊包括特征提取模塊、交融模塊和解析模塊；

15、所述特征提取模塊，用于對(duì)會(huì)議信息進(jìn)行拆分和特征提取，得到特征信息，所述特征信息包括視頻特征和聲紋特征；

16、所述交融模塊，用于將所述視頻特征和所述聲紋特征進(jìn)行融合，得到綜合視覺特征；

17、解析模塊，通過解析算法對(duì)所述視頻特征和聲紋特征進(jìn)行關(guān)于模態(tài)的建模和感知預(yù)測(cè)，得到解析結(jié)果。

18、作為上述技術(shù)方案的進(jìn)一步描述：

19、所述解析算法為采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ)，結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法。

20、作為上述技術(shù)方案的進(jìn)一步描述：

21、所述系統(tǒng)還包括數(shù)據(jù)補(bǔ)充和修正部分，所述數(shù)據(jù)補(bǔ)充和修正部分用于對(duì)所述文字記錄進(jìn)行補(bǔ)充和修正。

22、作為上述技術(shù)方案的進(jìn)一步描述：

23、所述文字記錄為對(duì)話形式的文字記錄。

24、另一方面，本發(fā)明還公開了一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法，其包括以下步驟：

25、s1：錄入建立用戶特征信息，其中，特征信息為用戶臉部視頻特征和聲紋特征；

26、s2：用戶開始講話時(shí)，麥克風(fēng)捕獲當(dāng)前講話用戶的聲音，攝像頭對(duì)當(dāng)前講話用戶的進(jìn)行拍攝記錄；使用聲紋識(shí)別技術(shù)對(duì)會(huì)議信息進(jìn)行分離，對(duì)分離信息進(jìn)行用戶臉部視頻特征和聲紋特征進(jìn)行識(shí)別；

27、s3：根據(jù)步驟s2的識(shí)別信息與步驟s1的用戶錄入信息進(jìn)行比對(duì)，將分離信息分類存儲(chǔ)在對(duì)應(yīng)用戶的存儲(chǔ)夾內(nèi)，直至?xí)h結(jié)束。

28、作為上述技術(shù)方案的進(jìn)一步描述：

29、所述步驟s3中的分離信息為用戶講話時(shí)的視頻信息、語音信息和文字信息。

30、綜上所述，由于采用了上述技術(shù)方案，本發(fā)明的有益效果是：

31、1、本發(fā)明,通過在會(huì)議開始建立用戶特征信息，通過數(shù)據(jù)處理模塊對(duì)會(huì)議信息進(jìn)行分離，即可以將每個(gè)用戶的講話信息，以及不同時(shí)間段的講話信息進(jìn)行分離，通過對(duì)分離信息的特征進(jìn)行識(shí)別，將分離信息分類按時(shí)間存儲(chǔ)在對(duì)應(yīng)的用戶存儲(chǔ)夾內(nèi)，實(shí)現(xiàn)可高效、穩(wěn)定的對(duì)會(huì)議音視頻片段進(jìn)行識(shí)別與分類，可以便于對(duì)會(huì)議進(jìn)行查詢，提高了會(huì)議的記錄的效率和準(zhǔn)確率。

32、2、本發(fā)明,采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ)，結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法，可以解決現(xiàn)有聲紋識(shí)別算法準(zhǔn)確率不高、抗干擾性弱、穩(wěn)定性較差、人工會(huì)議紀(jì)要效率低、成本高的問題。

技術(shù)特征：

1.一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述數(shù)據(jù)采集模塊包括音頻采集模塊和視頻采集模塊，所述音頻采集模塊用于采集會(huì)議當(dāng)前說話者的音頻數(shù)據(jù)；視頻采集模塊用于采集會(huì)議當(dāng)前說話者的視頻數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述音頻采集模塊為麥克風(fēng)，所述視頻采集模塊為攝像頭。

4.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述數(shù)據(jù)處理模塊包括特征提取模塊、交融模塊和解析模塊；

5.根據(jù)權(quán)利要求4所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述解析算法為采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ)，結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法。

6.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述系統(tǒng)還包括數(shù)據(jù)補(bǔ)充和修正部分，所述數(shù)據(jù)補(bǔ)充和修正部分用于對(duì)所述文字記錄進(jìn)行補(bǔ)充和修正。

7.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其特征在于，所述文字記錄為對(duì)話形式的文字記錄。

8.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法，其特征在于，包括以下步驟：

9.根據(jù)權(quán)利要求8所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法，其特征在于，所述步驟s3中的分離信息為用戶講話時(shí)的視頻信息、語音信息和文字信息。

技術(shù)總結(jié)
本發(fā)明公開了一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)，其包括：身份采集模塊，用于采集用戶的特征信息，根據(jù)特征信息建立對(duì)應(yīng)用戶的存儲(chǔ)夾；數(shù)據(jù)采集模塊，用于采集會(huì)議信息；數(shù)據(jù)處理模塊，用于對(duì)會(huì)議信息進(jìn)行分離，得到分離信息，并存儲(chǔ)；時(shí)間標(biāo)記模塊，其用于對(duì)分離信息進(jìn)行時(shí)間標(biāo)記，記錄分離信息的開始和結(jié)束時(shí)間；對(duì)比模塊，用于對(duì)數(shù)據(jù)處理模塊分離后的分離信息與特征信息進(jìn)行比對(duì)；文字轉(zhuǎn)換模塊，其用于將分離信息轉(zhuǎn)換成文字，生成文字記錄。本發(fā)明還公開了一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法。本發(fā)明可以解決傳統(tǒng)的會(huì)議音視頻解析依靠人工紙筆手寫進(jìn)行，采用手動(dòng)會(huì)議音視頻解析的方式存在效率低、準(zhǔn)確性不高、耗時(shí)耗力等局限性的問題。

技術(shù)研發(fā)人員：高偉,江興,孔德琦,居金霞,余以蘭,李恩龍
受保護(hù)的技術(shù)使用者：蘇州朗捷通智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/12

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高偉,江興,孔德琦,居金霞,余以蘭,李恩龍
技術(shù)所有人：蘇州朗捷通智能科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法與流程