本發(fā)明涉及網(wǎng)絡(luò)設(shè)計(jì),尤其涉及一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法。
背景技術(shù):
1、隨著信息技術(shù)的發(fā)展,會(huì)議逐漸成為一種普遍的社會(huì)現(xiàn)象,世界上每時(shí)每刻都有著會(huì)議的召開,小到學(xué)校、實(shí)驗(yàn)室、工作室,大到政府、企業(yè)、國(guó)際上,可以說只要有組織的地方就存在會(huì)議山。每一場(chǎng)會(huì)議的召開都有著其作用和意義,如果不能對(duì)會(huì)議進(jìn)行清晰、準(zhǔn)確的會(huì)議音視頻解析,對(duì)于后期查詢會(huì)議上與會(huì)人員的發(fā)言記錄以及對(duì)會(huì)議的復(fù)盤將無法順利進(jìn)行。傳統(tǒng)的會(huì)議音視頻解析依靠人工紙筆手寫進(jìn)行,但是采用手動(dòng)會(huì)議音視頻解析的方式存在效率低、準(zhǔn)確性不高、耗時(shí)耗力等局限性。即使是后續(xù)采用錄音設(shè)備的方式對(duì)會(huì)議進(jìn)行錄制,想要查詢不同與會(huì)人員的發(fā)言時(shí)間點(diǎn)仍然需要人工瀏覽一遍,雖然準(zhǔn)確性有所提升,但是人力成本高和低效率的問題依然未得到改善。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于:為了解決傳統(tǒng)的會(huì)議音視頻解析依靠人工紙筆手寫進(jìn)行,采用手動(dòng)會(huì)議音視頻解析的方式存在效率低、準(zhǔn)確性不高、耗時(shí)耗力等局限性的問題,而提出的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng)及其方法。
2、為了實(shí)現(xiàn)上述目的,一方面,本發(fā)明采用了如下技術(shù)方案:一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其包括:
3、身份采集模塊,用于采集用戶的特征信息,根據(jù)特征信息建立對(duì)應(yīng)用戶的存儲(chǔ)夾;
4、數(shù)據(jù)采集模塊,用于采集會(huì)議信息;
5、數(shù)據(jù)處理模塊,用于對(duì)會(huì)議信息進(jìn)行分離,得到分離信息,并存儲(chǔ);
6、時(shí)間標(biāo)記模塊,其用于對(duì)分離信息進(jìn)行時(shí)間標(biāo)記,記錄分離信息的開始和結(jié)束時(shí)間;
7、對(duì)比模塊,用于對(duì)數(shù)據(jù)處理模塊分離后的分離信息與特征信息進(jìn)行比對(duì),將與特征信息相同的分離信息存儲(chǔ)在對(duì)應(yīng)用戶的存儲(chǔ)件,并根據(jù)時(shí)間進(jìn)行排序;
8、文字轉(zhuǎn)換模塊,其用于將分離信息轉(zhuǎn)換成文字,生成文字記錄。
9、作為上述技術(shù)方案的進(jìn)一步描述:
10、所述數(shù)據(jù)采集模塊包括音頻采集模塊和視頻采集模塊,所述音頻采集模塊用于采集會(huì)議當(dāng)前說話者的音頻數(shù)據(jù);視頻采集模塊用于采集會(huì)議當(dāng)前說話者的視頻數(shù)據(jù)。
11、作為上述技術(shù)方案的進(jìn)一步描述:
12、所述音頻采集模塊為麥克風(fēng),所述視頻采集模塊為攝像頭。
13、作為上述技術(shù)方案的進(jìn)一步描述:
14、所述數(shù)據(jù)處理模塊包括特征提取模塊、交融模塊和解析模塊;
15、所述特征提取模塊,用于對(duì)會(huì)議信息進(jìn)行拆分和特征提取,得到特征信息,所述特征信息包括視頻特征和聲紋特征;
16、所述交融模塊,用于將所述視頻特征和所述聲紋特征進(jìn)行融合,得到綜合視覺特征;
17、解析模塊,通過解析算法對(duì)所述視頻特征和聲紋特征進(jìn)行關(guān)于模態(tài)的建模和感知預(yù)測(cè),得到解析結(jié)果。
18、作為上述技術(shù)方案的進(jìn)一步描述:
19、所述解析算法為采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ),結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法。
20、作為上述技術(shù)方案的進(jìn)一步描述:
21、所述系統(tǒng)還包括數(shù)據(jù)補(bǔ)充和修正部分,所述數(shù)據(jù)補(bǔ)充和修正部分用于對(duì)所述文字記錄進(jìn)行補(bǔ)充和修正。
22、作為上述技術(shù)方案的進(jìn)一步描述:
23、所述文字記錄為對(duì)話形式的文字記錄。
24、另一方面,本發(fā)明還公開了一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法,其包括以下步驟:
25、s1:錄入建立用戶特征信息,其中,特征信息為用戶臉部視頻特征和聲紋特征;
26、s2:用戶開始講話時(shí),麥克風(fēng)捕獲當(dāng)前講話用戶的聲音,攝像頭對(duì)當(dāng)前講話用戶的進(jìn)行拍攝記錄;使用聲紋識(shí)別技術(shù)對(duì)會(huì)議信息進(jìn)行分離,對(duì)分離信息進(jìn)行用戶臉部視頻特征和聲紋特征進(jìn)行識(shí)別;
27、s3:根據(jù)步驟s2的識(shí)別信息與步驟s1的用戶錄入信息進(jìn)行比對(duì),將分離信息分類存儲(chǔ)在對(duì)應(yīng)用戶的存儲(chǔ)夾內(nèi),直至?xí)h結(jié)束。
28、作為上述技術(shù)方案的進(jìn)一步描述:
29、所述步驟s3中的分離信息為用戶講話時(shí)的視頻信息、語音信息和文字信息。
30、綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
31、1、本發(fā)明,通過在會(huì)議開始建立用戶特征信息,通過數(shù)據(jù)處理模塊對(duì)會(huì)議信息進(jìn)行分離,即可以將每個(gè)用戶的講話信息,以及不同時(shí)間段的講話信息進(jìn)行分離,通過對(duì)分離信息的特征進(jìn)行識(shí)別,將分離信息分類按時(shí)間存儲(chǔ)在對(duì)應(yīng)的用戶存儲(chǔ)夾內(nèi),實(shí)現(xiàn)可高效、穩(wěn)定的對(duì)會(huì)議音視頻片段進(jìn)行識(shí)別與分類,可以便于對(duì)會(huì)議進(jìn)行查詢,提高了會(huì)議的記錄的效率和準(zhǔn)確率。
32、2、本發(fā)明,采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ),結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法,可以解決現(xiàn)有聲紋識(shí)別算法準(zhǔn)確率不高、抗干擾性弱、穩(wěn)定性較差、人工會(huì)議紀(jì)要效率低、成本高的問題。
1.一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述數(shù)據(jù)采集模塊包括音頻采集模塊和視頻采集模塊,所述音頻采集模塊用于采集會(huì)議當(dāng)前說話者的音頻數(shù)據(jù);視頻采集模塊用于采集會(huì)議當(dāng)前說話者的視頻數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述音頻采集模塊為麥克風(fēng),所述視頻采集模塊為攝像頭。
4.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述數(shù)據(jù)處理模塊包括特征提取模塊、交融模塊和解析模塊;
5.根據(jù)權(quán)利要求4所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述解析算法為采用resnet50殘參網(wǎng)絡(luò)為基礎(chǔ),結(jié)合分段常數(shù)衰減學(xué)習(xí)率、sgdm優(yōu)化器和arcface損失函數(shù)結(jié)合進(jìn)行優(yōu)化訓(xùn)練得到的解析算法。
6.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述系統(tǒng)還包括數(shù)據(jù)補(bǔ)充和修正部分,所述數(shù)據(jù)補(bǔ)充和修正部分用于對(duì)所述文字記錄進(jìn)行補(bǔ)充和修正。
7.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成系統(tǒng),其特征在于,所述文字記錄為對(duì)話形式的文字記錄。
8.根據(jù)權(quán)利要求1所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法,其特征在于,包括以下步驟:
9.根據(jù)權(quán)利要求8所述的一種基于聲紋識(shí)別的會(huì)議紀(jì)要生成方法,其特征在于,所述步驟s3中的分離信息為用戶講話時(shí)的視頻信息、語音信息和文字信息。