本申請(qǐng)涉及語音識(shí)別,更具體的說,是涉及一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法、裝置、相關(guān)設(shè)備及程序產(chǎn)品。
背景技術(shù):
1、語音轉(zhuǎn)寫作為人工智能技術(shù)的重要案例被廣泛應(yīng)用于各個(gè)領(lǐng)域。對(duì)語音轉(zhuǎn)寫系統(tǒng)的效果進(jìn)行準(zhǔn)確評(píng)測(cè)至關(guān)重要。
2、當(dāng)前業(yè)界主流的語音轉(zhuǎn)寫系統(tǒng)一般僅考慮語音轉(zhuǎn)寫系統(tǒng)的音字轉(zhuǎn)寫正確率,若音字轉(zhuǎn)寫正確率高,則認(rèn)為語音轉(zhuǎn)寫系統(tǒng)的轉(zhuǎn)寫效果好。而在實(shí)際業(yè)務(wù)場(chǎng)景經(jīng)常會(huì)遇到音字轉(zhuǎn)寫正確率已經(jīng)很高了,但是人們閱讀轉(zhuǎn)寫文本時(shí)還是會(huì)出現(xiàn)意思不明、理解有偏差的問題。也即,當(dāng)前的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的評(píng)測(cè)結(jié)果不夠客觀、與人類的真實(shí)感受不一致。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,提出了本申請(qǐng)以便提供一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法、裝置、相關(guān)設(shè)備及程序產(chǎn)品,以提升語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)結(jié)果的客觀性,以及與人類真實(shí)感受的一致性。具體方案如下:
2、第一方面,提供了一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法,包括:
3、獲取測(cè)試音頻及其對(duì)應(yīng)的參考文本;
4、獲取所述測(cè)試音頻的第一轉(zhuǎn)寫文本,所述第一轉(zhuǎn)寫文本通過待評(píng)測(cè)的語音轉(zhuǎn)寫系統(tǒng)對(duì)所述測(cè)試音頻進(jìn)行轉(zhuǎn)寫得到;
5、確定所述第一轉(zhuǎn)寫文本和所述參考文本間的語義一致性,得到語義一致性指標(biāo)得分;
6、按照設(shè)定的評(píng)測(cè)指標(biāo)的得分,確定所述語音轉(zhuǎn)寫系統(tǒng)的評(píng)測(cè)結(jié)果,所述設(shè)定的評(píng)測(cè)指標(biāo)至少包括所述語義一致性指標(biāo)。
7、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,還包括:
8、獲取加噪測(cè)試音頻,所述加噪測(cè)試音頻為對(duì)所述測(cè)試音頻進(jìn)行加噪處理后得到的音頻;
9、獲取所述加噪測(cè)試音頻的第二轉(zhuǎn)寫文本,所述第二轉(zhuǎn)寫文本通過所述語音轉(zhuǎn)寫系統(tǒng)對(duì)所述加噪測(cè)試音頻進(jìn)行轉(zhuǎn)寫得到;
10、基于所述第一轉(zhuǎn)寫文本、所述第二轉(zhuǎn)寫文本和所述參考文本,確定噪聲魯棒性指標(biāo)得分,所述噪聲魯棒性指標(biāo)用于衡量加噪前后音頻的轉(zhuǎn)寫文本的穩(wěn)定性;
11、所述設(shè)定的評(píng)測(cè)指標(biāo)還包括所述噪聲魯棒性指標(biāo)。
12、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,還包括:
13、根據(jù)所述參考文本和所述第一轉(zhuǎn)寫文本,計(jì)算識(shí)別率指標(biāo)得分,所述識(shí)別率指標(biāo)表征音字轉(zhuǎn)寫的正確率;
14、所述設(shè)定的評(píng)測(cè)指標(biāo)還包括所述識(shí)別率指標(biāo)。
15、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,確定所述第一轉(zhuǎn)寫文本和所述參考文本間的語義一致性,得到語義一致性指標(biāo)得分的過程,包括:
16、調(diào)用大模型,以指示大模型評(píng)估所述第一轉(zhuǎn)寫文本和所述參考文本間的語義一致性,輸出語義一致性指標(biāo)得分。
17、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,基于所述第一轉(zhuǎn)寫文本、所述第二轉(zhuǎn)寫文本和所述參考文本,確定噪聲魯棒性指標(biāo)得分的過程,包括:
18、以所述第一轉(zhuǎn)寫文本作為源文本,以所述第二轉(zhuǎn)寫文本作為生成文本,基于所述源文本、所述生成文本和所述參考文本,計(jì)算sari指標(biāo)分?jǐn)?shù),作為噪聲魯棒性指標(biāo)得分。
19、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,根據(jù)所述參考文本和所述第一轉(zhuǎn)寫文本,計(jì)算識(shí)別率指標(biāo)得分的過程,包括:
20、對(duì)所述參考文本和所述第一轉(zhuǎn)寫文本進(jìn)行編輯距離對(duì)齊;
21、基于對(duì)齊結(jié)果計(jì)算正確識(shí)別率cor指標(biāo)得分以及準(zhǔn)確率acc指標(biāo)得分;
22、整合所述cor指標(biāo)得分和所述acc指標(biāo)得分,得到識(shí)別率指標(biāo)得分。
23、在一種可能的設(shè)計(jì)中,在本申請(qǐng)實(shí)施例的第一方面的另一種實(shí)現(xiàn)方式中,整合所述cor指標(biāo)得分和所述acc指標(biāo)得分,得到識(shí)別率指標(biāo)得分的過程,包括:
24、對(duì)所述cor指標(biāo)得分和所述acc指標(biāo)得分進(jìn)行加權(quán)相加,得到識(shí)別率指標(biāo)得分;
25、在所述測(cè)試音頻來源于短音頻測(cè)試集合的情況下,所述cor指標(biāo)對(duì)應(yīng)的第一權(quán)重小于所述acc指標(biāo)對(duì)應(yīng)的第二權(quán)重,所述短音頻測(cè)試集合中包含的測(cè)試音頻的時(shí)長小于第一設(shè)定時(shí)長閾值;
26、在所述測(cè)試音頻來源于長音頻測(cè)試集合的情況下,所述cor指標(biāo)對(duì)應(yīng)的第一權(quán)重大于所述acc指標(biāo)對(duì)應(yīng)的第二權(quán)重,所述長音頻測(cè)試集合中包含的測(cè)試音頻的時(shí)長大于第二設(shè)定時(shí)長閾值。
27、第二方面,提供了一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)裝置,包括:
28、測(cè)試音頻及參考文本獲取單元,用于獲取測(cè)試音頻及其對(duì)應(yīng)的參考文本;
29、第一轉(zhuǎn)寫文本獲取單元,用于獲取所述測(cè)試音頻的第一轉(zhuǎn)寫文本,所述第一轉(zhuǎn)寫文本通過待評(píng)測(cè)的語音轉(zhuǎn)寫系統(tǒng)對(duì)所述測(cè)試音頻進(jìn)行轉(zhuǎn)寫得到;
30、語義一致性指標(biāo)計(jì)算單元,用于確定所述第一轉(zhuǎn)寫文本和所述參考文本間的語義一致性,得到語義一致性指標(biāo)得分;
31、評(píng)測(cè)結(jié)果確定單元,用于按照設(shè)定的評(píng)測(cè)指標(biāo)的得分,確定所述語音轉(zhuǎn)寫系統(tǒng)的評(píng)測(cè)結(jié)果,所述設(shè)定的評(píng)測(cè)指標(biāo)至少包括所述語義一致性指標(biāo)。
32、第三方面,提供了一種電子設(shè)備,包括:存儲(chǔ)器和處理器;
33、所述存儲(chǔ)器,用于存儲(chǔ)程序;
34、所述處理器,用于執(zhí)行所述程序,實(shí)現(xiàn)本申請(qǐng)前述第一方面中任一種所描述的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的各個(gè)步驟。
35、第四方面,提供了一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)前述第一方面中任一種所描述的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的各個(gè)步驟。
36、第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)本申請(qǐng)前述第一方面中任一種所描述的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的各個(gè)步驟。
37、借由上述技術(shù)方案,本申請(qǐng)?jiān)趯?duì)語音轉(zhuǎn)寫系統(tǒng)進(jìn)行評(píng)測(cè)時(shí),引入了語義一致性指標(biāo),該指標(biāo)能夠衡量測(cè)試音頻的第一轉(zhuǎn)寫文本,與參考文本之間的語義一致性,也即衡量第一轉(zhuǎn)寫文本和參考文本在語義層面表達(dá)意思一致的程度,能夠準(zhǔn)確衡量語音轉(zhuǎn)寫系統(tǒng)對(duì)測(cè)試音頻語義傳遞的能力,進(jìn)而至少根據(jù)語義一致性指標(biāo)得分,確定語音轉(zhuǎn)寫系統(tǒng)的評(píng)測(cè)結(jié)果,提升了評(píng)測(cè)結(jié)果的客觀性。同時(shí),語義一致性評(píng)測(cè)指標(biāo)也更加符合人類真實(shí)的閱讀感受,因此得到的評(píng)測(cè)結(jié)果也更加符合人類的真實(shí)感受。
1.一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述第一轉(zhuǎn)寫文本和所述參考文本間的語義一致性,得到語義一致性指標(biāo)得分的過程,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于所述第一轉(zhuǎn)寫文本、所述第二轉(zhuǎn)寫文本和所述參考文本,確定噪聲魯棒性指標(biāo)得分的過程,包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述參考文本和所述第一轉(zhuǎn)寫文本,計(jì)算識(shí)別率指標(biāo)得分的過程,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,整合所述cor指標(biāo)得分和所述acc指標(biāo)得分,得到識(shí)別率指標(biāo)得分的過程,包括:
8.一種語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器和處理器;
10.一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的各個(gè)步驟。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的語音轉(zhuǎn)寫系統(tǒng)評(píng)測(cè)方法的各個(gè)步驟。