日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種音素序列標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):42164431發(fā)布日期:2025-06-13 16:15閱讀:4來源:國知局

本公開涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種音素序列標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、音素序列通常包括具有時(shí)間順序關(guān)系的多個(gè)音素,其中,音素在漢語中一般包括文字發(fā)音中的聲母與韻母。在歌唱合成技術(shù)領(lǐng)域,如何實(shí)現(xiàn)對(duì)一段音頻數(shù)據(jù)進(jìn)行音素級(jí)別的標(biāo)注,越來越受到人們的關(guān)注。

2、目前,一般是通過人工標(biāo)注的方式實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)的音素級(jí)別的標(biāo)注,具體的,針對(duì)一段音頻數(shù)據(jù),首先確定其對(duì)應(yīng)的文本數(shù)據(jù)(即歌詞),然后對(duì)文本數(shù)據(jù)進(jìn)行拼音標(biāo)注,進(jìn)而基于拼音標(biāo)注結(jié)果進(jìn)行因素序列標(biāo)注,可見,上述音素序列的標(biāo)注方式效率較低。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題,本公開實(shí)施例提供了一種音素序列標(biāo)注方法。

2、第一方面,本公開提供了一種音素序列標(biāo)注方法,所述方法包括:

3、獲取目標(biāo)音頻文本對(duì);其中,所述目標(biāo)音頻文本對(duì)包括具有對(duì)應(yīng)關(guān)系的目標(biāo)音頻片段和目標(biāo)文本片段;

4、將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)的目標(biāo)音素序列;其中,所述目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,所述目標(biāo)音素序列中的第一音素在所述音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,所述第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),所述狀態(tài)配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù);所述音素序列標(biāo)注模型為利用具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本訓(xùn)練得到。

5、一種可選的實(shí)施方式中,所述目標(biāo)音素序列中的第二音素在所述音素序列標(biāo)注模型中采用第二拓?fù)浣Y(jié)構(gòu)表示,所述第一音素為未攜帶拖音特征的音素,所述第二音素為攜帶第一拖音特征的音素,所述第二拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第二數(shù)量的狀態(tài),所述預(yù)設(shè)第二數(shù)量大于所述預(yù)設(shè)第一數(shù)量。

6、一種可選的實(shí)施方式中,所述目標(biāo)音素序列中的第三音素在所述音素序列標(biāo)注模型中采用第三拓?fù)浣Y(jié)構(gòu)表示,所述第三音素為攜帶第二拖音特征的音素,所述第一拖音特征為短拖音特征,所述第二拖音特征為長拖音特征,所述第三拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第三數(shù)量的狀態(tài),所述預(yù)設(shè)第三數(shù)量大于所述預(yù)設(shè)第二數(shù)量。

7、一種可選的實(shí)施方式中,所述將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)對(duì)應(yīng)的目標(biāo)音素序列之前,還包括:

8、獲取具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本;

9、利用所述第一拓?fù)浣Y(jié)構(gòu)、所述第二拓?fù)浣Y(jié)構(gòu)和所述第三拓?fù)浣Y(jié)構(gòu)中的至少一種拓?fù)浣Y(jié)構(gòu),對(duì)所述音素序列樣本中的音素進(jìn)行建模,得到所述音素序列樣本對(duì)應(yīng)的建模結(jié)果;

10、利用所述音頻片段樣本和音素序列樣本對(duì)應(yīng)的建模結(jié)果訓(xùn)練模型,得到所述音素序列標(biāo)注模型。

11、一種可選的實(shí)施方式中,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu)或九狀態(tài)結(jié)構(gòu)。

12、一種可選的實(shí)施方式中,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu),所述第三拓?fù)浣Y(jié)構(gòu)屬于九狀態(tài)結(jié)構(gòu)。

13、一種可選的實(shí)施方式中,所述狀態(tài)還配置有用于存儲(chǔ)音素標(biāo)識(shí)和狀態(tài)標(biāo)識(shí)的字段。

14、第二方面,本公開實(shí)施例提供了一種音素序列標(biāo)注裝置,所述裝置包括:

15、第一獲取模塊,用于獲取目標(biāo)音頻文本對(duì);其中,所述目標(biāo)音頻文本對(duì)包括具有對(duì)應(yīng)關(guān)系的目標(biāo)音頻片段和目標(biāo)文本片段;

16、標(biāo)注處理模塊,用于將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)的目標(biāo)音素序列;其中,所述目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,所述目標(biāo)音素序列中的第一音素在所述音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,所述第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),所述狀態(tài)配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù);所述音素序列標(biāo)注模型為利用具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本訓(xùn)練得到。

17、第三方面,本公開提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備實(shí)現(xiàn)上述的方法。

18、第四方面,本公開提供了一種音素序列標(biāo)注設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)上述的方法。

19、第五方面,本公開提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。

20、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比至少具有如下優(yōu)點(diǎn):

21、本公開實(shí)施例提供了一種音素序列標(biāo)注方法,首先,獲取目標(biāo)音頻文本對(duì),然后,將目標(biāo)音頻文本中的目標(biāo)音頻片段和目標(biāo)文本片段輸入至經(jīng)過訓(xùn)練的音素序列標(biāo)注模型中,經(jīng)過音素序列標(biāo)注模型的處理后,得到目標(biāo)音頻文本對(duì)的目標(biāo)音素序列。其中,目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,目標(biāo)音素序列中的第一音素在音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),各個(gè)狀態(tài)分別配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù)??梢?,本公開實(shí)施例利用經(jīng)過訓(xùn)練的音素序列標(biāo)注模型實(shí)現(xiàn)音素序列的標(biāo)注,能夠提升音素序列標(biāo)注效率。



技術(shù)特征:

1.一種音素序列標(biāo)注方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)音素序列中的第二音素在所述音素序列標(biāo)注模型中采用第二拓?fù)浣Y(jié)構(gòu)表示,所述第一音素為未攜帶拖音特征的音素,所述第二音素為攜帶第一拖音特征的音素,所述第二拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第二數(shù)量的狀態(tài),所述預(yù)設(shè)第二數(shù)量大于所述預(yù)設(shè)第一數(shù)量。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)音素序列中的第三音素在所述音素序列標(biāo)注模型中采用第三拓?fù)浣Y(jié)構(gòu)表示,所述第三音素為攜帶第二拖音特征的音素,所述第一拖音特征為短拖音特征,所述第二拖音特征為長拖音特征,所述第三拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第三數(shù)量的狀態(tài),所述預(yù)設(shè)第三數(shù)量大于所述預(yù)設(shè)第二數(shù)量。

4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)對(duì)應(yīng)的目標(biāo)音素序列之前,還包括:

5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu)或九狀態(tài)結(jié)構(gòu)。

6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu),所述第三拓?fù)浣Y(jié)構(gòu)屬于九狀態(tài)結(jié)構(gòu)。

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述狀態(tài)還配置有用于存儲(chǔ)音素標(biāo)識(shí)和狀態(tài)標(biāo)識(shí)的字段。

8.一種音素序列標(biāo)注裝置,其特征在于,所述裝置包括:

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。

10.一種音素序列標(biāo)注設(shè)備,其特征在于,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本公開提供了一種音素序列標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),所述方法包括:首先,獲取目標(biāo)音頻文本對(duì),然后,將目標(biāo)音頻文本中的目標(biāo)音頻片段和目標(biāo)文本片段輸入至經(jīng)過訓(xùn)練的音素序列標(biāo)注模型中,經(jīng)過音素序列標(biāo)注模型的處理后,得到目標(biāo)音頻文本對(duì)的目標(biāo)音素序列。其中,目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,目標(biāo)音素序列中的第一音素在音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),各個(gè)狀態(tài)分別配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù)。

技術(shù)研發(fā)人員:蔣泳森
受保護(hù)的技術(shù)使用者:北京字跳網(wǎng)絡(luò)技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/12
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1