本公開涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種音素序列標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、音素序列通常包括具有時(shí)間順序關(guān)系的多個(gè)音素,其中,音素在漢語中一般包括文字發(fā)音中的聲母與韻母。在歌唱合成技術(shù)領(lǐng)域,如何實(shí)現(xiàn)對(duì)一段音頻數(shù)據(jù)進(jìn)行音素級(jí)別的標(biāo)注,越來越受到人們的關(guān)注。
2、目前,一般是通過人工標(biāo)注的方式實(shí)現(xiàn)對(duì)音頻數(shù)據(jù)的音素級(jí)別的標(biāo)注,具體的,針對(duì)一段音頻數(shù)據(jù),首先確定其對(duì)應(yīng)的文本數(shù)據(jù)(即歌詞),然后對(duì)文本數(shù)據(jù)進(jìn)行拼音標(biāo)注,進(jìn)而基于拼音標(biāo)注結(jié)果進(jìn)行因素序列標(biāo)注,可見,上述音素序列的標(biāo)注方式效率較低。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開實(shí)施例提供了一種音素序列標(biāo)注方法。
2、第一方面,本公開提供了一種音素序列標(biāo)注方法,所述方法包括:
3、獲取目標(biāo)音頻文本對(duì);其中,所述目標(biāo)音頻文本對(duì)包括具有對(duì)應(yīng)關(guān)系的目標(biāo)音頻片段和目標(biāo)文本片段;
4、將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)的目標(biāo)音素序列;其中,所述目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,所述目標(biāo)音素序列中的第一音素在所述音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,所述第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),所述狀態(tài)配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù);所述音素序列標(biāo)注模型為利用具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本訓(xùn)練得到。
5、一種可選的實(shí)施方式中,所述目標(biāo)音素序列中的第二音素在所述音素序列標(biāo)注模型中采用第二拓?fù)浣Y(jié)構(gòu)表示,所述第一音素為未攜帶拖音特征的音素,所述第二音素為攜帶第一拖音特征的音素,所述第二拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第二數(shù)量的狀態(tài),所述預(yù)設(shè)第二數(shù)量大于所述預(yù)設(shè)第一數(shù)量。
6、一種可選的實(shí)施方式中,所述目標(biāo)音素序列中的第三音素在所述音素序列標(biāo)注模型中采用第三拓?fù)浣Y(jié)構(gòu)表示,所述第三音素為攜帶第二拖音特征的音素,所述第一拖音特征為短拖音特征,所述第二拖音特征為長拖音特征,所述第三拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第三數(shù)量的狀態(tài),所述預(yù)設(shè)第三數(shù)量大于所述預(yù)設(shè)第二數(shù)量。
7、一種可選的實(shí)施方式中,所述將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)對(duì)應(yīng)的目標(biāo)音素序列之前,還包括:
8、獲取具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本;
9、利用所述第一拓?fù)浣Y(jié)構(gòu)、所述第二拓?fù)浣Y(jié)構(gòu)和所述第三拓?fù)浣Y(jié)構(gòu)中的至少一種拓?fù)浣Y(jié)構(gòu),對(duì)所述音素序列樣本中的音素進(jìn)行建模,得到所述音素序列樣本對(duì)應(yīng)的建模結(jié)果;
10、利用所述音頻片段樣本和音素序列樣本對(duì)應(yīng)的建模結(jié)果訓(xùn)練模型,得到所述音素序列標(biāo)注模型。
11、一種可選的實(shí)施方式中,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu)或九狀態(tài)結(jié)構(gòu)。
12、一種可選的實(shí)施方式中,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu),所述第三拓?fù)浣Y(jié)構(gòu)屬于九狀態(tài)結(jié)構(gòu)。
13、一種可選的實(shí)施方式中,所述狀態(tài)還配置有用于存儲(chǔ)音素標(biāo)識(shí)和狀態(tài)標(biāo)識(shí)的字段。
14、第二方面,本公開實(shí)施例提供了一種音素序列標(biāo)注裝置,所述裝置包括:
15、第一獲取模塊,用于獲取目標(biāo)音頻文本對(duì);其中,所述目標(biāo)音頻文本對(duì)包括具有對(duì)應(yīng)關(guān)系的目標(biāo)音頻片段和目標(biāo)文本片段;
16、標(biāo)注處理模塊,用于將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)的目標(biāo)音素序列;其中,所述目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,所述目標(biāo)音素序列中的第一音素在所述音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,所述第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),所述狀態(tài)配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù);所述音素序列標(biāo)注模型為利用具有對(duì)應(yīng)關(guān)系的音頻片段樣本和音素序列樣本訓(xùn)練得到。
17、第三方面,本公開提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備實(shí)現(xiàn)上述的方法。
18、第四方面,本公開提供了一種音素序列標(biāo)注設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)上述的方法。
19、第五方面,本公開提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。
20、本公開實(shí)施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比至少具有如下優(yōu)點(diǎn):
21、本公開實(shí)施例提供了一種音素序列標(biāo)注方法,首先,獲取目標(biāo)音頻文本對(duì),然后,將目標(biāo)音頻文本中的目標(biāo)音頻片段和目標(biāo)文本片段輸入至經(jīng)過訓(xùn)練的音素序列標(biāo)注模型中,經(jīng)過音素序列標(biāo)注模型的處理后,得到目標(biāo)音頻文本對(duì)的目標(biāo)音素序列。其中,目標(biāo)音素序列中包括具有時(shí)間順序關(guān)系的音素,目標(biāo)音素序列中的第一音素在音素序列標(biāo)注模型中采用第一拓?fù)浣Y(jié)構(gòu)表示,第一拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第一數(shù)量的狀態(tài),各個(gè)狀態(tài)分別配置有用于表征發(fā)音持續(xù)時(shí)長的時(shí)間參數(shù)??梢?,本公開實(shí)施例利用經(jīng)過訓(xùn)練的音素序列標(biāo)注模型實(shí)現(xiàn)音素序列的標(biāo)注,能夠提升音素序列標(biāo)注效率。
1.一種音素序列標(biāo)注方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)音素序列中的第二音素在所述音素序列標(biāo)注模型中采用第二拓?fù)浣Y(jié)構(gòu)表示,所述第一音素為未攜帶拖音特征的音素,所述第二音素為攜帶第一拖音特征的音素,所述第二拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第二數(shù)量的狀態(tài),所述預(yù)設(shè)第二數(shù)量大于所述預(yù)設(shè)第一數(shù)量。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)音素序列中的第三音素在所述音素序列標(biāo)注模型中采用第三拓?fù)浣Y(jié)構(gòu)表示,所述第三音素為攜帶第二拖音特征的音素,所述第一拖音特征為短拖音特征,所述第二拖音特征為長拖音特征,所述第三拓?fù)浣Y(jié)構(gòu)包括具有時(shí)間順序關(guān)系的預(yù)設(shè)第三數(shù)量的狀態(tài),所述預(yù)設(shè)第三數(shù)量大于所述預(yù)設(shè)第二數(shù)量。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述將所述目標(biāo)音頻文本對(duì)輸入至音素序列標(biāo)注模型中,經(jīng)過所述音素序列標(biāo)注模型的處理后,得到所述目標(biāo)音頻文本對(duì)對(duì)應(yīng)的目標(biāo)音素序列之前,還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu)或九狀態(tài)結(jié)構(gòu)。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一拓?fù)浣Y(jié)構(gòu)屬于三狀態(tài)結(jié)構(gòu),所述第二拓?fù)浣Y(jié)構(gòu)屬于六狀態(tài)結(jié)構(gòu),所述第三拓?fù)浣Y(jié)構(gòu)屬于九狀態(tài)結(jié)構(gòu)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述狀態(tài)還配置有用于存儲(chǔ)音素標(biāo)識(shí)和狀態(tài)標(biāo)識(shí)的字段。
8.一種音素序列標(biāo)注裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。
10.一種音素序列標(biāo)注設(shè)備,其特征在于,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的方法。