本技術(shù)涉及音頻處理技術(shù),尤其涉及一種不同聲道數(shù)音頻的編解碼處理方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、目前,基于深度學(xué)習(xí)的音頻編解碼算法,針對不同聲道數(shù)的音頻均采用不同的模型。例如,最常見的單聲道音頻和雙聲道音頻,需要設(shè)計兩種類型的深度學(xué)習(xí)網(wǎng)絡(luò),使用不同的訓(xùn)練集進(jìn)行訓(xùn)練;并且,在應(yīng)用中根據(jù)輸入音源是單聲道還是雙聲道,調(diào)用相對應(yīng)的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行編解碼。
2、由此可見,相關(guān)技術(shù)中存在需要采用不同的音頻編解碼模型處理不同聲道數(shù)的音頻的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種不同聲道數(shù)音頻的編解碼處理方法、裝置、設(shè)備及介質(zhì),用以解決相關(guān)技術(shù)中需要采用不同的音頻編解碼模型處理不同聲道數(shù)的音頻的問題,實現(xiàn)自適應(yīng)將雙聲道音頻分解為單聲道音頻,再采用單聲道音頻的處理方式處理分解得到的單聲道音頻的技術(shù)效果。
2、一方面,本技術(shù)提供一種不同聲道數(shù)音頻的編解碼處理方法,所述方法包括:
3、獲取待處理音頻中的單聲道音頻和/或雙聲道音頻;
4、針對所述單聲道音頻,采用單聲道網(wǎng)絡(luò)對所述單聲道音頻進(jìn)行編解碼處理,得到對應(yīng)的編解碼碼流;
5、針對所述雙聲道音頻,基于所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,并分別采用單聲道網(wǎng)絡(luò)對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理,以最終得到與所述左聲道音頻和所述右聲道音頻各自對應(yīng)的編解碼碼流。
6、一種可選的實施方式,獲取待處理音頻中的單聲道音頻和/或雙聲道音頻,包括:
7、若所述待處理音頻為多聲道音頻,則獲取所述待處理音頻的聲道自然屬性;
8、根據(jù)所述待處理音頻的聲道自然屬性,將所述待處理音頻拆分成得到所述雙聲道音頻和/或所述單聲道音頻。
9、一種可選的實施方式,分別采用單聲道網(wǎng)絡(luò)對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理,以最終得到與所述左聲道音頻和所述右聲道音頻各自對應(yīng)的編解碼碼流,包括:
10、分別采用單聲道網(wǎng)絡(luò)對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理,得到所述主成分聲道音頻和所述殘余成分聲道音頻各自對應(yīng)的編解碼碼流;
11、對所述主成分聲道音頻和所述殘余成分聲道音頻各自對應(yīng)的編解碼碼流,分別進(jìn)行雙聲道逆變換處理,得到與所述左聲道音頻和所述右聲道音頻各自對應(yīng)的編解碼碼流。
12、一種可選的實施方式,分別采用單聲道網(wǎng)絡(luò)對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理,包括:
13、獲取所述雙聲道音頻中左聲道音頻和右聲道音頻之間的相關(guān)性;
14、根據(jù)所述雙聲道音頻中左聲道音頻和右聲道音頻之間的相關(guān)性,確定所述主成分聲道音頻和所述殘余成分聲道音頻各自的碼率;
15、根據(jù)所述主成分聲道音頻和所述殘余成分聲道音頻各自的碼率,對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理。
16、一種可選的實施方式,基于所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,包括:
17、對所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行逐樣本點加處理,再除以2,得到所述主成分聲道音頻;
18、對所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行逐樣本點減處理,再除以2,得到所述殘余成分聲道音頻。
19、一種可選的實施方式,基于所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,包括:
20、對所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行主成分分析,得到主成分變換的角度參數(shù);
21、基于所述主成分變換角度參數(shù),分別對所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行變換處理,得到所述主成分聲道音頻和所述殘余成分聲道音頻。
22、一種可選的實施方式,采用單聲道網(wǎng)絡(luò)對所述單聲道音頻進(jìn)行編解碼處理,得到對應(yīng)的編解碼碼流,包括:
23、對所述單聲道音頻進(jìn)行信號處理,得到多個音頻片段;
24、采用所述單聲道網(wǎng)絡(luò)中的多個編碼器網(wǎng)絡(luò),連續(xù)對所述多個音頻片段降維處理,得到所述多個音頻片段的多維向量;
25、采用所述單聲道網(wǎng)絡(luò)中的量化網(wǎng)絡(luò),檢索碼表中與所述多維向量對應(yīng)的碼字,以使得在后續(xù)處理中采用所述碼字的索引值替代所述多維向量作為所述單聲道音頻的編碼碼流;
26、采用所述單聲道網(wǎng)絡(luò)中的反量化網(wǎng)絡(luò),根據(jù)所述碼字的索引值從所述碼表檢索到對應(yīng)的所述多維向量;
27、采用所述單聲道網(wǎng)絡(luò)中的多個解碼器網(wǎng)絡(luò),連續(xù)對所述多維向量進(jìn)行升維處理,得到所述單聲道音頻的解碼碼流。
28、一種可選的實施方式,在采用所述單聲道網(wǎng)絡(luò)中的量化網(wǎng)絡(luò),檢索碼表中與所述多維向量對應(yīng)的碼字之前,所述方法還包括:
29、若所述多維向量與所述量化網(wǎng)絡(luò)的碼表張量不匹配,則采用所述單聲道網(wǎng)絡(luò)中的映射網(wǎng)絡(luò),將所述多維向量處理為與所述量化網(wǎng)絡(luò)的碼表張量匹配。
30、另一方面,本技術(shù)提供一種不同聲道數(shù)音頻的編解碼處理裝置,所述裝置包括:
31、獲取模塊,用于獲取待處理音頻中的單聲道音頻和/或雙聲道音頻;
32、單聲道音頻處理模塊,用于針對所述單聲道音頻,采用單聲道網(wǎng)絡(luò)對所述單聲道音頻進(jìn)行編解碼處理,得到對應(yīng)的編解碼碼流;
33、雙聲道音頻處理模塊,用于針對所述雙聲道音頻,基于所述雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,并分別采用單聲道網(wǎng)絡(luò)對所述主成分聲道音頻和所述殘余成分聲道音頻進(jìn)行編解碼處理,以最終得到與所述左聲道音頻和所述右聲道音頻各自對應(yīng)的編解碼碼流。
34、另一方面,本技術(shù)提供一種電子設(shè)備,包括:處理器,以及與上述處理器連接的存儲器;上述存儲器存儲計算機(jī)執(zhí)行指令;上述處理器執(zhí)行上述存儲器存儲的計算機(jī)執(zhí)行指令,以實現(xiàn)如任一項上述的方法。
35、另一方面,本技術(shù)提供一種計算機(jī)可讀存儲介質(zhì),上述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)執(zhí)行指令,上述計算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如任一項上述的方法。
36、另一方面,本技術(shù)提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)任一項上述的方法。
37、本技術(shù)提供的不同聲道數(shù)音頻的編解碼處理方法、裝置、設(shè)備及介質(zhì),通過獲取待處理音頻中的單聲道音頻和/或雙聲道音頻;針對單聲道音頻,采用單聲道網(wǎng)絡(luò)對單聲道音頻進(jìn)行編解碼處理,得到對應(yīng)的編解碼碼流;針對雙聲道音頻,基于雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,并分別采用單聲道網(wǎng)絡(luò)對主成分聲道音頻和殘余成分聲道音頻進(jìn)行編解碼處理,以最終得到與左聲道音頻和右聲道音頻各自對應(yīng)的編解碼碼流。
38、本技術(shù)實施例,對單聲道音頻,采用單聲道網(wǎng)絡(luò)對單聲道音頻進(jìn)行編解碼處理,得到對應(yīng)的編解碼碼流;對雙聲道音頻,先基于雙聲道音頻中的左聲道音頻和右聲道音頻進(jìn)行雙聲道變換處理得到主成分聲道音頻和殘余成分聲道音頻,再分別采用單聲道網(wǎng)絡(luò)對主成分聲道音頻和殘余成分聲道音頻進(jìn)行編解碼處理,以最終得到與左聲道音頻和右聲道音頻各自對應(yīng)的編解碼碼流。即本技術(shù)實施例只需要使用單聲道網(wǎng)絡(luò),可以解決相關(guān)技術(shù)中需要采用不同的音頻編解碼模型處理不同聲道數(shù)的音頻的問題,實現(xiàn)將雙聲道音頻分解為單聲道音頻,再采用單聲道音頻的處理方式處理分解得到的單聲道音頻的技術(shù)效果。