征信號。然而,事實證明仍然留有基于每個子 帶存在的量較為顯著的相關性(冗余)?;诿總€子帶的特征向量El、E2、E3之間的相關 性(冗余)可以由預測方案高效地利用。因此,可以應用預測方案以基于主要的特征向量E1預測特征向量E2和E3。因此,提出了將預測編碼應用于聲場信號的特征通道表達,后者 是通過對"WXY"域中的聲場信號111執(zhí)行寬帶KLT所獲得的。
[0207] 基于預測的編碼方案(或簡稱為"預測編碼")可以提供參數(shù)化,該參數(shù)化將參數(shù) 化的信號E2、E3劃分成完全相關的(預測的)分量,以及從下混合信號E1得到的去相關的 (非預測的)分量。該參數(shù)化可以在適當?shù)腡-F變換201之后在頻域中執(zhí)行。聲場信號111 的變換的時間幀的某些頻點可以被組合以形成被一起作為單個向量(即,子帶信號)處理 的頻帶。通常,這種頻率聯(lián)合以感知為根據(jù)。頻點的聯(lián)合可以在聲場信號的整個頻率范圍 形成僅一個或兩個頻帶。
[0208] 更具體地,在每個時間幀p(例如,20ms)中以及對于每個頻帶k,特征向量El(p,k) 可以被用作下混合信號113,并且特征向量E2(p,k)和E3(p,k)可以被重建為
[0209]E2 (p,k) =a2 (p,k) *E1 (p,k) +b2 (p,k)*d(El(p,k)), (17)
[0210]E3 (p,k) =a3 (p,k) *E1 (p,k)+b3 (p,k)*d(El(p,k)), (18)
[0211] 其中,a2、b2、a3、b3為參數(shù)化的參數(shù),d(El(p,k)是El(p,k)的去相關版本,但對 于E2和E3可以有不同的d(El(p,k),因而可以表示為d2(El(p,k))和d3(El(p,k))。替代 El(p,k) 113,下混合信號El(p,k) 113的重建版本k) 261 (也是在解碼器250處可得 到的)可以用于上面的公式中。
[0212] 在編碼器1200(在單元104內以及具體地在單元205內)處,預測參數(shù)a2和a3 可以分別被計算為下混合信號El、E2和E3之間的MSE(均方誤差)估計量。例如,在實值 的MDCT域中,預測參數(shù)a2和a3可以被確定為(也可以使用.〖Γ?(ρ/Ι<)替代El(p,k)):
[0213]a2(p,k) = (ElT(p,k) *E2 (p,k)) / (E1T (p,k) *E1 (p,k)), (19)
[0214]a3(p,k) = (ElT(p,k)*E3(p,k))/(ElT(p,k)*El(p,k)), (20)其中,T表示向 量轉置。因此,可以使用預測參數(shù)a2和a3確定特征信號E2和E3的預測分量。
[0215] 對于特征信號E2和E3的去相關分量的確定,是使用去相關器d2()和d3()利用 下混合信號E1來確定兩個去相關版本。通常,去相關信號d2(El(p,k))和d3(El(p,k)) 的質量(性能)對提出的編碼方案的整體感知質量具有影響。可以使用不同的去相關方 法。作為示例,可以對下混合信號E1的幀進行全通濾波以產(chǎn)生去相關信號d2(El(p,k))和 d3(El(p,k))的相應的幀。在3-通道聲場信號的編碼中,事實證明,可以通過將下混合信 號El(或重建的下混合信號證.,例如,證:·一1#轉和2,k))的延遲版本(即, 存儲的在前的幀)用作去相關信號,來實現(xiàn)感知上穩(wěn)定的結果。
[0216] 如果去相關信號由單聲道編碼的殘差信號代替,則所得到的系統(tǒng)再次進行波形編 碼。如果預測增益高,這可以是有利的。例如,可以考慮明確地確定殘差信號resE2(p,k) =E2 (p,k) -a2 (p,k) *E1 (p,k))以及resE3 (p,k) =E3 (p,k) -a3 (p,k) *E1 (p,k)),殘差信 號具有去相關信號的屬性(至少從由等式(17)和(18)給定的假定的模型的角度來看)。 這些信號reSE2(p,k)和resE3(p,k)的波形編碼可以被視為對使用合成的去相關信號的替 代方案。單聲道編解碼器的另外的示例可以用于執(zhí)行殘差信號resE2(p,k)和resE3(p,k) 的明確的編碼。然而,這將是不利的,因為用于向解碼器傳送殘差所需要的比特率將相對較 高。另一方面,這種方法的優(yōu)點在于,它便于解碼器重建,當所分配的比特率變大時,解碼器 重建接近于完美。
[0217] 去相關器的能量調整增益b2(p,k)和b3(p,k)可以被計算為
[0218]b2 (p,k) =norm(E2 (p,k) -a2 (p,k) *E1 (p,k))/norm(El(p,k)) (21)
[0219]b3 (p,k) =norm(E3 (p,k) -a3 (p,k) *E1 (p,k))/norm(El(p,k)), (22)
[0220] 其中,normO表示RMS(均方根)運算。下混合信號El(p,k)可以在上式中由重 建的下混合信號〖Γ?:(ρ,k)替代。使用該參數(shù)化,在解碼器250處恢復兩個預測誤差信號的方 差。
[0221] 應當注意,由等式(17)和(18)給出的信號模型,以及確定由等式(21)和(22) 給定的能量調整增益b2(p,k)和b3(p,k)的估計過程,均假定去相關信號d2(El(p,k)) 和d3(El(p,k))的能量與下混合信號El(p,k)的能量匹配(至少近似匹配)。根據(jù)所使 用的去相關器,可能不是這樣的情況。例如,當使用El(p,k)的延遲版本時,El(p-l,k)和 El(p-2,k)的能量可以不同于El(p,k))的能量。另外,解碼器250僅訪問El(p,k)的解碼的 版本Γ?(ρ.,Ι<),原則上,該可以具有與未編碼的下混合信號El(p,k)不同的能量。
[0222] 鑒于上述情況,編碼器1200和/或解碼器250可以被配置成對去相關信號 d2(El(p,k))和d3(El(p,k))的能量進行調整,或對能量調整增益b2(p,k)和b3(p,k)進 行進一步調整,以便對去相關信號d2(El(p,k))和d3(El(p,k))的能量與El(p,k)(或 ?〇(ρ/Κ))的能量之間的不匹配進行考慮。如上文所述,去相關器d2()和d3()可以分別 被實現(xiàn)為一幀延遲或兩幀延遲。在這種情況下,通常出現(xiàn)前面所提到的能量不匹配(特別 是在瞬變信號的情況下)。為了確保由式(17)和(18)給定的信號模型的正確性,以及為了 在重建期間插入適當量的去相關信號d2(El(p,k))和d3(El(p,k)),應當(在編碼器1200 和/或解碼器250處)執(zhí)行進一步的能量調整。
[0223] 在示例中,可以如下進行進一步的能量調整。編碼器1200可能已將(使用公式 (21)和(22)所確定的)能量調整增益b2(p,k)和b3(p,k)(可以是量化和編碼的版本)插 入到空間比特流221中。解碼器250可以被配置成對能量調整增益b2(p,k)和b3(p,k)進 行解碼(在預測參數(shù)解碼單元255中),以產(chǎn)生解碼的調整增益和215。 此外,解碼器250可以被配置成使用波形解碼器251對下混合信號El(p,k)的編碼版本進 行解碼,以產(chǎn)生解碼的下混合信號MD(p,k)261(在本文件中也表示為)。另外,解 碼器250可以被配置成基于解碼的下混合信號MD(p,k) 261,例如,通過一個或兩個幀延遲 (由p-Ι和P-2表示)生成去相關信號264(在去相關器單元252中),可以寫為:
[0224] D2 (p,k) =d2(MD(p,k)) =MD(p-1,k), (24)
[0225] D3 (p,k) =d3(MD(p,k)) =MD(p-2,k). (25)
[0226] 可以使用可以表示為b2new(p,k)和b3new(p,k)的更新的能量調整增益執(zhí)行E2 和E3的重建。更新的能量調整增益b2new(p,k)和b3new(p,k)可以根據(jù)下面的公式計算:
[0227] b2new(p,k) =b2 (p,k)*norm(MD(p,k))/norm(d2(MD(p,k))), (26)
[0228] b3new(p,k) =b3 (p,k)*norm(MD(p,k))/norm(d3(MD(p,k))), (27)
[0229]例如,
[0230] b2new(p,k) =b2 (p,k) *norm(MD(p,k))/norm(MD(p-1,k)), (28)
[0231] b3new(p,k) =b3 (p,k)*norm(MD(p,k))/norm(MD(p~2,k)). (29)
[0232] 改進的能量調整方法可以被稱為"ducker"調整。該"ducker"調整可以使用下面 的公式來計算更新的能量調整增益:
[0233]b2new(p,k) =b2(p,k)*norm(MD(p,k)) /max (norm(MD(p,k)),norm (d2(MD(p,k)) )) (30)
[0234]b3new(p,k) =b3(p,k)*norm(MD(p,k)) /max (norm(MD(p,k)),norm (d3(MD(p,k)) )) (31)
[0235]例如,
[0236]b2new(p,k) =b2(p,k)*norm(MD(p,k))/max (norm(MD(p,k)),norm(MD(p~l,k))), (32)
[0237]b3new(p,k) =b3 (p,k)*norm(MD(p,k))/max(norm(MD(p,k)),norm(MD(p~2,k))). (33)
[0238] 這還可以寫為:
[0239]b2new(p,k) =b2 (p,k)*min(1,norm(MD(p,k))/norm(d2(MD(p,k)))), (34)
[0240]
[0241]b3new (p,k) = b3 (p,k) *min (1,norm (MD (p,k))/norm (d3 (MD (p,k)))),(35)
[0242]
[0243]例如,
[0244]b2new(p,k) =b2 (p,k)*min(1,norm(MD(p,k))/norm(MD(p-1,k))), (36)
[0245]
[0246]b3new(p,k) =b3 (p,k)*min(1,norm(MD(p,k))/norm(MD(p-2,k))). (37)
[0247]
[0248] 在"ducker"調整的情況下,如果下混合信號MD(p,k)的當前幀的能量低于下混 合信號MD(p-1,k)和/或MD(p-2,k)的在前幀的能量,則僅更新能量調整增益b2 (p,k)和 b3(p,k)。換言之,更新的能量調整增益低于或等于原始的能量調整增益。更新的能量調 整增益相對于原始的能量調整增益沒有增加。這在當前幀MD(p,k)內出現(xiàn)上升(即,從低 能量到高能量的轉換)的情況下可以是有利的。在這種情況下,去相關信號MD(p-l,k)和 MD(p-2,k)通常包括噪聲,噪聲將通過對能量調整增益b2(p,k)和b3(p,k)應用比1大的因 子被加強。因此,通過使用上面所提到的"ducker"調整,可以改進重建的聲場信號的感知 質量。
[0249] 上面所提到的能量調整方法僅需要當前幀以及兩個在前的幀,S卩,p-l、p-2的每個 子帶f(也稱作參數(shù)帶k)的解碼的下混合信號MD的能量作為輸入。
[0250] 應當注意,更新的能量調整增益b2new(p,k)和b3new(p,k)還可以直接在編碼器 1200處確定,并且可以被編碼并插入到空間比特流221中(替代能量調整增益b2(p,k)和 b3(p,k))。這對于能量調整增益的高效編碼可以是有利的。
[0251] 因此,聲場信號110的幀可以由下混合信號E1 113、描述自適應變換的變換參數(shù) 213的一個或更多個集合(其中,變換參數(shù)113的每個集合描述用于多個子帶的自適應變 換)、每個子帶的一個或更多個預測參數(shù)a2(p,k)和a3(p,k)以及每個子帶的一個或更多個 能量調整增益b2(p,k)和b3(p,k)描述。預測參數(shù)a2(p,k)和a3(p,k)以及能量調整增益 b2 (p,k)和b3 (p,k)(共同作為前面部分中所提到的預測參數(shù))、以及變換參數(shù)(前面部分 中所提到的空間參數(shù))213的一個或更多個集合可以被插入到空間比特流221中,空間比特 流221可以僅在被配置成渲染(呈現(xiàn))聲場信號的電話會議系統(tǒng)的終端處被解碼。此外, 可以使用(基于變換的)單聲道音頻和/或語音編碼器103對下混合信號E1 113進行編 碼。編碼的下混合信號E1可以被插入到下混合比特流222中,下混合比特流222也可以在 僅被配置成渲染單聲道信號的電話會議系統(tǒng)的終端處解碼。
[0252] 如上面所表示的,在本文件中提出了對多個子帶聯(lián)合確定并應用去相關變換202。 具體地,可以使用寬帶KLT(例如,按幀進行的單一KLT)。寬帶KLT的使用對于下混合信號 113的感知屬性可以是有利的(因此允許分層電話會議系統(tǒng)的實現(xiàn))。如上面所描述的,參 數(shù)化編碼可以基于在子帶域中執(zhí)行的預測。通過這樣做,用于描述聲場信號的參數(shù)的數(shù)量 與使用窄帶KLT的參數(shù)化編碼相比可以減少,其中,對于多個子帶中的每個子帶單獨地確 定不同的KLT。
[0253] 如上面所描述的,預測參數(shù)可以被量化和編碼。直接與預測有關的參數(shù)可以使用 哈夫曼編碼之后的頻率差分量化方便地編碼。因此,聲場信號110的參數(shù)化描述可以使用 可變比特率編碼。在設置了總的操作比特率限制的情況下,對特定的聲場信號幀進行參數(shù) 化編碼所需要的速率可以從總的可用比特率中扣除,并且剩余部分217可以用于下混合信 號113的1-通道單聲道編碼上。
[0254] 圖23a和圖23b示出了示例編碼器1200和示例解碼器250的框圖。示出的音頻 編碼器U00被配置成對包括多個音頻信號(或音頻聲道)的聲場信號110的幀進行編碼。 在示出的示例中,聲場信號110已經(jīng)從捕獲域變換到非自適應變換域(即,WXY域)。音頻 編碼器1200包括被配置成將聲場信號111從時域變換到子帶域的T-F變換單元201,因此 產(chǎn)生聲場信號111的不同音頻信號的子帶信號211。
[0255] 音頻編碼器1200包括被配置成基于非自適應變換域中的聲場信號111的幀(具 體地,基于子帶信號211)確定能量壓縮性正交變換V(例如,KLT)的變換確定單元203、 204。變換確定單元203、204可以包括協(xié)方差估計單元203和變換參數(shù)編碼單元204。此 外,音頻編碼器1200包括被配置成對從聲場信號的幀得到的幀(例如,非自適應變換域中 的聲場信號111的子帶信號211)應用能量壓縮正交變換V的變換單元202 (也稱為去相關 單元)。通過這樣做,可以提供包括多個旋轉音頻信號E1、E2、E3的旋轉聲場信號112的相 應的幀。旋轉聲場信號112還可以被稱為自適應變換域中的聲場信號112。
[0256] 此外,音頻編碼器1200包括被配置成對多個旋轉音頻信號El、E2、E3中的第一旋 轉音頻信號El(S卩,主要特征信號E1)進行編碼的波形編碼單元103 (也稱為單聲道編碼器 或下混合編碼器)。另外,音頻編碼器1200包括被配置成基于第一旋轉音頻信號E1確定用 于確定多個旋轉音頻信號El、E2、E3中的第二旋轉音頻信號E2的預測參數(shù)a2、b2的集合 的參數(shù)化編碼單元104 (也稱為參數(shù)化編碼單元)。參數(shù)化編碼單元104可以被配置成確定 用于確定多個旋轉音頻信號El、E2、E3中的一個或更多個另外的音頻信號E3的預測參數(shù) a3、b3的一個或更多個另外的集合。參數(shù)化編碼單元104可以包括被配置成對預測參數(shù)的 集合進行估計和編碼的參數(shù)估計單元205。此外,參數(shù)化編碼單元104可以包括被配置成例 如使用本文件中所描述的公式確定第二旋轉音頻信號E2(以及一個或更多個另外的旋轉 音頻信號E3)的相關分量以及去相關分量的預測單元206。
[0257] 圖23b的音頻解碼器250被配置成接收空間比特流221 (表示預測參數(shù)215、216 以及描述變換V的一個或更多個變換參數(shù)(空間參數(shù))212、213、214的一個或更多個集合) 以及下混合比特流222 (表示第一旋轉音頻信號E1 113或其重建的版本261)。音頻解碼器 250被配置成根據(jù)空間比特流221和下混合比特流222提供包括多個重建的音頻信號的重 建的聲場信號117的幀。解碼器250包括被配置成根據(jù)下混合比特流222確定多個重建的 旋轉音頻信號11,13 262的第一重建的旋轉音頻信號11 261的波形解碼單元251。
[0258] 此外,圖23b的音頻解碼器250包括被配置為從空間比特流221中提取預測參數(shù) a2、b2215的集合的參數(shù)化解碼單元255、252、256。具體地,參數(shù)化解碼單元255、252、256 可以包括用于該目的的空間參數(shù)解碼單元255。此外,參數(shù)化解碼單元255、252、256被配置 成基于預測參數(shù)a2、b2215的集合以及基于第一重建的旋轉音頻信4Η261確定多個重建 的旋轉音頻信號獻, 262中的第二重建的旋轉音頻信號體。為此,參數(shù)化解碼單 元255、252、256可以包括被配置成根據(jù)第一重建的旋轉音頻信號gl: 261生成一個或更多 個去相關信號264的去相關器單元252。另外,參數(shù)化解碼單元255、252、256可 以包括被配置成使用本文件中所描述的公式(17)、(18)確定第二重建的旋轉音頻信號£^ 的預測單元256。
[0259] 另外,音頻解碼器250包括被配置成提取表示已經(jīng)由相應的編碼器1200基于待重 建的聲場信號110的相應的幀所確定的能量壓縮正交變換V的變換參數(shù)d,φ,Θ213的集 合的變換解碼單元254。此外,音頻解碼器250包括被配置成將能量壓縮正交變換V的逆變 換應用于多個重建的旋轉音頻信號262以產(chǎn)生逆變換聲場信號116(可以對應 于非自適應變換域中的重建的聲場信號116)的逆變換單元105。(捕獲域中的)重建的聲 場信號117可以基于逆變換的聲場信號116確定。
[0260] 可以實現(xiàn)上面所提到的參數(shù)化編碼方案的不同的變型。例如,允許去相關而沒 有另外的延遲的完全卷積的參數(shù)化編碼方案的操作的替代模式是,通過將能量調整增益 b2(p,k)和b3(p,k)應用到下混合信號E1,來首先在參數(shù)化域中生成兩個中間信號。隨后, 可以對兩個中間信號執(zhí)行逆T-F變換以產(chǎn)生兩個時域信號。然后,可以對兩個時域信號去 相關。這些去相關的時域信號可以適當?shù)靥砑拥街亟ǖ念A測信號E2和E3。因此,在替代的 實現(xiàn)中,在時域中(而不在子帶域中)生成去相關信號。
[0261] 如上面所描述的,可以使用非自適應變換域中的聲場信號111的幀的通道間協(xié)方 差矩陣確定自適應變換102 (例如,KLT)。按子帶應用KLT參數(shù)化編碼的優(yōu)點是在解碼器 250處精確地重建通道間協(xié)方差矩陣的可能性。然而,這將要求對0(M2)變換參數(shù)進行編碼 和/或傳輸,以指定變換V。
[0262] 上面所提到的參數(shù)化編碼方案不提供通道間協(xié)方差矩陣的精確重建。然而,已經(jīng) 觀察到,使用本文件中所描述的參數(shù)化編碼方案可以實現(xiàn)二維聲場信號的良好的感知質 量。然而,這對于針對所有重建特征信號對精確地重建相關性是有利的。這可以通過擴展 上面所提到的參數(shù)化編碼方案來實現(xiàn)。
[0263] 具體地,另外的參數(shù)γ可以被確定和傳輸,以描述特征信號E2與E3之間的歸一
[0264] 化相關性。這將使得兩個預測誤差的原始的協(xié)方差矩陣能夠在解碼器250中被恢復。因此, 可以恢復三維信號的完整的協(xié)方差。在解碼器250中實現(xiàn)這一點的一種方式是由
(38)
[0265] 給定的2X2矩陣對兩個去相關器信號d2(El(p,k))和d3(El(p,k))進行預混合, 以產(chǎn)生基于歸一化相關性γ的去相關信號。相關性參數(shù)γ可以被量化和編碼并且插入到 空間比特流221中。
[0266] 參數(shù)γ將被傳輸至解碼器250以使得解碼器250能夠生成用于重建原始的特征 信號Ε2與Ε3之間的歸一化相關性γ的去相關信號??商娲?,混合矩陣G可以被設置為 如下所示的解碼器250中的固定值,其平均來說改進了Ε2與Ε3之間的相關性的重建。
[0267](39)
[0268] 可以基于典型的聲
場信號110的集合的統(tǒng)計分析確定固定的混合矩陣G的值。在 上面的示例中,,--的總體平均值為〇. 95,具有0. 05的標準差。后者方法在以下事實 v 的角度來看是有利的:不需要相關性參數(shù)γ的編碼和/或傳輸。另一方面,后者方法僅確 保原始特征信號Ε2和Ε3的歸一化相關性γ被保持在平均值。
[0269] 參數(shù)化聲場編碼方案可以與多通道波形編碼方案在聲場的特征表達的所選擇的 子帶上結合,以產(chǎn)生混合編碼方案。具體地,可以考慮對Ε2和Ε3的低頻帶執(zhí)行波形編碼以 及在其余的頻帶執(zhí)行參數(shù)化編碼。具體地,編碼器1200(以及解碼器250)可以被配置成確 定起始頻帶。對于起始頻帶之下的子帶,特征信號El、E2、E3可以被單獨地進行波形編碼。 對于起始頻帶處以及起始頻帶之上的子帶,特征信號E2、E3可以被參數(shù)化編碼(如本文件 中所描述的)。
[0270] 圖24a示出了用于對包括多個音頻信號(或音頻通道)的聲場信號110的幀進行 編碼的示例方法1300的流程圖。方法1300包括基于聲場信號110的幀確定能量壓縮正交 變換V(例如,KLT)的步驟301。如本文件中所描述的,可以優(yōu)選的使用非自適應變換將捕 獲域(例如,LRS域)中的聲場信號110變換成非自適應變換域(例如,WXY域)中的聲場 信號111。在這些情況下,可以基于非自適應變換域中的聲場信號111確定能量壓縮正交變 換V。方法300還可以包括對聲場信號110 (或對由聲場信號110得到的聲場信號111)的 幀應用能量壓縮正交變換V的步驟302。通過這樣做,可以提供包括多個旋轉音頻信號E1、 E2