丟包掩蔽裝置和方法以及音頻處理系統(tǒng)的制作方法_2

文檔序號：9621053閱讀：來源：國知局

各幀采用改進的離散余弦變換（MDCT)編碼 (但是本申請不限于此并且可以采用其他編碼方案），k是頻點數量并且K是系數的數量。g的值范圍可以是（〇. 5, 1]，并且當g= 1時，等同于在沒有衰減因子的情況下的簡單復制。
[0070] 在一個變型中，如果有多個連續(xù)的丟失幀，則可以通過復制相鄰的歷史幀和未來幀來恢復它們。假設第一個丟失幀是幀P并且最后一個丟失幀是幀q，則對于前一部分的丟失幀：
[0071]
(V)
[0072] 其中，a= 0, 1，"·Α-1，Α是前一部分丟失幀的數量。并且對于后半部分的丟失幀：
[0073]
\-/
[0074] 其中，b= 0, 1，…B-l，Β是后半部分的丟失幀的數量。Α可以與Β相同也可以不同。在上面兩個公式中，對于所有的丟失幀衰減因子g取相同的值，但是衰減因子還可以針對不同的丟失幀取不同的值。
[0075] 除了通道掩蔽，空間掩蔽同樣重要。在圖4所示的示例中，空間參數可以由d、C(^ 和Θ組成?？臻g參數的穩(wěn)定性在保持感知持續(xù)性方面是至關重要的。所以第二掩蔽單元 600 (圖3)可以被配置成直接對空間參數進行平滑。該平滑可以使用任何平滑方法來實施，比如通過計算歷史平均值：
[0076]
[0077] 其中，(1p是當前幀即第p幀的空間參數d的恢復值（平滑值），dp是當前幀的空間參數d的值。是上一幀（第p-1幀）的空間參數d的恢復值（平滑值）。對于丟失幀，dp=0, ^^可以用作恢復幀的對應空間參數值。α是加權因子，具有范圍（0.8, 1]，或基于其它物理屬性比如幀Ρ的發(fā)散度來自適應地產生。對于f或Θ，情形是類似的。
[0078] 平滑操作的其他示例可以包括通過使用可以僅覆蓋歷史幀或覆蓋歷史幀和未來幀兩者的移動窗來計算移動平均。換言之，空間參數的值可以通過基于相鄰幀的內插算法獲得。在這樣的情形中，可以使用同一內插操作同時恢復多個相鄰的丟失幀。
[0079] 在空間參數的穩(wěn)定性相對較高的一些情形中，例如，當前幀ρ的dp已經被檢測到具有大的值，在PLC的背景下空間參數的簡單復制也可以是一種經濟而有效的方法：
[0080]
[0081] 其中，是丟失的第ρ幀的空間參數d的恢復值，dpi是上一幀即第ρ-I幀的空間參數d的值。對于φ或Θ，情形是類似的。
[0082] 將多通道信號分解為單聲道分量和空間分量提供了額外的傳輸靈活性，這可以進一步提高針對包丟失的恢復力。在一種實施方式中，與單聲道信號分量相比通常消耗較少帶寬的空間參數可以作為冗余數據發(fā)送。例如，包Ρ的空間參數可以附加到包Ρ-1或Ρ+1，以使得當包Ρ丟失時，其空間參數可以從相鄰的包中提取。在又一種實施方式中，空間參數不作為冗余數據發(fā)送，而是僅在與單聲道信號分量不同的包中發(fā)送。例如，通過第Ρ-1個包來傳輸第Ρ個包的空間參數。通過這樣做，如果包Ρ丟失，則可以從沒有丟失的包Ρ-1中恢復包Ρ的空間參數。缺點是包Ρ+1的空間參數也丟失了。
[0083] 在上述實施方式及示例中，由于特征通道分量不包含任何空間信息，所以會減小由不適當的掩蔽引起的空間失真的風險。
[0084]用于單聲道分量的PLC
[0085] 在圖4中，示出了離散編碼比特流中的編碼域PLC的示例，其中所有的特征通道分量Ε1、Ε2和Ε3以及所有的空間參數即d、q>和Θ需要被傳輸，或者在必要時為PLC的目的而被恢復。
[0086] 僅在有足夠的帶寬用于對E1、E2和E3編碼時考慮離散編碼域掩蔽。否則，可以通過預測編碼方案來對幀進行編碼。在預測編碼中，實際上僅傳輸一個特征通道分量，也就是主要特征通道分量E1。在解碼側，將使用預測參數比如針對E2的a2、b2和針對E3的a3 和b3來預測其他特征通道分量比如E2和E3 (對于預測編碼的細節(jié)，請參考本文中的"音頻信號的正自適應變換和逆自適應變換"部分）。如圖6所示，在該情形中，提供（傳輸，或為 PLC的目的而恢復）了針對E2和針對E3的不同類型的去相關器。因此，只要成功地傳輸或（使用PLC)恢復了E1，就可以通過去相關器組合來直接預測/構建其他兩個通道E2和 E3。該預測PLC的過程可以節(jié)省將近三分之二的計算負荷，僅增加了預測參數的計算。此外，由于不必傳輸E2和E3,所以可以提高比特率效率。圖6的其他部分與圖4中的相似。 [0087]因此，在丟包掩蔽裝置的實施方式的以如圖5所示的第一掩蔽單元400為特征的變型中，當每個音頻幀還包括要用于基于該幀中的至少一個單聲道分量來預測該幀的至少一個其他單聲道分量的至少一個預測參數時，第一掩蔽單元400可以包括用于分別對單聲道分量和預測參數執(zhí)行PLC的兩個子掩蔽單元，S卩，用于針對所述丟失幀生成至少一個單聲道分量的主掩蔽單元408,和用于針對所述丟失幀生成至少一個預測參數的第三掩蔽單元 414。
[0088] 主掩蔽單元408可以按照與本文前面所討論的第一掩蔽單元400相同的方式來工作。換言之，可以將主掩蔽單元408認為是用于針對所述丟失幀生成任何單聲道分量的第一掩蔽單元400的核心部分，而在這里其被配置成僅生成主要單聲道分量。
[0089] 第三掩蔽單元414可以按照與第一掩蔽單元400或第二掩蔽單元600類似的方式來工作。即，第三掩蔽單元被配置成通過在有或沒有衰減因子的情況下復制上一個幀中對應的預測參數或是通過對相鄰幀的對應預測參數的值進行平滑，來針對所述丟失幀生成至少一個預測參數。假設幀i+1，i+2,…，j_l已經丟失，可以通過下面這種方式來對幀k中的缺失預測參數進行平滑：
[0090] ak= [(j-k)ai+(k-i)aj]/(j-i)；
[0091] bk= [(i-k)bi+(k-i)bj]/(j-i) ； (4)
[0092] 其中a和b是預測參數。
[0093] 如果是在服務器中并且如果僅有一個音頻流，則不需要在服務器中進行混合操作，從而不需要在服務器中執(zhí)行預測解碼，則所生成的單聲道分量和所生成的預測參數可以直接進行打包并且轉發(fā)至目的通信終端，其中預測解碼將在解包之后而在例如圖6中的逆KLT之前進行。
[0094] 如果是在目的通信終端中，或者在服務器中需要進行多個音頻流的混合操作時，預測解碼器410(圖5)可以基于由主掩蔽單元408生成的單聲道分量和由第三掩蔽單元 414生成的預測參數來預測其他單聲道分量。實際上，預測解碼器410還可以作用于正常傳輸的（未丟失）幀的正常傳輸的單聲道分量和預測參數。
[0095] 一般地，預測解碼器410可以基于同一幀中的主要單聲道分量及其去相關版本使用預測參數來預測另一個單聲道分量。具體地，對于丟失幀，預測解碼器可以基于所生成的一個單聲道分量及其去相關版本，使用所生成的至少一個預測參數，來預測丟失幀的至少一個其他單聲道分量。該操作可以表達如下：
[0096]
[0097] 其中，Ε?11(ρ,k)是作為第P個幀的丟失幀的預測單聲道分量，k是頻點數量，m可以是2或3,這里假設有3個特征通道分量但本申請不限于此。Γ?(ρ, 是由主掩蔽單元 408生成的主要單聲道分量。k))足?Γ?k)的去相關版本，并且可以對于不同的m不同。1???和是對應的單聲道分量的預測參數。注意，公式（5) 在當m= 2和m= 3時分別對應于公式（17)和公式（18)，但是公式（17)、（18)是在編碼器側的，而公式（5)是在解碼器側，所以在公式（5)中使用了符號~。
[0098] 此處，如果在生成預測參數時不使用衰減因子，則可以在公式（5)中使用它，尤其是針對的去相關版本，并且尤其當所恢復的主要單聲道分量已經附加了衰減因子時。
[0099] 可以使用現有技術中的各種方法來計算的去相關版本。一種方式是將歷史幀中與針對丟失幀所生成的一個單聲道分量對應的單聲道分量作為所生成的一個單聲道分量的去相關版本，而不管歷史幀中的單聲道分量是正常傳輸的還是由主掩蔽單元 408生成的。即：
[0100]
[0103] 其中El(p_m+l，k)是作為第p-m+1幀的歷史幀中正常傳輸的主要單聲道分量。而 ??-Π1 + 是針對該歷史幀恢復（生成）的單聲道分量。注意，此處使用了基于該單聲道分量的序號確定的歷史幀，意味著對于重要性較低的單聲道分量如特征通道分量的（特征通道分量是基于它們的重要性來排序的），會使用較早的幀。但是本申請不限于此。
[0104] 注意，預測解碼器410的操作是E2和E3的預測編碼的逆處理。對于有關預測解碼器410的操作的更多細節(jié)，請參見本公開的"音頻信號的正自適應變換和逆自適應變換" 部分，但是本申請不限于此。
[0105] 如之前在公式（1)中所提到的，對于丟失幀，可以通過簡單地復制上一幀中的主要單聲道分量來生成主要單聲道分量，即：
[0106] (1，）
[0107] 注意，出于簡化以下討論的目的，公式（Γ)是當m= 1并且假設上一幀的主要單聲道分量也是被生成的而不是正常傳輸的情況下的公式（1)。
[0108] 組合公式（Γ)和公式（5'）的解決方案一定程度上能夠起作用但是具有一些缺點。根據公式（Γ)和公式（5'）可以推出：
[0109]
[0116] 其中函數CorrefO表示相關性的計算，并且在公式（8)中已經省略了頻點數量k。
[0117] 如公式（7)所示，ElH(p)由Μ(p)線性地加權，這意味著所計算的E2和E3與 Ε1完全相關，而不是去相關。為了避免該重新形成的相關，應該避免復制或拷貝。在本申請中，為此提供了一種時域PLC，如圖7的實施方式和圖8所示的示例所示。
[0118] 如圖7所示，第一掩蔽單元400可以包括：第一變換器402,用于將丟失幀之前的至少一個歷史幀中的至少一個單聲道分量變換成時域信號；時域掩蔽單元404,用于針對時域信號掩蔽包丟失，從而產生丟包被掩蔽的時域信號；以及第一逆變換器406,用于將丟包被掩蔽的時域信號變換成至少一個單聲道分量的格式，從而產生與丟失幀中的至少一個單聲道分量對應的所生成的單聲道分量。
[0119] 時域掩蔽單元404可以使用許多現有技術來實現，包括對歷史或未來幀中的時域信號進行簡單的復制，此處省略這些技術。
[0120] 前面所討論的傳輸格式一般是在頻域中的。即，一般在頻域中對進行編碼。傳輸格式的音頻幀比如特征通道分量的編碼機制的一個示例是MDCT，其是一種重疊變換，但是本申請不限于重疊變換，而是也能適合于非重疊變換。
[0121] 圖8使用MDCT變換的一個示例示出了由圖7中的第一掩蔽單元400實現的時域PLC的原理。如圖8所示，假設包El(p)在傳輸中已經丟失，首先可以使用第一變換器 402 (圖7)來執(zhí)行M)CT以將El(p)、E1 (p-1)和El(p-2)變換到時域緩沖區(qū)(因為El(p) 丟失，所以爸:#為空）、。然后，第一變換器可以使用緩沖區(qū)^5-^的后半部和緩沖區(qū)的前半部來獲得最終的時域信號類似地，可以獲得最終的時域信號§1但是，由于El(p)丟失從而為空，本應是混疊的時域信號的僅包含后半部。完全合成耑要由如上述的時域掩蔽單元404執(zhí)行時域中的PLC。即，可以對基于上述時域信號行時域PLC。為了簡便和清楚起見，仍然使用符號gg來代表丟包被掩蔽的時域信號。然后，將由第一逆變換器406對":?和執(zhí)行MDCT以獲得新生成的特征通道分量δ!
[0122] 如果El(ρ+l)也已經丟失，則可以使用下一個丟包被掩蔽的時域緩沖區(qū)0^+1和通過類似的處理來生屆
[0123] 在上面的示例中，對于丟失幀的掩蔽，由于編碼方案是重疊變換（MDCT)，所以需要兩個在前幀。如果涉及非重疊變換，則時域幀和頻域幀將是一一對應關系。則對于丟失幀的掩蔽，一個在前幀就足夠了。
[0124] 對于Ε2和Ε3,可以執(zhí)行類似的PLC操作，但是在本申請中還提供了一些其他解決方案，如將在后續(xù)部分中所討論的。
[0125] 上面所討論的PLC算法的計算負荷相對較高。因此，在一些情況下，可以采取措施來降低計算負荷。一種措施是基于Ε1來預測Ε2和Ε3,如隨后將討論的，另一種措施是將時域PLC與其他較簡單的方式混合。
[0126] 例如，如果已經丟失了多個連續(xù)的幀，則可以用時域PLC來掩蔽一些丟失幀，通常是丟失幀的前半部分，而可以使用較簡單的方式比如在傳輸格式的頻域中進行復制來掩蔽其他丟失幀。因此，第一掩蔽單元400可以被配置成在有或沒有衰減因子的情況下通過復制相鄰未來幀中的對應的單聲道分量來生成至少一個較晚丟失幀的至少一個單聲道分量。
[0127] 在以上描述中，討論了重要性較低的特征通道分量的預測編碼/解碼和可以用于任何一個特征通道分量的時域PLC兩者。盡管時域PLC的提出時為了避免針對采用預測編碼（比如預測KLT編碼）的音頻信號采用基于復制的PLC導致重新相關，其也可以應用于其他場景中。例如，即使對于采用非預測（離散）編碼的音頻信號，也可以使用時域PLC。
[0128] 用于單聲道分量的預測PLC
[0129] 在圖9A、圖9B和圖10所示的實施方式中，采用離散編碼，從而每個音頻幀包括至少兩個單聲道分量比如El、E2和E3(圖10)。類似于圖4,對于由包丟失引起的丟失幀，所有的特征通道分量已經丟失并且需要進行PLC處理。如在圖10的示例中所示，可以使用普通的掩蔽方案比如復制或前面討論的其他方案包括時域PLC來生成/恢復主要單聲道分量比如主要特征通道分量E1，而可以基于（如在圖10中使用虛線箭頭示出的）主要單聲道分量使用與如在前一部分中討論的預測解碼類似并且因此稱為"預測PLC"的方法來生成/ 恢復其他單聲道分量，比如重要性較低的特征通道分量E2和E3。圖10中的其他部分與圖 4中的類似，因此在此處省略其詳細描述。
[0130] 具體地，公式（5)、（5'）和（5"）的下述變形可以用于在附加或不附加衰減因子g 的情況下預測重要性較低的單聲道分量：
[0131]
[0132] 是作為第P幀的丟失幀的預測單聲道分量，k是頻點數量，在假設有3個特征通道分量的情況下m可以是2或3,但是本申請不限于此。k)是由主掩蔽單元408生成的主要單聲道分量。1〇)是￡1@,k)的去相關版本。和是對應的單聲道分量的預測參數。g的值范圍可以是 (0. 5, 1]，當g= 1時，等同于不使用衰減因子。
[0133] 可以按照現有技術中的各種方式來計算??(ρ,k)的去相關版本。一種方式是將歷史幀中與針對丟失幀所生成的一個單聲道分量對應的單聲道分量作為所生成的一個單聲道分量的去相關版本，而不論歷史幀中的單聲道分量是正常傳輸的還是由主掩蔽單元 408生成的。即：
[0134]
[0137] 其中El(p_m+l，k)是作為第p-m+1幀的歷史幀中正常傳輸的主要單聲道分量。而￡l(p-m+ 1、,1〇是針對該（曾被丟失的）歷史幀恢復（生成）的單聲道分量。注意，此處使用了基于該單聲道分量的序號確定的歷史幀，意味著對于重要性較低的單聲道分量如特征通道分量（特征通道分量是基于它們的重要性來排序的），會使用較早的幀。但是本申請不限于此。
[0138] 非預測/離散編碼的一個問題是即使對于正常傳輸的相鄰幀也沒有預測參數。因此，需要通過其他方式來獲得預測參數。在本申請中，可以基于歷史幀（一般是上一幀）的單聲道分量來計算上述預測參數，而無論歷史幀或上一幀是否是正常傳輸的或是通過PLC 恢復的。
[0139] 因此，根據該實施方式，如圖9所示，第一掩蔽單元400可以包括用于針對所述丟失幀生成至少兩個單聲道分量之一的主掩蔽單元408、使用歷史幀計算丟失幀的至少一個預測參數的預測參數計算器412以及預測解碼器410,其基于所生成的一個單聲道分量使用所生成的至少一個預測參數來預測丟失幀的至少兩個單聲道分量中的至少一個其他單聲道分量。
[0140] 主掩蔽單元408和預測解碼器410與圖5中的類似，此處省略其詳細描述。
[0141] 可以使用任何技術來實現預測參數計算器412,而在本實施方式的一種變型中，提出通過使用丟失幀的上一幀來計算預測參數。以下公式給出了特定的示例，但是該示例不對本申請構成限制：
[0142]
[0144] 其中，符號具有與之前相同的意義，normO表示RMS(均方根）運算并且上標T表示矩陣轉置。注意，公式（9)對應于"音頻信號的正自適應變換和逆自適應變換"部分中的公式（19)和（20)，并且公式（10)對應于同一部分中的公式（21)和（22)。不同之處在于公式（19)至公式（22)用在編碼側，從而預測參數是基于同一幀的特征通道分量計算的，而公式（9)和（10)用在預測PLC的解碼側，尤其是用于根據所生成/恢復的主要特征通道分量來"預測"重要性較低的特征通道分量，因此根據前一幀（不管是正常傳輸的還是在PLC 期間被生成/恢復的）的特征通道分量來計算預測參數，因而使用符號了·'。無論如何，公式（9)和（10)以及公式（19)至公式（22)的基本原理都是類似的，對其細節(jié)及其更多的變型，包括下面將要提到的"ducker"型能量調整，請參考"音頻信號的正自適應變換和逆自適應變換"部分。基于與上面針對公式間的不同之處描述的規(guī)則相同的規(guī)則，在"音頻信號的正自適應變換和逆自適應變換"部分中描述的其他解決方案或公式可以應用于本部分所描述的預測PLC中。簡單來講，該規(guī)則是：生成在前幀（比如上一幀）的預測參數，并且使用它們作為針對丟失幀預測重要性較低的單聲道分量（特征通道分量）的預測參數。
[0145] 換言之，可以按照與隨后要描述的參數化編碼單元104類似的方式來實施預測參數計算器412。
[0146] 為了避免所估計的參數的突然波動，可以使用任何技術來對上面所估計的預測參數進行平滑。在特定的示例中，可以進行"ducker"型能量調整，其在下面的公式中由duck〇來表示，以避免掩蔽信號的水平快速地變化，尤其是在語音與靜默、或話音與音樂之間的過渡區(qū)域中。
[0147]
[0148] 其中1.0 <λ< 2.0,me{2, 3}。類似于公式（9)和（10)，公式（11)對應于公式（32)和公式（33)。
[0149] 還可以使用較簡單的版本（對應于公式（36)和（37))來代替公式（11):
[0150]
[0151] 在上面討論的實施方式中，對于每個丟失幀，可以通過要由預測解碼器410使用的預測參數計算器412來計算預測參數，而不管用于計算預測參數計算器412的基礎，即所使用的歷史幀，是正常傳輸的還是丟失后再恢復（生成）的。
[0152] 上面給出了關于預測參數的計算的簡要描述，但是本申請不限于此。實際上，參考在"音頻信號的正自適應變換和逆自適應變換"部分中討論的那些算法可以想到更多的變型。
[0153] 在一種變型中，如圖9A中所示，可以進一步包括與前一部分所討論的類似并且用于在預測編碼方案中掩蔽丟失預測參數的第三掩蔽單元414。然后，如果已經針對丟失幀之前的上一幀計算了至少一個預測參數，則第三掩蔽單元414可以基于上一幀的至少一個預測參數來針對所述丟失幀生成至少一個預測參數。注意，圖9A所示的解決方案還可以用于預測編碼方案。即，圖9A中的解決方案通?？赏ㄓ糜陬A測編碼方案和非預測編碼方案兩者。對于預測編碼方案（從而在正常傳輸的歷史幀中存在預測參數），第三掩蔽單元414工作；對于非預測編碼方案中的第一丟失幀（沒有具有預測參數的相鄰歷史幀），預測參數計算器412工作；而對于非預測編碼方案中在第一丟失幀之后的丟失幀，預測參數412或第三掩蔽單元414可以工作。
[0154] 因此，在圖9A中，預測參數計算器412可以被配置成當丟失幀的上一幀不包含預測參數或沒有針對丟失幀的上一幀生成/計算預測參數時，使用前一幀計算針對丟失幀計算至少一個預測參數，并且預測解碼器410可以被配置成使用所生成或計算的至少一個預測參數基于所生成的一個單聲道分量來針對丟失幀預測至少兩個單聲道分量中的至少一個其他單聲道分量。
[0155] 如前面所討論的，第三掩蔽單元414可以被配置成通過以下方式來針對所述丟失幀生成至少一個預測參數：在有或沒有衰減因子的情況下復制上一幀中對應的預測參數，平滑相鄰幀的對應預測參數的值，或使用歷史幀和未來幀中的對應預測參數的值進行內插。
[0156] 在圖9B所示的另外的變型中，可以對在該部分討論的預測PLC和非預測PLC(如在"整體解決方案"部分中討論的那些，包括參考圖7討論的簡單復制或PLC方案等）進行組合。即，對于重要性較低的單聲道分量，可以進行非預測PLC和預測PLC兩者，組合所獲得的結果以獲取最終生成的單聲道分量，比如這兩個結果的加權平均?？梢詫⒃撎幚碚J為是使用一個結果調整另一個結果，加權因子可以決定哪一個占主導，并且可以根據特定的情形來設置。
[0157] 因此，如圖9B所示，在第一掩蔽單元400中，主掩蔽單元408還可以被配置成生成至少一個其他單聲道分量，并且第一掩蔽單元4〇〇還包括調整單元416,使用由主掩蔽單元 408所生成的至少一個其他單聲道分量來對預測解碼器410預測的至少一個其他單聲道分量進行調整。
[0158] 用于苧間分量的PLC
[0159] 在"整體解決方案"部分中，已經討論了空間分量如空間參數d、q)和Θ的PLC?？?間參數的穩(wěn)定性對于保持感知連續(xù)性是至關重要的。在"整體解決方案"部分這是通過對參數直接進行平滑來實現的。作為另一種獨立的解決方案，或作為對于在"整體解決方案" 部分中討論的PLC的補充方面，可以在編碼側執(zhí)行對空間參數的平滑操作。因此，由于已經在編碼側對空間參數進行了

完整全部詳細技術資料下載

當前第2頁1 2 3 4 5 6

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

丟包掩蔽裝置和方法以及音頻處理系統(tǒng)的制作方法_2