使用依賴瞬態(tài)位置的重疊對音頻信號編碼或譯碼的設備及方法

文檔序號：9621054閱讀：464來源：國知局

使用依賴瞬態(tài)位置的重疊對音頻信號編碼或譯碼的設備及方法
【技術領域】
[0001] 本發(fā)明是有關于對音頻或圖像信號的處理，且更特別是有關于對存在瞬態(tài)的音頻或圖像信號的編碼或譯碼。
【背景技術】
[0002] 基于重疊FFT或改進的離散余弦變換（MDCT)的現代頻域語音/音頻編碼機制提供某些適應度給非靜態(tài)信號特征。以MPEG標準化的通用編譯碼器，亦即MPEG-1第三層，極著名為MP3,MPEG-4(HE-)AAC[1]，以及最近的MPEG-OxHE-AAC(USAC)和由IETF[2]規(guī)定的 Opus/Celt編譯碼器，允許使用至少兩個不同的變換長度之中一個對幀（frame)的編碼-關于靜態(tài)信號信道的一個長度Μ的長變換，或8個長度M/8(每個）的短變換。在MPEG編譯碼器的情況下，從長到短及從短到長變換的切換（亦稱為塊切換）需要使用非對稱窗口化的瞬態(tài)變換，亦即分別地是起始及停止窗口。這些變換形狀以及其它已知的現有技術形狀描繪于圖16中。應注意到，線性重疊斜率僅是說明性的并以正確的形狀變化?？赡艿拇翱?形狀提供于AAC標準[1]及[3]的第6條中。
[0003] 假定如果即將到來的幀待由MPEG編碼器利用短變換來編碼，則當前幀必須利用起始瞬態(tài)變換來編碼，顯而易見的是一個依據其中一個上述MPEG標準來實施的編碼器需要至少預看（look-ahead)的幀長度。然而，在低延遲通訊應用，理想上是可使此種額外預看最小化或甚至避免此種額外預看。為此，對于通用編碼模型的兩個改進方案已被提出。一個改進方案曾經被采用例如在Celt[2]中，用于將長變換的重疊減少至短變換的重疊，從而能避免不對稱瞬態(tài)窗口。另一被使用于例如MPEG-4 (增強）低延遲AAC編碼機制的改進方案用于禁止切換至較短變換，替代地是依靠時域噪聲整形（TNS)編碼工具[4]，其操作于長變換數上以使圍繞瞬態(tài)的編碼錯誤的時域伸展（temporalspread)最小化。
[0004] 此外此外，類似xHE-AAC，低延遲AAC允許使用雙幀重疊寬度-關于靜態(tài)輸入是默認值50%重疊，或關于非靜態(tài)信號的減少的重疊（類似于瞬態(tài)變換的短重疊）。減少的重疊在系數量化的情況下有效地限制變換的時間延伸，因而是其編碼錯誤。
[0005] 受讓給三星（Samsung)電子公司的美國專利2008/0140428A1以及受讓給索尼 (Sony)公司的美國專利5502789及5819214揭露了信號適應性窗口或變換尺寸確定單元。然而，由所述窗口或變換尺寸確定單元所控制的變換器單元，操作于QMF或LOT子頻帶值 (表示所說明的系統(tǒng)都采用串接型濾波器組或變換），相對于如在本情況下的直接地工作于時域全頻帶輸入信號上。此外，于2008/0140428A1中，并未詳細說明關于形狀或窗口重疊的控制的細節(jié)，且在5819214中，重疊形狀遵循（亦即，為以下的結果）來自變換尺寸確定單元的輸出，這是本發(fā)明所提出的較佳實施例的相對內容。
[0006] 受讓給法國電信的美國專利2010/0076754A1遵循與本發(fā)明相同的動機，亦即能用于在通訊編碼方案中執(zhí)行變換長度切換，以改善瞬態(tài)信號段的編碼，且這樣做不需要額外編碼器預看。然而，所述文獻顯露出低延遲目標通過避免變換長度瞬態(tài)窗口以及通過在譯碼器（不利地通過譯碼的信號的部分的放大，從而是編碼錯誤的放大）中后處理重建的信號而達成，本發(fā)明提出一種待介紹于下面的現有技術系統(tǒng)的瞬態(tài)窗口的簡單的改進方案，以使額外編碼器預看可被最小化并避免特殊（危險）的譯碼器后處理。
[0007] -種發(fā)明的改進方案所要應用的瞬態(tài)變換為說明于以一個稍微不同的形式的美國專利5848391及美國專利2006/0122825A1中的兩個變形例的起始窗口，美國專利 5848391是受讓給弗勞恩霍夫協會（Fraunhofer-Gesellschafte.V.)及杜比（Dolby)實驗室授權公司實驗室，而美國專利2006/0122825A1是受讓給三星電子公司。圖16顯示這些起始窗口并顯露出在Fraunhofer/Dolby的窗口及Samsung的窗口的間的差異是不重疊段的存在，亦即，窗口的區(qū)域具有恒定最大值，其并不屬于任何重疊斜率。Fraunhofer/Dolby 窗口顯現出這一種〃不重疊部分具有長度〃，而Samsung窗口并沒有?？梢詳喽ǔ鲆环N具有最少數量的額外預看但使用現有技術變換切換的編碼器可通過采用Samsung的瞬態(tài)窗口方法來實現。利用這些變換，一種等于在短變換之間的重疊寬度的預看足以在信號瞬態(tài)之前的充分早期時從長到短變換完全切換。
[0008] 更進一步的現有技術可在以下文獻中找到：W090/09063或"〃利用重疊塊變換及適應性窗口功能的音頻信號編碼（Codingofaudiosignalswithoverlapblocktrans 格式andadaptivewindowfunctions) 〃，Frequenz,Band43,1989 年 9 月，頁 2052 至 2056,或AESConventionPaper4929，"基于AAC編碼譯碼的MPEG-4低延遲音頻編碼譯碼 (MPEG-4LowDelayAudioCodingbasedontheMCCodec) 〃，E.Allamanche,etal. , 106 Convention, 1999 年。
[0009] 盡管如此，依據短變換的長度，預看可維持相當大而不應被避免。圖17顯示在最壞情況下的輸入狀態(tài)期間的塊切換性能，亦即于預看區(qū)域的起始的急遽地瞬態(tài)的存在，其因而開始于長斜率的末端，亦即，在幀之間的重疊區(qū)域。依據現有技術的方法，兩個描繪出的瞬態(tài)的至少一個到達瞬態(tài)變換。在一種利用編碼器而沒有額外預看的有損耗的編碼統(tǒng) 中，亦即，在一種沒有"看見瞬態(tài)到來"的編碼器中，此種狀況導致編碼錯誤的時域伸展上至長斜率的初期，且即使當使用TNS時，預回音噪聲從而或許在譯碼的信號中是可聽見的。 [0010] 兩個前述的預看變通具有它們的缺點。在一方面降低長變換重疊達到一個高達 8的因子，如于Celt編碼器所完成的，在靜態(tài)上嚴格地限制效率（亦即，編碼增益、頻譜壓縮），特別高色調的輸入材料。另一方面，如于（增強）低延遲AAC禁止短變換，在具有遠小于幀長度的期間（寬度）的強大的瞬態(tài)減少了編碼譯碼性能，即使當使用TNS時，仍常導致可聽見的預回音或后回音噪聲。
[0011] 因此，現有技術窗口序列判定程序，相對于由于限制窗口長度的撓性是次優(yōu)的，相對于由于最小需求的瞬態(tài)預看期間所需要的延遲是次優(yōu)的，相對于由于預回音及后回音所致的音頻質量是次優(yōu)的，相對于由于潛在需要的額外預先處理（使用與利用某些窗口的窗口化程序分開的額外功能）所致的效率是次優(yōu)的，或相對于由于改變一種以瞬態(tài)的形式存在的幀/塊光柵的潛在的必要性所致的撓性及效率是次優(yōu)的。

【發(fā)明內容】

[0012] 本發(fā)明的一個目的提供一種音頻編碼/譯碼的改善的理念，其相對于至少一種現有技術缺點提供一種改善的性能。
[0013] 此目的通過以下而達成：一種如權利要求1的用于對音頻或圖像信號進行編碼的設備，一種如權利要求17的用于對音頻或圖像信號進行譯碼的設備，一種如權利要求32的用于對音頻或圖像信號進行編碼的方法，一種如權利要求33的用于對音頻或圖像信號進行譯碼的方法，或一種依據如權利要求34的計算機程序。
[0014] 本發(fā)明的方面依靠下述發(fā)現，為了低延遲音頻或圖像編碼譯碼器能接近通用編譯碼器的編碼質量，在靜態(tài)信號輸入期間的長變換之間維持高重疊百分比，并于圍繞信號非恒定性的音頻或圖像信號部分允許瞬間切換至較短的重疊及變換是有用的。此外，理想上是可允許相對于重疊寬度以及此外或是或者相對于變換長度，比只提供二進制的選擇有稍微更大的撓性，以使在一幀之內的變換的重疊寬度或長度可基于在幀的時域區(qū)域之內的可能瞬態(tài)的位置而正確地適應，以便使預回音或其它偽影（artifact)最小化。
[0015] 具體而言，瞬態(tài)位置檢測器被配置成用于確認在一幀的瞬態(tài)預看區(qū)域之內的瞬態(tài) 的位置，以及基于在此幀之內的瞬態(tài)的位置，從包括至少三個窗口的組中選擇特定窗口，在此這三個窗口相對于它們與對應的相鄰窗口的重疊長度是不同的。因此，第一窗口具有大于第二窗口的重疊長度，而第二窗口具有大于第三窗口的重疊長度的重疊長度，且第三窗口或者也可具有零重疊，也即，沒有重疊。特定窗口基于瞬態(tài)位置被選擇，以使兩個時間相鄰的重疊窗口中的一個具有瞬態(tài)的位置的第一窗口系數，而兩個時間相鄰的重疊窗口中的另一個具有瞬態(tài)的位置的第二窗口系數，其中第二系數是第一系數的至少九倍大。因此，確定的是瞬態(tài)位置相對于第一窗口充分被抑制，而瞬態(tài)相對于第二窗口充分被捕獲。換言之，且最好是，較早的窗口已經位于接近瞬態(tài)位置中的零的數值，于此瞬態(tài)已被檢測且第二窗口具有接近或等于于此區(qū)域中的窗口數，從而能在瞬態(tài)的至少一部分期間，使瞬態(tài)在較早的窗口中被抑制，且未在后來的或接下來的窗口被抑制。
[0016] 在一實施例中，重疊長度因整數因子而不同的，以使得第二重疊長度譬如等于第三重疊長度的一半，并使第三重疊長度等于第二重疊長度的一半，或因不同因子而與第二重疊長度不同但大于或等于至少64個樣本，或大于或等于至少32個樣本，或大于或等于至少甚至16個音頻或圖像樣本。
[0017] 從瞬態(tài)位置衍生出的窗口選擇與音頻或圖像信號的幀一起被傳輸，以使得譯碼器可選擇與分析窗口的編碼器選擇成一直線的相對應的合成窗口，從而確定編碼器及譯碼器遍及全部編碼/譯碼操作而同步化。
[0018] 在一實施例中，可控窗口化裝置、轉換器、瞬態(tài)位置檢測器以及控制器形成一種用于編碼的設備，且轉換器應用已知的混疊引入變換例如MDCT(改進的離散余弦變換、 DST(變化離散正弦變換）或任何其它類似的變換中的任何一個。在譯碼器側上，處理器協同可控轉換器，以便依據以被譯碼器所接收的窗口信息表示的窗口化順序，而通過使用重疊-相加處理將頻譜值的塊的序列轉換成時域表示。
[0019] 依據此實施例，除了變換重疊選擇以外，變換長度切換可再基于此幀之內的瞬態(tài) 位置被實施。通過實現至少三個窗口彼此重疊的多重疊區(qū)段，非常低的延遲編碼譯碼器概念被實現，相對于較早的概念，其又大幅地減少需要的瞬態(tài)預看延遲。在更進一步的實施例中，較佳是首先執(zhí)行重疊選擇且接著執(zhí)行變換長度確定，以便確定每個幀的重疊碼?；蛘?，變換長度切換確定可獨立于重疊寬度確定被做成，且基于這兩個，確定重疊碼?；诋斍皫?的重疊碼與較早幀的重疊碼，做出特定瞬態(tài)的窗口化序列選擇，基于此選擇，編碼器與譯碼器彼此同步操作。
[0020] 在更進一步的實施方式中，窗口序列控制器、預處理器及光譜轉換器一起構成一種用于產生編碼后的信號的設備，于此三個窗口具有多重疊部分。由于即將瞬態(tài)預看所需要的延遲更進一步被減少的事實，這個多重疊部分（其中不僅如在現有技術中的兩個窗口而且三個窗口彼此重疊）允許非常低的延遲概念。對應的譯碼器通過譯碼器處理器、時間轉換器及后處理器而形成。后處理器與預處理器通過使用在編碼器側上及在譯碼器側上的一個與相同的輔助窗口來執(zhí)行額外的窗口化操作，以使得有效的實施例尤其可在移動裝置或低成本裝置中被獲得，其中需要的ROM或RAM儲存是要盡可能小的。
[0021] 較佳實施例依靠特定窗口化序列及具有不同長度的窗口的特定交互作用，以使得短長度窗口被"置放"于瞬態(tài)，以便避免長預先回音或后回音。為了確定多重疊部分不導致音頻或圖像偽影，編碼器側上的預處理器使用輔助窗口函數執(zhí)行窗口化操作并使用疊入操作執(zhí)行預先處理運作，用于獲得變化的多重疊部分，其接著通過使用混疊引入變換被變換成頻譜范圍。在譯碼器側上，對應的后處理器被配置成用于在對應的變換成時間表示的后執(zhí)行疊出操作，且在疊出操作之后，使用輔助窗口函數的窗口化以及利用源自利用長窗口的窗口操作的前述塊的樣本的最后的重疊-相加被執(zhí)行。在執(zhí)行變換重疊選擇的實施例中，獲得增加的音頻或畫質。
[0022] 與只采用變換重疊寬度的二進制的選擇（大的/最大或小的）的現有的編碼系統(tǒng) 不同，實施例提出一組三個重疊寬度，編碼器可從其選擇每幀（或可選擇地，每一變換）基礎：最大重疊、一半重疊或最小重疊。最大重疊可以等于關于AAC中的長變換的幀長度（亦艮P，50%重疊），但也可等同于幀長度的一半（亦即，33%重疊或更少），如將在較佳實施例中說明的。因此，最小重疊可表示零重疊寬度（亦即，沒有重疊），但也可表示非常小個數的時間樣本或ms的大于零的重疊，像較佳實施例將證明的。最后，一半重疊可以是但不需要必須是最大重疊的一半。
[0023] 更特別是，依據本發(fā)明的一實施方式，限定重疊寬度確定單元，其為每個幀（或可選擇地，為在一幀之內的每個變換）選擇三個可能的重疊寬度中的一個。更精確地說，所述重疊寬度確定單元具有（作為輸入）瞬態(tài)檢測單元的輸出以利用足夠精度確認在當前幀之內（或可選擇地，在當前幀中的變換之內）的瞬態(tài)的位置及衍生出重疊寬度，以使兩個目的的至少一個被達成：
[0024] -選擇此寬度以使只有其中一個重疊變換包括瞬態(tài)。
[0025] -偽瞬態(tài)由于編碼錯誤的時間混疊的TNS成形而強烈地受到抑制。
[0026] 換言之，利用避免在設置在給定幀中的感知編碼瞬態(tài)左右的預先或后回音失真的目標，來確定此重疊寬度。應注意到，關于確定瞬態(tài)的正確的位置的機制的一定的自由度是可能的。如在較佳實施例中的，指定瞬態(tài)位置的時間或子塊索引可等于那個瞬態(tài)位置的起始（開始），但其亦可以是瞬態(tài)的最大能量或振幅的位置，或能量的中心。
[0027] 此外，不像從一對幀的變換長度的給定選擇衍生出瞬間相互變換重疊（即，變換尺寸確定單元的重疊寬度遵循輸出）的現有技術的編碼機制的是，依據本發(fā)明的另一個實施方式，編碼系統(tǒng)可在待在較佳實施例中被檢驗于下列某些狀況之下：通過使用歸因于那個幀的重疊寬度且可選擇地先前幀的重疊寬度（即，變換尺寸遵循重疊寬度確定單元的數據），來控制或衍生出待用于特定幀的變換長度。
[0028] 在使用多重疊部分或應用變換長度切換的更進一步的實施例中，獲得了特別低的延遲概念。
[0029] 對于現有技術的塊切換機制的改善為對于圖16的瞬態(tài)變換的一種有利的改進方案，其允許在信號非恒定性期間穩(wěn)定質量操作所需要的附加編碼器預看被減少了一半。如上所述，由Fraunhofer/Dolby或由Samsung所提出的起始窗口的特征為：〃具有一長度的不重疊部分〃的分別地存在或不存在。此實施例更進一步并允許瞬態(tài)窗口的左右重疊斜率延伸進入彼此。換言之，變化瞬態(tài)變換顯現非零長度的"雙重疊"區(qū)域，其中其不但與前述幀的長變換而且與下述的短變換重疊。發(fā)明的瞬態(tài)變換的所產生的形狀顯示于圖13中。與圖17所顯示的Samsung的瞬態(tài)窗口比較而言，顯然通過允許在變換中的〃雙重疊〃區(qū)域，變換的右端上的短重疊斜率可被移位至左（從而可減少需要的編碼器預看）達到短變換重疊寬度的一半。這種變化瞬態(tài)窗口的減少的長度擁有幫助實行的三個極重要的優(yōu)點，特別在移動裝置上：
[0030] 由重疊時間/頻率變換（最好是MDCT)所產生的變換核心（S卩，系數向量的長度）正好是像在兩個長變換之間的重疊區(qū)域的寬度的一半一樣長。給定所述長重疊寬度通常等于幀長度或幀長度的一半的事實，這表示發(fā)明的瞬態(tài)窗口與后來的短窗口完美地緊密地套入幀格點（framegrid)，且所產生的編碼譯碼的所有變換尺寸相關于整數2的次方的因子，如圖13所不。
[0031] -在圖17中且又在圖13中所描繪出的瞬態(tài)位置兩者位于瞬態(tài)變換外部，所以編碼錯誤的時域涂抹（temporalsmearing)由于瞬態(tài)可被限制在變換以后的前兩個短窗口的延伸之內。因此，與現有技術的Fraunhofer/Dolby及Samsung機制相反，圍繞瞬態(tài)的可聽見的預回音噪聲不可能在使用圖13的發(fā)明的塊切換方法時產生。
[0032] -編碼器及譯碼器兩者可為順向及逆變換利用完全相同的窗口。在執(zhí)行編碼及譯碼兩者的通信裝置中，只有一組窗口數據因此需要被儲存于ROM中。此外，亦可避免將需要額外程序ROM及/或RAM的信號的特殊預先或后處理。
[0033] 傳統(tǒng)上，如在本發(fā)明中的具有〃雙重疊〃段的瞬態(tài)窗口尚未被使用于語音或音頻或圖像編碼中，大概因為他們被認為是違反了某些原理，其在缺乏變換系數的量化中確保完美波形重建。然而，可能在使用發(fā)明的瞬態(tài)變換時正確重建此輸入，且此外，沒有如在法國電信提議中的特殊譯碼器側后處理被需要。
[0034] 更進一步的注意到，值得強調的是所述發(fā)明的瞬態(tài)窗口的用途可利用發(fā)明的重疊寬度確定單元而不是變換長度確定

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5 6

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：克里斯蒂安·黑爾姆里希;熱雷米·勒孔特;戈蘭·馬爾科維奇;馬庫斯·施內爾;貝恩德·埃德勒;斯特凡·羅伊施爾;
技術所有人：弗勞恩霍夫應用研究促進協會;
我是此專利的發(fā)明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音頻編碼相關技術

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

使用依賴瞬態(tài)位置的重疊對音頻信號編碼或譯碼的設備及方法