利用對象特定時間/頻率分辨率從混合信號分離音頻對象的制作方法
【技術領域】
[0001] 本發(fā)明涉及音頻信號處理,且具體而言涉及用于采用音頻對象自適應單獨時 間-頻率分辨率進行音頻對象編碼的解碼器、編碼器、系統(tǒng)、方法及計算機程序。
[0002] 根據(jù)本發(fā)明的實施例涉及用于解碼由降混信號及對象相關的參數(shù)側信息(PSI) 組成的多對象音頻信號的音頻解碼器。根據(jù)本發(fā)明的其他實施例涉及用于根據(jù)降混信號表 示及對象相關的PSI來提供升混信號表示的音頻解碼器。本發(fā)明的其他實施例涉及用于解 碼由降混信號及相關的PSI組成的多對象音頻信號的方法。根據(jù)本發(fā)明的其他實施例涉及 用于根據(jù)降混信號表示和對象相關的PSI來提供升混信號表示的方法。
[0003]本發(fā)明的其他實施例涉及用于將多個音頻對象信號編碼成降混信號及PSI的音 頻編碼器。本發(fā)明的其他實施例涉及用于將多個音頻對象信號編碼成降混信號及PSI的方 法。
[0004]根據(jù)本發(fā)明的其他實施例涉及對應于用于解碼、編碼和/或提供升混信號的方法 的計算機程序。
[0005]本發(fā)明的其他實施例涉及用于信號混合操縱的音頻對象自適應單獨時間-頻率 分辨率切換。
【背景技術】
[0006]在現(xiàn)代數(shù)字音頻系統(tǒng)中,在接收機側上允許所傳輸內容的音頻對象相關的修改為 主要趨勢。這些修改包括音頻信號的選定部分的增益修改和/或在經(jīng)由空間分布式揚聲器 進行的多信道回放的情況下的專用音頻對象的空間重新定位。這可藉由將音頻內容的不同 部分單獨傳遞至不同揚聲器來達成。
[0007] 換言之,在音頻處理、音頻傳輸及音頻儲存的技術中,越來越希望允許對象導向的 音頻內容回放上的用戶交互,并且也需要利用多信道回放的延伸可能性來單獨渲染音頻內 容或部分音頻內容,以便改進聽覺印象。由此,多信道音頻內容的使用為用戶帶來顯著的改 進。例如,可獲得三維聽覺印象,該三維聽覺印象帶來改進的用戶對娛樂應用的滿意度。然 而,多信道音頻內容在專業(yè)環(huán)境中也是有用的,例如在電話會議應用中,這是因為通話器可 懂度可通過使用多信道音頻回放來改進。另一可能的應用是為收聽器提供音樂片段以單獨 調整不同部分(也稱為"音頻對象")或諸如人聲零件或不同樂器這樣的軌道的回放水平和 /或空間位置。用戶可出于個人品味的原因、為了更容易轉錄來自音樂片段、教育目的、伴唱 機、排演等的一或更多個部分而執(zhí)行這樣的調整。
[0008]例如以脈沖代碼調制(PCM)數(shù)據(jù)或甚至壓縮音頻格式的形式的所有數(shù)字多信道 或多對象音頻內容的直接離散傳輸需要極高的比特率。然而,也希望以比特率有效的方式 傳輸且儲存音頻數(shù)據(jù)。因此,愿意接受音頻質量與比特率要求之間的合理折衷,以便避免由 多信道/多對象應用導致的過度資源負載。
[0009]近來,在音頻編碼領域中,用于多信道/多對象音頻信號的比特率有效的傳輸/儲 存的參數(shù)技術已由例如活動圖像專家組(MPEG)及其它引入。一個實例是作為信道導向方 法的MPEG環(huán)場(MPS) [MPS、BCC],或作為對象導向的方法的MPEG空間音頻對象編碼(SAOC) [JSC、SAOC、SA0C1、SA0C2]。另一對象導向的方法稱為"告知源分離" [ISS1、ISS2、ISS3、 ISS4、ISS5、ISS6]。這些技術的目的是基于信道/對象的降混及描述所傳輸/儲存的音頻 場景和/或音頻場景中的音頻源對象的額外的側信息,來重構所期望的輸出音頻場景或所 期望的音頻源對象。
[0010] 這種系統(tǒng)中的信道/對象相關的側信息的估計及應用是以時間-頻率選擇性的方 式來完成的。因此,這種系統(tǒng)采用時間-頻率轉換,例如離散傅立葉變換(DFT)、短時傅立葉 變換(STFT)或像正交鏡相濾波器(QMF)組的濾波器組等。使用MPEGSA0C之實例,在圖1 中描繪此類系統(tǒng)之基本原理。
[0011] 在STFT的情況下,時間維度是通過時間塊編號來表示的,且頻譜維度是通過頻譜 系數(shù)("頻格")編號來捕獲的。在QMF的情況下,時間維度是通過時隙編號來表示的,且頻 譜維度是通過子頻帶編號來捕獲的。若QMF的頻譜分辨率通過第二濾波器級的后續(xù)應用而 被改進,則整個濾波器組稱為混合式QMF,且精細分辨率子頻帶稱為混合式子頻帶。
[0012] 如以上已提及,在SA0C中,一般的處理是以時間-頻率選擇性的方式被執(zhí)行的且 可以在每一頻帶內如下描述:
[0013] ?利用由元素dvdNiP組成的降混矩陣作為編碼器處理的一部分而將N個輸入音 頻對象信號s^··sN降混至P個信道X廣·xP。另外,編碼器提取描述輸入音頻對象的特性的 側信息(側信息估計器(SIE)模塊)。對于MPEGSA0C,對象功率關于彼此的關系是這種側 信息的最基本的形式。
[0014] ?傳輸/儲存降混信號及側信息。為此,可例如利用諸如MPEG-1/2層II或 III(aka.mp3)、MPEG-2/4高級音頻編碼(AAC)等這樣的熟知的感知音頻編碼器,來壓縮降 混音頻信號。
[0015] ?在接收端上,解碼器在概念上試圖利用所傳輸?shù)膫刃畔韽模ń獯a的)降混信號 中恢復原始對象信號("對象分離")。然后利用由圖1中的系數(shù)ru-kM描述的渲染矩 陣將這些近似的對象信號:?(混合成由Μ個音頻輸出信道夕1 ..ifM.表示的目標場 景。所期望的目標場景在極端情況下可以是出自混合物的僅一個源信號的渲染(源分離情 景),但也可以是由所傳輸對象組成的任何其它任意的聲響場景。
[0016] 以時間-頻率為基礎的系統(tǒng)可利用具有靜態(tài)時間分辨率及頻率分辨率的時間 -頻 率(t/f)轉換。選取某一固定的t/f分辨率柵格通常涉及時間分辨率與頻率分辨率之間的 折衷。
[0017]固定的t/f分辨率的效應可以在音頻信號混合物中的典型對象信號的實例上得 到證明。例如,音調聲音的頻譜呈現(xiàn)為具有基本頻率及若干泛音的調和相關的結構。這種 信號的能量集中在某些頻率區(qū)處。對于這種信號,所利用的t/f表示的高頻率分辨率對于 從信號混合物中分離窄頻帶音調頻譜區(qū)而言是有益的。相反,像鼓聲這樣的瞬時信號通常 具有相異的時間結構:大量的能量僅在短時段內存在,且遍布于大范圍的頻率上。對于這些 信號,所利用的t/f表示的高時間分辨率對于從信號混合物中分離瞬時信號部分而言是有 利的。
【發(fā)明內容】
[0018] 當分別在編碼器側或在解碼器側生成和/或評估對象特定的側信息時,希望考慮 不同類型的音頻對象關于其在時間-頻率域中的表示的不同需求。
[0019] 這個期望和/或其他期望是通過用于解碼多對象音頻信號的音頻解碼器、通過用 于將多個音頻對象信號編碼成降混信號及側信息的音頻編碼器、通過用于解碼多對象音頻 信號的方法、通過用于編碼多個音頻對象信號的方法或通過對應的計算機程序來解決的, 如由獨立權利要求所限定的。
[0020] 根據(jù)至少一些實施例,提供用于解碼多對象信號的音頻解碼器。多對象音頻信號 由降混信號及側信息組成。側信息包含用于至少一個時間/頻率區(qū)中的至少一個音頻對象 的對象特定的側信息。側信息進一步包含指示用于至少一個時間/頻率區(qū)中的至少一個音 頻對象的對象特定的側信息的對象特定的時間/頻率分辨率的對象特定的時間/頻率分辨 率信息。音頻解碼器包含對象特定的時間/頻率分辨率確定器,該對象特定的時間/頻率 分辨率確定器被配置成根據(jù)用于至少一個音頻對象的側信息而確定對象特定的時間/頻 率分辨率信息。音頻解碼器進一步包含對象分離器,該對象分離器被配置成根據(jù)對象特定 的時間/頻率分辨率、利用對象特定的側信息從降混信號中分離至少一個音頻對象。
[0021] 其他實施例提供了用于將多個音頻對象編碼成降混信號及側信息的音頻編碼器。 音頻編碼器包含時間至頻率轉換器,該時間至頻率轉換器被配置成利用第一時間/頻率分 辨率將多個音頻對象至少轉換成第一多個對應的變換,且利用第二時間/頻率分辨率將多 個音頻對象轉換成第二多個對應的變換。音頻編碼器進一步包含側信息確定器,該側信息 確定器被配置成確定用于第一多個對應的變換的至少一個第一側信息以及用于第二多個 對應的變換的第二側信息。第一側信息及第二側信息指示多個音頻對象在時間/頻率區(qū)中 彼此分別在第一時間/頻率分辨率及第二時間/頻率分辨率中的關系。音頻編碼器還包含 側信息選擇器,該側信息選擇器被配置成基于適合性準則而針對多個音頻對象中的至少一 個音頻對象從至少第一側信息及第二側信息中選擇一個對象特定的側信息。適合性準則指 示了至少第一時間/頻率分辨率或第二時間/頻率分辨率對于在時間/頻率域中表示音頻 對象的適合性。選定的對象特定的側信息被插入由音頻編碼器輸出的側信息中。
[0022] 本發(fā)明的其他實施例提供了用于解碼由降混信號及側信息組成的多對象音頻信 號的方法。側信息包含用于至少一個時間/頻率區(qū)中的至少一個音頻對象的對象特定的側 信息,且對象特定的時間/頻率分辨率信息指示了用于至少一時間/頻率區(qū)中的至少一個 音頻對象的對象特定的側信息的對象特定的時間/頻率分辨率。方法包含根據(jù)用于至少一 個音頻對象的側信息而確定對象特定的時間/頻率分辨率信息。方法進一步包含根據(jù)對象 特定的時間/頻率分辨率、利用對象特定的側信息從降混信號中分離至少一個音頻對象。
[0023] 本發(fā)明的其他實施例提供用于將多個音頻對象編碼成降混信號及側信息的方法。 方法包含利用第一時間/頻率分辨率將多個音頻對象至少轉換成第一多個對應的變換,且 利用第二時間/頻率分辨率將多個音頻對象轉換成第二多個對應的變換。方法進一步包含 確定用于第一多個對應的變換的至少一個第一側信息及用于第二多個對應的變換的第二 側信息。第一側信息及第二側信息指示了多個音頻對象在時間/頻率區(qū)中、分別在第一時 間/頻率分辨率及第二時間/頻率分辨率中的彼此之間的關系。方法進一步包含基于適合 性準則而針對多個音頻對象中的至少一個音頻對象、從至少第一側信息及第二側信息中選 擇一個對象特定的側信息。適合性準則指示了至少第一時間/頻率分辨率或第二時間/頻 率分辨率對于在時間/頻率域中表示音頻對象的適合性。對象特定的側信息被插入由音頻 編碼器輸出的側信息中。
[0024] 若所利用的t/f表示與要從混合物中分離的音頻對象的時間和/或頻譜特性不匹 配,則音頻對象分離的性能通常下降。不充分的性能可導致所分離的對象之間的串音。該串 音被感知為前回聲或后回聲、音色修改,或在人類語音的情況下被感知為所謂的含糊其詞。 本發(fā)明的實施例提供了若干替代性t/f表示,當在編碼器側確定側信息時或當在解碼器側 使用側信息時,可針對給定音頻對象及給定時間/頻率區(qū)而從上述替代性t/f表示中選擇 最適合的t/f表示。與現(xiàn)有技術相比,這提供了用于分離音頻對象的改進的分離性能及所 渲染的輸出信號的改進的主觀質量。
[0025] 與用于編碼/解碼空間音頻對象的其它方案相比,側信息的量可大體上相同或稍 微較高。根據(jù)本發(fā)明的實施例,側信息是以有效的方式被使用的,這是因為它是以考慮到給 定音頻對象關于其時間及頻譜結構的對象特定的特性的對象特定的方式而被應用的。換言 之,側信息的t/f表示被調整為適合各種音頻對象。
【附圖說明】
[0026] 接著將參照附圖描述根據(jù)本發(fā)明的實施例,其中:
[0027] 圖1示出了SA0C系統(tǒng)的概念性概觀的示意性框圖;
[0028] 圖2示出了單信道音頻信號的時間-頻譜表示的示意及說明圖;
[0029] 圖3示出了SA0C編碼器內的側信息的時間-頻率選擇性計算的示意性框圖;
[0030] 圖4示意性地示出了根據(jù)一些實施例的增強型側信息估計器的原理;
[0031] 圖5示意性地示出了由不同的t/f表示所表示的t/f區(qū)R(tK,fR);
[0032] 圖6是根據(jù)實施例的側信息計算和選擇模塊的示意性框圖;
[0033] 圖7示意性地示出了包含增強型(虛擬)對象分離(E0S)模塊的SA0C解碼;
[0034] 圖8示出了增強型對象分離模塊(E0S模塊)的示意性框圖;
[0035] 圖9是根據(jù)實施例的音頻解碼器的示意性框圖;
[0036] 圖10是根據(jù)相對簡單的實施例的音頻解碼器的示意性框圖,該音頻解碼器解碼Η 個替代性t/f表示且隨后選擇對象特定的t/f表示;
[0037] 圖11示意性地示出了以不同的t/f表示所表示的t/f區(qū)R(tK,fR)及t/f區(qū)內的 估計協(xié)方差矩陣E的確定的所得結果;
[0038] 圖12示意性地示出了用于為了在縮放的時間/頻率表示中執(zhí)行音頻對象分離而 使用縮放轉換的音頻對象分離的概念;
[0039] 圖13示出了用于利用關聯(lián)的側信息來解碼降混信號的方法的示意性流程圖;以 及
[0040] 圖14示出了用于將多個音頻對象編碼成降混信號及關聯(lián)的側信息的方法的示意 性流程圖。
【具體實施方式】
[0041] 圖1示出了SA0C編碼器10及SA0C解碼器12的通用布置。SA0C編碼器10接收 N個對象(S卩,音頻信號81至sN)作為輸入。特別地,編碼器10包含降混器16,該降混器接 收音頻信號81至S,且將其降混成降混信號18。或者,可在外部提供降混("藝術降混"), 且系統(tǒng)估計額外的側信息以使所提供的降混匹配所計算的降混。在圖1中,降混信號顯示 為P信道信號。因此,任何單信道(P= 1)、立體聲(P= 2)或多信道(P> = 2)降混信號配 置是可以設想的。