本技術(shù)涉及處理音頻數(shù)據(jù)。例如,描述了用于使用基于機(jī)器學(xué)習(xí)的音頻表示(例如,嵌入向量)來將輸入音頻與所存儲(chǔ)的音頻進(jìn)行匹配并且基于匹配的結(jié)果來執(zhí)行一個(gè)或多個(gè)功能的系統(tǒng)和技術(shù)。
背景技術(shù):
1、諸如智能電話、平板計(jì)算機(jī)、可穿戴電子設(shè)備、智能tv等的電子設(shè)備在消費(fèi)者中變得越來越流行。這些設(shè)備可通過無線或有線網(wǎng)絡(luò)提供音頻(例如,語音或言語、音樂等)和/或數(shù)據(jù)通信功能性。此外,此類電子設(shè)備可包括提供經(jīng)設(shè)計(jì)以增強(qiáng)用戶便利性的多種功能的其他特征。數(shù)字音頻包括大量數(shù)據(jù)以滿足消費(fèi)者和音頻提供者的需求。
2、言語是音頻的一個(gè)示例。言語應(yīng)用可依賴于能夠使用言語模型來有效地對(duì)言語進(jìn)行建模。言語模型可由諸如言語譯碼、語音轉(zhuǎn)換、關(guān)鍵詞定位、言語質(zhì)量評(píng)估等的應(yīng)用使用。這些系統(tǒng)的言語質(zhì)量、低位速率和檢測(cè)能力取決于基礎(chǔ)模型的質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、本文描述了用于處理音頻數(shù)據(jù)的系統(tǒng)和技術(shù)。在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種用于對(duì)音頻信息進(jìn)行編碼的裝置,該裝置包括:至少一個(gè)存儲(chǔ)器;和至少一個(gè)處理器,該至少一個(gè)處理器耦合到該至少一個(gè)存儲(chǔ)器并且被配置為:檢測(cè)輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的多個(gè)表示進(jìn)行比較,該多個(gè)表示表示多個(gè)音頻片段;基于將該表示與該多個(gè)表示進(jìn)行比較,從存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的該多個(gè)表示確定一個(gè)或多個(gè)目標(biāo)音頻片段的一個(gè)或多個(gè)目標(biāo)表示;確定與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;分組化該一個(gè)或多個(gè)索引;以及發(fā)送該分組化的一個(gè)或多個(gè)索引。
2、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種用于對(duì)音頻信息進(jìn)行編碼的方法,該方法包括:檢測(cè)輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的多個(gè)表示進(jìn)行比較,該多個(gè)表示表示多個(gè)音頻片段;基于將該表示與該多個(gè)表示進(jìn)行比較,從存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的該多個(gè)表示確定一個(gè)或多個(gè)目標(biāo)音頻片段的一個(gè)或多個(gè)目標(biāo)表示;確定與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;分組化該一個(gè)或多個(gè)索引;以及發(fā)送該分組化的一個(gè)或多個(gè)索引。
3、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)致使該一個(gè)或多個(gè)處理器:檢測(cè)輸入音頻片段;處理該輸入音頻片段以生成該輸入音頻片段的表示;將該輸入音頻片段的該表示與存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的多個(gè)表示進(jìn)行比較,該多個(gè)表示表示多個(gè)音頻片段;基于將該表示與該多個(gè)表示進(jìn)行比較,從存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的該多個(gè)表示確定一個(gè)或多個(gè)目標(biāo)音頻片段的一個(gè)或多個(gè)目標(biāo)表示;確定與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;分組化該一個(gè)或多個(gè)索引;以及發(fā)送該分組化的一個(gè)或多個(gè)索引。
4、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種用于對(duì)音頻信息進(jìn)行編碼的裝置。該裝置包括:用于檢測(cè)輸入音頻片段的部件;用于處理該輸入音頻片段以生成該輸入音頻片段的表示的部件;用于將該輸入音頻片段的該表示與存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的多個(gè)表示進(jìn)行比較的部件,該多個(gè)表示表示多個(gè)音頻片段;用于基于將該表示與該多個(gè)表示進(jìn)行比較,從存儲(chǔ)在該至少一個(gè)存儲(chǔ)器中的該多個(gè)表示確定一個(gè)或多個(gè)目標(biāo)音頻片段的一個(gè)或多個(gè)目標(biāo)表示的部件;用于確定與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引的部件;用于分組化該一個(gè)或多個(gè)索引的部件;和用于發(fā)送該分組化的一個(gè)或多個(gè)索引的部件。
5、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種用于對(duì)音頻信息進(jìn)行解碼的裝置,該裝置包括:至少一個(gè)存儲(chǔ)器;和至少一個(gè)處理器,該至少一個(gè)處理器耦合到該至少一個(gè)存儲(chǔ)器并且被配置為:接收與一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)分組化索引;將該一個(gè)或多個(gè)分組化索引解分組化以生成與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;基于該一個(gè)或多個(gè)索引從該至少一個(gè)存儲(chǔ)器檢索該一個(gè)或多個(gè)目標(biāo)音頻片段;以及組合該一個(gè)或多個(gè)目標(biāo)音頻片段以生成已解碼音頻。
6、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種對(duì)音頻信息進(jìn)行解碼的方法,該方法包括:接收與一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)分組化索引;將該一個(gè)或多個(gè)分組化索引解分組化以生成與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;基于該一個(gè)或多個(gè)索引從至少一個(gè)存儲(chǔ)器檢索該一個(gè)或多個(gè)目標(biāo)音頻片段;以及組合該一個(gè)或多個(gè)目標(biāo)音頻片段以生成已解碼音頻。
7、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種其上存儲(chǔ)有指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)致使該一個(gè)或多個(gè)處理器:接收與一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)分組化索引;將該一個(gè)或多個(gè)分組化索引解分組化以生成與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引;基于該一個(gè)或多個(gè)索引從至少一個(gè)存儲(chǔ)器檢索該一個(gè)或多個(gè)目標(biāo)音頻片段;以及組合該一個(gè)或多個(gè)目標(biāo)音頻片段以生成已解碼音頻。
8、在一些方面,本文中所描述的系統(tǒng)和技術(shù)涉及一種用于對(duì)音頻信息進(jìn)行解碼的裝置。該裝置包括:用于接收與一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)分組化索引的部件;用于將該一個(gè)或多個(gè)分組化索引解分組化以生成與該一個(gè)或多個(gè)目標(biāo)音頻片段相關(guān)聯(lián)的一個(gè)或多個(gè)索引的部件;用于基于該一個(gè)或多個(gè)索引從至少一個(gè)存儲(chǔ)器檢索該一個(gè)或多個(gè)目標(biāo)音頻片段的部件;和用于組合該一個(gè)或多個(gè)目標(biāo)音頻片段以生成已解碼音頻的部件。
9、在一些方面,本文所描述的裝置中的一者或多者是以下內(nèi)容、作為以下內(nèi)容的一部分和/或包括以下內(nèi)容:移動(dòng)設(shè)備或無線通信設(shè)備(例如,移動(dòng)電話或其他移動(dòng)設(shè)備)、擴(kuò)展現(xiàn)實(shí)(xr)設(shè)備或系統(tǒng)(例如,虛擬現(xiàn)實(shí)(vr)設(shè)備、增強(qiáng)現(xiàn)實(shí)(ar)設(shè)備或混合現(xiàn)實(shí)(mr)設(shè)備)、交通工具或交通工具的計(jì)算設(shè)備或組件、可穿戴設(shè)備(例如,網(wǎng)絡(luò)連接的手表或其他可穿戴設(shè)備)、相機(jī)、個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)或服務(wù)器設(shè)備(例如,基于邊緣或云的服務(wù)器、充當(dāng)服務(wù)器設(shè)備的個(gè)人計(jì)算機(jī)、諸如充當(dāng)服務(wù)器設(shè)備的移動(dòng)電話的移動(dòng)設(shè)備、充當(dāng)服務(wù)器設(shè)備的xr設(shè)備、充當(dāng)服務(wù)器設(shè)備的交通工具、網(wǎng)絡(luò)路由器或充當(dāng)服務(wù)器設(shè)備的其他設(shè)備)、另一設(shè)備或它們的組合。在一些方面,該裝置包括用于捕獲一個(gè)或多個(gè)圖像的一個(gè)相機(jī)或多個(gè)相機(jī)。在一些方面,該裝置還包括用于顯示一個(gè)或多個(gè)圖像、通知和/或其他可顯示數(shù)據(jù)的顯示器。在一些方面,該裝置可包括一個(gè)或多個(gè)傳感器(例如,一個(gè)或多個(gè)慣性測(cè)量單元(imu),諸如一個(gè)或多個(gè)陀螺儀、一個(gè)或多個(gè)陀螺測(cè)試儀、一個(gè)或多個(gè)加速度計(jì)、它們的任何組合和/或其他傳感器)。在一些方面,該裝置可包括被配置為接收信息或數(shù)據(jù)的接收器、被配置成發(fā)送信息或數(shù)據(jù)的發(fā)送器、和/或被配置為接收和發(fā)送信息或數(shù)據(jù)的收發(fā)器。
10、可單獨(dú)地或以任何合適的組合使用涉及方法、裝置和計(jì)算機(jī)可讀介質(zhì)中的任一者的上述方面。
11、該
技術(shù)實(shí)現(xiàn)要素:
不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵或必要特征,其也不旨在單獨(dú)用于確定所要求保護(hù)的主題的范圍。本主題應(yīng)當(dāng)參考本專利的整個(gè)說明書的合適部分、任何或所有附圖、以及每項(xiàng)權(quán)利要求來理解。
12、前述內(nèi)容以及其他特征和實(shí)施方案將在參考以下說明書、權(quán)利要求書和附圖時(shí)變得更明顯。