本公開涉及語音處理技術,尤其是一種語音質量檢測方法、裝置、系統(tǒng)、存儲介質和電子設備。
背景技術:
1、聲紋在涉及語音交互的場景中有著廣泛地應用,例如,誤報優(yōu)化、敏感操作鑒權、輔助語音增強等應用。聲紋注冊是從包含目標用戶語音的音頻中提取并存儲能表征目標用戶語音的特征(即聲紋),是聲紋相關應用的前提條件。在聲紋注冊中,用于聲紋注冊的目標用戶的語音質量對提取的聲紋質量有直接影響。在實際場景中,用于聲紋注冊的目標用戶語音容易受到各種噪聲干擾,使得聲紋提取質量難以保證。
技術實現(xiàn)思路
1、為了解決上述技術問題,本公開提供了一種語音質量檢測方法、裝置、系統(tǒng)、存儲介質和電子設備,以對語音質量進行準確地評判。
2、本公開的第一個方面提供了一種語音質量檢測方法,包括:
3、獲取針對同一目標場景同步采集的音頻信號和視頻信號;
4、基于音頻信號獲取目標用戶的目標語音能量和環(huán)境噪聲干擾能量;
5、基于視頻信號獲取目標用戶的唇動激活率;
6、根據(jù)目標語音能量、環(huán)境噪聲干擾能量以及目標用戶的唇動激活率,確定音頻信號的語音質量檢測結果。
7、本公開的第二個方面,提供了一種語音質量檢測裝置,包括:
8、第一獲取模塊,用于獲取針對同一目標場景同步采集的音頻信號和視頻信號;
9、第二獲取模塊,用于基于音頻信號獲取目標用戶的目標語音能量和環(huán)境噪聲干擾能量;
10、第三獲取模塊,用于基于視頻信號獲取目標用戶的唇動激活率;
11、檢測模塊,用于根據(jù)目標語音能量、環(huán)境噪聲干擾能量以及目標用戶的唇動激活率,確定音頻信號的語音質量檢測結果。
12、本公開的第三個方面,提供了一種語音質量檢測系統(tǒng),包括:
13、圖像采集模塊,用于采集目標場景的視頻信號;
14、音頻采集模塊,用于采集目標場景的音頻信號;
15、上述第二方面所述的語音質量檢測裝置,用于獲取針對同一目標場景同步采集的音頻信號和視頻信號;基于所述音頻信號獲取目標用戶的目標語音能量和環(huán)境噪聲干擾能量;基于所述視頻信號獲取所述目標用戶的唇動激活率;根據(jù)所述目標語音能量、所述環(huán)境噪聲干擾能量以及所述目標用戶的唇動激活率,確定所述音頻信號的語音質量檢測結果。
16、本公開的第四個方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序程序,該計算機程序被處理器執(zhí)行時,實現(xiàn)上述第一方面任一項的方法。
17、本公開的第五個方面,提供了一種電子設備,電子設備包括:處理器,以及與處理器通信連接的存儲器,還包括上述第二方面所述的語音質量檢測裝置;
18、存儲器,用于存儲所述處理器可執(zhí)行指令;
19、處理器,用于從存儲器中讀取可執(zhí)行指令,并執(zhí)行指令以控制語音質量檢測裝置實現(xiàn)上述第一方面任一所述的語音質量檢測方法。
20、本公開的第六個方面,提出了一種計算機程序產品,當所述計算機程序產品中的指令處理器執(zhí)行時,執(zhí)行本公開第一方面實施例提出的語音質量檢測方法。
21、基于本公開實施例,通過獲取針對同一目標場景同步采集的音頻信號和視頻信號,基于該音頻信號獲取目標用戶的目標語音能量和環(huán)境噪聲干擾能量,基于同一目標場景采集的視頻信號獲取目標用戶的唇動激活率,同時結合該目標語音能量和環(huán)境噪聲干擾能量、以及目標用戶的唇動激活率確定該音頻信號的語音質量檢測結果,實現(xiàn)了音視頻結合的多模態(tài)語音質量檢測方式,能夠準確確定音頻信號的語音質量,有效提高音頻信號的語音質量檢測結果的準確性,以便在基于該音頻信號進行聲紋注冊時,從該音頻信號中提取的目標用戶聲紋能夠有效表征目標用戶語音的特征,提高聲紋提取質量;在基于該音頻信號進行聲紋相關應用(如誤報優(yōu)化、敏感操作鑒權、輔助語音增強)時,能夠有效提高相關應用結果的準確性,從而提升語音服務的用戶體驗。
1.一種語音質量檢測方法,包括:
2.根據(jù)權利要求1所述的方法,其中,所述基于所述音頻信號獲取目標用戶的目標語音能量和環(huán)境噪聲干擾能量,包括:
3.根據(jù)權利要求2所述的方法,其中,基于所述視頻信號獲取所述目標用戶的唇動激活率,包括:
4.根據(jù)權利要求1至3中任一項所述的方法,其中,所述根據(jù)所述目標語音能量、所述環(huán)境噪聲干擾能量以及所述目標用戶的唇動激活率,確定所述音頻信號的語音質量檢測結果,包括:
5.根據(jù)權利要求4所述的方法,其中,所述根據(jù)所述第一比較結果以及所述唇動激活率,確定所述音頻信號的語音質量檢測結果,包括:
6.根據(jù)權利要求5所述的方法,其中,所述在所述目標語音能量與所述環(huán)境噪聲干擾能量的差值大于預設第一閾值的情況下,根據(jù)所述唇動激活率確定所述音頻信號的語音質量檢測結果,包括:
7.根據(jù)權利要求2所述的方法,其中,所述對所述音頻信號進行處理,提取出所述目標用戶的目標語音信號,包括:
8.根據(jù)權利要求7所述的方法,其中,所述根據(jù)所述目標用戶所在的音區(qū),對所述經過回聲消除的音頻信號進行去噪處理,得到所述目標語音信號,包括:
9.根據(jù)權利要求8所述的方法,其中,所述對所述目標音區(qū)分離信號進行去噪處理,得到所述目標語音信號,包括:
10.根據(jù)權利要求2所述的方法,其中,所述基于所述目標語音信號確定所述目標語音能量,包括:分別對所述音頻信號和所述目標語音信號進行靜音抑制處理,基于靜音抑制處理后的目標語音信號確定所述目標語音能量;
11.根據(jù)權利要求10所述的方法,其中,所述對所述視頻信號進行人臉檢測,得到至少一個人臉檢測結果,包括:
12.根據(jù)權利要求10或11所述的方法,其中,所述分別對所述音頻信號和所述目標語音信號進行靜音抑制處理,包括:
13.根據(jù)權利要求12所述的方法,其中,所述分別對所述延遲補償后的目標語音信號和所述音頻信號進行靜音抑制處理,包括:
14.一種語音質量檢測裝置,包括:
15.一種語音質量檢測系統(tǒng),包括:
16.一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序用于執(zhí)行上述權利要求1-13任一所述的語音質量檢測方法。
17.一種電子設備,所述電子設備包括處理器,以及與所述處理器通信連接的存儲器,還包括權利要求14所述的語音質量檢測裝置;