本發(fā)明涉及人工智能,尤其涉及一種機器人回復內(nèi)容優(yōu)化方法、裝置、設備、存儲介質(zhì)及產(chǎn)品。
背景技術:
1、近年來,在人工智能研究熱潮的推動下,智能聊天機器人被定位成未來各種產(chǎn)品和服務的入口,已成為各相關領域公司的重點研究項目。智能問答作為人機交互的主要方式具有廣泛的應用場景。
2、現(xiàn)有的聊天機器人的語料一般來自預先錄入的模板,模板依靠人工編寫,豐富性和實時性比較差,且在回復用戶時,通常是基于用戶當前會話回復的內(nèi)容來進行回復。因此,針對用戶相同的提問,無論是出現(xiàn)在與用戶的哪個會話回合中,聊天機器人回復的內(nèi)容都是相同的,使得聊天機器人在根據(jù)與終端用戶的會話內(nèi)容來對終端用戶進行推薦時,經(jīng)常會出現(xiàn)推薦不夠精準的問題,影響終端用戶的體驗。
技術實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種機器人回復內(nèi)容優(yōu)化方法、裝置、設備、存儲介質(zhì)及產(chǎn)品,旨在解決現(xiàn)有技術聊天機器人在根據(jù)與終端用戶的會話內(nèi)容回復終端用戶時,經(jīng)常會出現(xiàn)回復不夠精準的問題,影響終端用戶的體驗的技術問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種機器人回復內(nèi)容優(yōu)化方法,所述方法包括以下步驟:
3、獲取當前用戶向聊天機器人輸入的當前會話序列和所述當前會話序列的上下文信息;
4、通過預先構建的編-解碼模型對所述當前會話序列和所述上下文信息進行分析,得到初始回復內(nèi)容;
5、基于歷史多輪對話內(nèi)容、機器人回復內(nèi)容以及對話獎勵進行預測,得到優(yōu)化策略;
6、根據(jù)所述優(yōu)化策略對所述初始回復內(nèi)容進行優(yōu)化,得到機器人本輪回復內(nèi)容。
7、可選地,所述通過預先構建的編-解碼模型對所述多輪會話序列和所述上下文信息進行分析,得到初始回復內(nèi)容之前,還包括:
8、獲取bert編碼器和對應的bert解碼器,所述bert編碼器包括多個bert編碼塊,所述編碼塊包括一個自注意力層和兩個前饋層,所述bert解碼器包括多個bert解碼塊和位于所述bert解碼塊上方的線性層,所述bert解碼塊包括一個自注意力層、兩個前饋層以及一個交叉注意力層;
9、根據(jù)所述bert編碼器和所述bert解碼器構建初始編-解碼模型;
10、通過歷史樣本會話內(nèi)容對所述初始編-解碼模型進行訓練,得到編-解碼模型。
11、可選地,所述通過歷史樣本會話內(nèi)容對所述初始編-解碼模型進行訓練,得到編-解碼模型,包括:
12、獲取歷史樣本會話內(nèi)容;
13、根據(jù)所述歷史樣本會話內(nèi)容得到會話序列、會話上下文信息以及樣本回復會話內(nèi)容;
14、通過所述初始編-解碼模型將所述會話序列和所述會話上下文信息進行映射,得到上下文編碼向量;
15、通過所述初始編-解碼模型將所述上下文編碼向量和所述樣本回復會話內(nèi)容進行映射,得到邏輯向量;
16、根據(jù)所述邏輯向量構建最小化交叉熵損失函數(shù),基于所述最小化交叉熵損失函數(shù)所述初始編-解碼模型,得到編-解碼模型。
17、可選地,所述根據(jù)所述邏輯向量構建最小化交叉熵損失函數(shù),基于所述最小化交叉熵損失函數(shù)所述初始編-解碼模型,得到編-解碼模型,包括:
18、通過貝葉斯規(guī)則對所述樣本回復會話內(nèi)容的條件分布進行分解,得到所述樣本回復會話內(nèi)容的概率分布;
19、根據(jù)所述邏輯向量和所述概率分布構建最小化交叉熵損失函數(shù);
20、根據(jù)所述最小化交叉熵損失函數(shù)對所述概率分布進行優(yōu)化,完成對所述初始編-解碼模型的訓練,得到編-解碼模型。
21、可選地,所述通過預先訓練好的馬爾科夫決策模型基于歷史多輪對話內(nèi)容、機器人回復內(nèi)容以及對話獎勵進行預測,得到優(yōu)化策略之前,還包括:
22、獲取樣本歷史多輪對話內(nèi)容、樣本機器人回復內(nèi)容以及樣本優(yōu)化策略,所述樣本優(yōu)化策略為機器人回復會話內(nèi)容的概率分布;
23、根據(jù)所述樣本歷史多輪對話內(nèi)容、樣本機器人回復內(nèi)容計算樣本對話獎勵;
24、根據(jù)所述樣本歷史多輪對話內(nèi)容、所述樣本機器人回復內(nèi)容、樣本對話獎勵以及所述樣本優(yōu)化策略對初始馬爾科夫決策模型進行訓練,得到馬爾科夫決策模型;
25、通過馬爾科夫決策模型對基于歷史多輪對話內(nèi)容、機器人回復內(nèi)容以及對話獎勵進行預測,得到優(yōu)化策略。
26、可選地,所述根據(jù)所述樣本歷史多輪對話內(nèi)容、樣本機器人回復內(nèi)容計算樣本對話獎勵,包括:
27、根據(jù)所述歷史多輪對話內(nèi)容得到智能體之間的相似度,根據(jù)所述相似度計算動作獎勵;
28、根據(jù)所述歷史多輪對話內(nèi)容得到會話輪數(shù)、前后編輯距離;
29、根據(jù)所述會話輪數(shù)和所述前后編輯距離計算連續(xù)獎勵;
30、根據(jù)預設權重、所述動作獎勵以及所述連續(xù)獎勵得到樣本對話獎勵。
31、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種機器人回復內(nèi)容優(yōu)化裝置,所述機器人回復內(nèi)容優(yōu)化裝置包括:
32、信息獲取模塊,用于獲取當前用戶向聊天機器人輸入的當前會話序列和所述當前會話序列的上下文信息;
33、初始預測模塊,用于通過預先構建的編-解碼模型對所述當前會話序列和所述上下文信息進行分析,得到初始回復內(nèi)容;
34、優(yōu)化模塊,用于基于歷史多輪對話內(nèi)容、機器人回復內(nèi)容以及對話獎勵進行預測,得到優(yōu)化策略;
35、所述優(yōu)化模塊,還用于根據(jù)所述優(yōu)化策略對所述初始回復內(nèi)容進行優(yōu)化,得到機器人本輪回復內(nèi)容。
36、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種機器人回復內(nèi)容優(yōu)化設備,所述機器人回復內(nèi)容優(yōu)化設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序配置為實現(xiàn)如上文所述的機器人回復內(nèi)容優(yōu)化方法的步驟。
37、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種存儲介質(zhì),所述存儲介質(zhì)上存儲有機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序被處理器執(zhí)行時實現(xiàn)如上文所述的機器人回復內(nèi)容優(yōu)化方法的步驟。
38、此外,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序被處理器執(zhí)行時實現(xiàn)如上文所述的機器人回復內(nèi)容優(yōu)化方法的步驟。
39、本發(fā)明通過基于transformer的編碼器-解碼器模型,結合用戶此次會話的多輪會話內(nèi)容得到初始回復內(nèi)容,再通過馬爾可夫決策結合用戶的歷史多輪會話內(nèi)容,來確定聊天機器人的回復內(nèi)容,由于可以有效結合用戶當前會話內(nèi)容以及歷史會話內(nèi)容來綜合確定聊天機器人的回復內(nèi)容,從而可以確定用戶的真實聊天意圖,有效提升聊天機器人的回復準確性。
1.一種機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述方法包括:
2.如權利要求1所述的機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述通過預先構建的編-解碼模型對所述多輪會話序列和所述上下文信息進行分析,得到初始回復內(nèi)容之前,還包括:
3.如權利要求2所述的機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述通過歷史樣本會話內(nèi)容對所述初始編-解碼模型進行訓練,得到編-解碼模型,包括:
4.如權利要求3所述的機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述根據(jù)所述邏輯向量構建最小化交叉熵損失函數(shù),基于所述最小化交叉熵損失函數(shù)所述初始編-解碼模型,得到編-解碼模型,包括:
5.如權利要求1所述的機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述基于歷史多輪對話內(nèi)容、機器人回復內(nèi)容以及對話獎勵進行預測,得到優(yōu)化策略,包括:
6.如權利要求5所述的機器人回復內(nèi)容優(yōu)化方法,其特征在于,所述根據(jù)所述樣本歷史多輪對話內(nèi)容、樣本機器人回復內(nèi)容計算樣本對話獎勵,包括:
7.一種機器人回復內(nèi)容優(yōu)化裝置,其特征在于,所述機器人回復內(nèi)容優(yōu)化裝置包括:
8.一種機器人回復內(nèi)容優(yōu)化設備,其特征在于,所述機器人回復內(nèi)容優(yōu)化設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序配置為實現(xiàn)如權利要求1至6中任一項所述的機器人回復內(nèi)容優(yōu)化方法。
9.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)上存儲有機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6中任一項所述的機器人回復內(nèi)容優(yōu)化方法。
10.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括機器人回復內(nèi)容優(yōu)化程序,所述機器人回復內(nèi)容優(yōu)化程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6中任一項所述的機器人回復內(nèi)容優(yōu)化方法的步驟。