本公開的示例實施例總體涉及計算機領域,特別地涉及用于文本處理的方法、裝置、設備、計算機可讀存儲介質(zhì)及計算機可執(zhí)行指令產(chǎn)品。
背景技術:
1、大型語言模型(llm)是利用大量的訓練數(shù)據(jù)訓練的深度學習模型,利用大語言模型可以處理文本。標記化(tokenization)是將文本轉(zhuǎn)化為便于大語言模型分析和處理的詞元(tokens),標記化的方式能夠直接影響大語言模型的性能。
技術實現(xiàn)思路
1、在本公開的第一方面,提供了一種用于文本處理的方法。該方法包括:基于對文本處理的至少一個先前處理周期的先前輸入和先前輸出,確定當前處理周期的目標輸入,目標輸入包括多個一元詞元和至少一個多元詞元,多個一元詞元是基于先前輸入和先前輸出確定的,至少一個多元詞元中的每個多元詞元是多個一元詞元中的至少兩個一元詞元組合形成的;基于目標輸入,確定嵌入表示集合,嵌入表示集合包括分別與多個一元詞元對應的多個第一嵌入表示和分別與至少一個多元詞元對應的至少一個第二嵌入表示;基于嵌入表示集合,確定當前處理周期的輸入特征表示;以及基于輸入特征表示,利用目標模型,確定當前處理周期的目標輸出。
2、在本公開的第二方面,提供了一種用于文本處理的裝置。該裝置包括:目標輸入確定模塊,被配置為基于對文本處理的至少一個先前處理周期的先前輸入和先前輸出,確定當前處理周期的目標輸入,目標輸入包括多個一元詞元和至少一個多元詞元,多個一元詞元是基于先前輸入和先前輸出確定的,至少一個多元詞元中的每個多元詞元是多個一元詞元中的至少兩個一元詞元組合形成的;嵌入表示確定模塊,被配置為基于目標輸入,確定嵌入表示集合,嵌入表示集合包括分別與多個一元詞元對應的多個第一嵌入表示和分別與至少一個多元詞元對應的至少一個第二嵌入表示;輸入特征確定模塊,被配置為基于嵌入表示集合,確定當前處理周期的輸入特征表示;以及目標輸出確定模塊,被配置為基于輸入特征表示,利用目標模型,確定當前處理周期的目標輸出。
3、在本公開的第三方面,提供了一種電子設備。該設備包括至少一個處理器;以及至少一個存儲器,至少一個存儲器被耦合到至少一個處理器并且存儲用于由至少一個處理器執(zhí)行的指令。指令在由至少一個處理器執(zhí)行時使設備執(zhí)行第一方面的方法。
4、在本公開的第四方面,提供了一種計算機可讀存儲介質(zhì)。該計算機可讀存儲介質(zhì)上存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令可由處理器執(zhí)行以實現(xiàn)第一方面的方法。
5、在本公開的第五方面,提供了一種計算機可執(zhí)行指令產(chǎn)品,包括計算機可執(zhí)行指令,其中計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。
6、應當理解,本內(nèi)容部分中所描述的內(nèi)容并非旨在限定本公開的實施例的關鍵特征或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。
1.一種用于文本處理的方法,包括:
2.根據(jù)權利要求1所述的方法,其中所述至少一個多元詞元包括至少一個n元詞元,n為正整數(shù)且n≥2,每個n元詞元基于n個一元詞元組合形成。
3.根據(jù)權利要求1所述的方法,其中確定所述嵌入表示集合包括:
4.根據(jù)權利要求3所述的方法,其中確定所述至少一個多元索引包括:
5.根據(jù)權利要求3所述的方法,其中確定所述多個一元嵌入表示和所述至少一個第二嵌入表示包括:
6.根據(jù)權利要求5所述的方法,其中所述第一候選集合包括分別存儲在多個處理節(jié)點的多個第一子集合,每個第一子集合包括多個一元索引和對應的多個第一嵌入表示,并且
7.根據(jù)權利要求5所述的方法,其中所述第二候選集合包括分別存儲在多個處理節(jié)點的多個第二子集合,每個第二子集合包括多個多元索引和對應的多個第二嵌入表示,并且
8.根據(jù)權利要求3所述的方法,其中確定所述至少一個第二嵌入表示包括:
9.根據(jù)權利要求3所述的方法,其中確定所述至少一個第二嵌入表示包括:
10.根據(jù)權利要求9所述的方法,其中從所述多個第三候選集合確定所述多個低秩嵌入表示包括:
11.根據(jù)權利要求1所述的方法,其中確定所述輸入特征表示包括:
12.根據(jù)權利要求1所述的方法,其中確定所述當前處理周期的目標輸出包括:
13.根據(jù)權利要求12所述的方法,其中基于所述至少一個輸出特征表示中的至少部分輸出特征表示,確定所述當前處理周期的所述目標輸出包括:
14.根據(jù)權利要求1所述的方法,其中確定所述當前處理周期的目標輸出包括:
15.根據(jù)權利要求14所述的方法,其中所述方法是在所述目標模型的訓練中執(zhí)行的,并且所述方法還包括:
16.一種用于文本處理的裝置,包括:
17.一種電子設備,包括:
18.一種計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令可由處理器執(zhí)行以實現(xiàn)根據(jù)權利要求1至15中任一項所述的方法。
19.一種計算機可執(zhí)行指令產(chǎn)品,包括計算機可執(zhí)行指令,其中所述計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)根據(jù)權利要求1至15中任一項所述的方法。