本公開的實施例涉及抽樣方法、計算設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能時代的到來,ai訓(xùn)練用的訓(xùn)練數(shù)據(jù)需求越來越大,雖然一些場景可以使用未標(biāo)注數(shù)據(jù)進(jìn)行機器學(xué)習(xí)模型的訓(xùn)練,但在智能體(agent)創(chuàng)建或者垂域模型創(chuàng)建中,使用已標(biāo)注數(shù)據(jù)對機器學(xué)習(xí)模型進(jìn)行例如微調(diào)是常用的技術(shù)手段,因此對標(biāo)注數(shù)據(jù)的數(shù)量和質(zhì)量也提出了更高要求。當(dāng)人工或者機器例如專用或者非專用的算法完成數(shù)據(jù)標(biāo)注后,需要對標(biāo)注數(shù)據(jù)進(jìn)行驗收,然而越來越大的標(biāo)注數(shù)據(jù)量對驗收工作提出了挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本公開至少一個實施例提供一種抽樣方法,包括:
2、獲取多個圖像的已標(biāo)注數(shù)據(jù);
3、確定每個圖像的所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度;以及
4、基于所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度從所述多個圖像中進(jìn)行抽樣,其中,具有更低所述準(zhǔn)確程度的圖像更有更高的抽樣優(yōu)先級。
5、在至少一個實施例中,確定每個圖像的所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度,包括:
6、對所述多個圖像進(jìn)行文本檢測獲得每個圖像對應(yīng)的文本檢測結(jié)果;
7、根據(jù)每個圖像的所述已標(biāo)注數(shù)據(jù)和所述文本檢測結(jié)果確定該圖像的所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度。
8、在至少一個實施例中,所述已標(biāo)注數(shù)據(jù)包括每個圖像的一個或多個標(biāo)注框的位置和呈現(xiàn)文本,所述文本檢測結(jié)果包括一個或多個文本檢測框的位置和檢測文本,所述準(zhǔn)確程度包括所述一個或多個標(biāo)注框和所述一個或多個文本檢測框之間的第一匹配度,以及根據(jù)所述第一匹配度確定具有關(guān)聯(lián)關(guān)系的標(biāo)注框的呈現(xiàn)文本和文本檢測框的檢測文本之間的第二匹配度。
9、在至少一個實施例中,不存在所述關(guān)聯(lián)關(guān)系的文本檢測框為該圖像的漏標(biāo)標(biāo)注框,不存在所述關(guān)聯(lián)關(guān)系的標(biāo)注框為該圖像的錯標(biāo)標(biāo)注框,存在所述關(guān)聯(lián)關(guān)系且所述第二匹配度滿足要求的標(biāo)注框為該圖像的正確標(biāo)注框,存在所述關(guān)聯(lián)關(guān)系但所述第二匹配度不滿足要求的標(biāo)注框為該圖像的錯標(biāo)標(biāo)注框;
10、所述方法還包括:
11、基于該圖像的正確標(biāo)注框、漏標(biāo)標(biāo)注框以及錯標(biāo)標(biāo)注框確定該圖像的所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度。
12、在至少一個實施例中,所述第一匹配度是根據(jù)標(biāo)注框和文本檢測框的交集和該文本檢測框之間的比值計算的。
13、在至少一個實施例中,響應(yīng)于和標(biāo)注框確定所述關(guān)聯(lián)關(guān)系的文本檢測框為多個,根據(jù)多個文本檢測框的位置合并多個文本檢測框的檢測文本。
14、在至少一個實施例中,根據(jù)所述第一匹配度確定具有關(guān)聯(lián)關(guān)系的標(biāo)注框的呈現(xiàn)文本和文本檢測框的檢測文本之間的第二匹配度,包括:
15、獲取呈現(xiàn)文本和檢測文本之間相互轉(zhuǎn)化所需的最少編輯操作,其中,所述編輯操作包括插入字符、刪除字符和替換字符的至少一種;
16、根據(jù)所述插入字符的次數(shù)、所述刪除字符的次數(shù)、所述替換字符的次數(shù)以及目標(biāo)文本的字符長度確定所述第二匹配度,其中,所述目標(biāo)文本是呈現(xiàn)文本或者檢測文本。
17、在至少一個實施例中,具有更小所述準(zhǔn)確程度的圖像更有更高的抽樣優(yōu)先級,包括:
18、根據(jù)所述準(zhǔn)確程度對所述多個圖像進(jìn)行排序,具有更低所述準(zhǔn)確程度的圖像位于所述多個圖像的更前位次;
19、本公開至少一個實施例提供一種計算設(shè)備,包括:
20、處理器;
21、存儲器,包括一個或多個計算機程序指令;
22、其中,所述一個或多個計算機程序指令被存儲在所述存儲器中,并由所述處理器執(zhí)行時實現(xiàn)本公開任一實施例提供的抽樣方法。
23、本公開至少一個實施例提供一種計算機可讀存儲介質(zhì),用于存儲非暫時性計算機可讀指令,當(dāng)所述非暫時性計算機可讀指令由計算機執(zhí)行時可以實現(xiàn)本公開任一實施例提供的抽樣方法。
1.一種抽樣方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,確定每個圖像的所述已標(biāo)注數(shù)據(jù)的準(zhǔn)確程度,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述已標(biāo)注數(shù)據(jù)包括每個圖像的一個或多個標(biāo)注框的位置和呈現(xiàn)文本,所述文本檢測結(jié)果包括一個或多個文本檢測框的位置和檢測文本,所述準(zhǔn)確程度包括所述一個或多個標(biāo)注框和所述一個或多個文本檢測框之間的第一匹配度,以及根據(jù)所述第一匹配度確定具有關(guān)聯(lián)關(guān)系的標(biāo)注框的呈現(xiàn)文本和文本檢測框的檢測文本之間的第二匹配度。
4.根據(jù)權(quán)利要求3所述的方法,其中,不存在所述關(guān)聯(lián)關(guān)系的文本檢測框為該圖像的漏標(biāo)標(biāo)注框,不存在所述關(guān)聯(lián)關(guān)系的標(biāo)注框為該圖像的錯標(biāo)標(biāo)注框,存在所述關(guān)聯(lián)關(guān)系且所述第二匹配度滿足要求的標(biāo)注框為該圖像的正確標(biāo)注框,存在所述關(guān)聯(lián)關(guān)系但所述第二匹配度不滿足要求的標(biāo)注框為該圖像的錯標(biāo)標(biāo)注框;
5.根據(jù)權(quán)利要求3所述的方法,其中,所述第一匹配度是根據(jù)標(biāo)注框和文本檢測框的交集和該文本檢測框之間的比值計算的。
6.根據(jù)權(quán)利要求3所述的方法,還包括:
7.根據(jù)權(quán)利要求3所述方法,其中,根據(jù)所述第一匹配度確定具有關(guān)聯(lián)關(guān)系的標(biāo)注框的呈現(xiàn)文本和文本檢測框的檢測文本之間的第二匹配度,包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,具有更小所述準(zhǔn)確程度的圖像更有更高的抽樣優(yōu)先級,包括:
9.一種計算設(shè)備,包括:
10.一種計算機可讀存儲介質(zhì),非暫時性存儲有計算機可讀指令,其中,當(dāng)所述計算機可讀指令由處理器執(zhí)行時實現(xiàn)權(quán)利要求1-8任一項所述的抽樣方法。