日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種面向“信息疫情”不實(shí)信息甄別的三分類混合遷移學(xué)習(xí)方法及系統(tǒng)

文檔序號(hào):42040653發(fā)布日期:2025-05-30 17:38閱讀:6來源:國知局

本發(fā)明涉及信息管理,特別是指一種面向“信息疫情”不實(shí)信息甄別的三分類混合遷移學(xué)習(xí)方法及系統(tǒng)。


背景技術(shù):

1、“信息疫情”(infodemic)一詞由“信息”(information)與“流行病”

2、(epidemic)的詞根(-demic)組合而成,指在傳染病疫情背景下,大量信息過度傳播的現(xiàn)象。在傳染病疫情期間,公眾對(duì)健康信息的需求急劇上升,這使健康信息成為“信息疫情”的重要組成部分。

3、許諾等提出了一種基于i-bert-bilstm的健康謠言檢測(cè)方法,通過提取文檔級(jí)長序列文本的摘要,并輸入到以多層注意力機(jī)制為框架的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,最后輸入到bilstm進(jìn)行謠言分類。實(shí)驗(yàn)結(jié)果表明,該模型在包含2000條健康謠言數(shù)據(jù)和2000條健康非謠言數(shù)據(jù)的自建中文健康類謠言數(shù)據(jù)集上取得了較高的準(zhǔn)確率。

4、王曉艷等挖掘了微信健康類謠言在文本修辭、發(fā)文動(dòng)機(jī)、出版規(guī)范和編輯排版方面的18個(gè)特征,利用深度神經(jīng)網(wǎng)絡(luò)模型獲得預(yù)分類結(jié)果,將其作為深層語義特征表示,對(duì)人工構(gòu)建的特征集進(jìn)行擴(kuò)展,結(jié)合機(jī)器學(xué)習(xí)模型完成健康類謠言的檢測(cè)任務(wù)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法在微信健康類謠言檢測(cè)中的有效性和創(chuàng)新性,所使用的數(shù)據(jù)集包括1092篇真實(shí)文章和1015篇謠言文章。

5、hussain等提出了一種級(jí)聯(lián)組多頭注意力模型,用于covid-19假新聞檢測(cè)。該模型結(jié)合了深度卷積和級(jí)聯(lián)多頭注意力機(jī)制,通過多頭注意力在局部和全局上下文中捕獲信息,實(shí)現(xiàn)對(duì)假新聞的全面理解。在包含準(zhǔn)確推文(942條)和虛假推文(2676條)的烏爾都語twitter數(shù)據(jù)集上,該模型的分類效果超越了當(dāng)前最先進(jìn)的模型。

6、xia等提出了一種基于復(fù)雜適應(yīng)系統(tǒng)理論和信息傳播理論的假新聞檢測(cè)框架。該框架通過提取和整合covid-19假新聞的異常知識(shí),構(gòu)建了一個(gè)知識(shí)庫,并將其應(yīng)用于基于cnn-bilstm-am的混合模型進(jìn)行假新聞檢測(cè)。該模型在英文數(shù)據(jù)集(包括5600條真新聞和5100條假新聞)上的應(yīng)用,顯著提升了各項(xiàng)評(píng)估指標(biāo)的性能。

7、以上研究主要關(guān)注將“信息疫情”劃分為真假兩類,未充分利用“信息疫情”中健康信息的特質(zhì)。衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí)可以為“信息疫情”不實(shí)信息的甄別提供有效支持。具體而言,“信息疫情”中的不實(shí)信息可進(jìn)一步細(xì)分為三類:第一類是衛(wèi)生工作者無法獨(dú)立判斷真假的信息;第二類是衛(wèi)生工作者能夠獨(dú)立判斷為假的信息;第三類是衛(wèi)生工作者能夠獨(dú)立判斷為真的信息。

8、luo等針對(duì)covid-19“信息疫情”中真?zhèn)涡畔㈦y以區(qū)分的復(fù)雜性,提出了一種基于深度學(xué)習(xí)模型的三分類檢測(cè)方法。該研究結(jié)合衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí),將“信息疫情”劃分為真實(shí)、虛假和不確定三類。采用了fasttext、三種基于rnn的模型、兩種基于cnn的模型以及兩種基于transformer的模型,對(duì)中英數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn)。研究結(jié)果表明,由于“信息疫情”三分類任務(wù)的數(shù)據(jù)量有限,預(yù)訓(xùn)練或較簡(jiǎn)單架構(gòu)的模型在性能上優(yōu)于復(fù)雜模型,復(fù)雜模型在處理此類問題時(shí)易出現(xiàn)過擬合的現(xiàn)象。

9、較少研究關(guān)注利用“信息疫情”中健康信息的特性及衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí),為甄別“信息疫情”不實(shí)信息提供有效支持。此外,“信息疫情”三分類任務(wù)受限于數(shù)據(jù)量不足,模型準(zhǔn)確率難以提升,且復(fù)雜模型在處理此類任務(wù)時(shí)更容易出現(xiàn)過擬合的現(xiàn)象。

10、將“信息疫情”劃分為真假兩類,未能充分利用“信息疫情”中健康信息的特性,也未能充分發(fā)揮衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí),導(dǎo)致“信息疫情”不實(shí)信息甄別實(shí)際準(zhǔn)確率較低,限制了其實(shí)際應(yīng)用效果。

11、融和健康信息特性及衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí)的“信息疫情”三分類任務(wù)受限于數(shù)據(jù)量不足,模型準(zhǔn)確率難以提升,且復(fù)雜模型在處理此類任務(wù)時(shí)更容易出現(xiàn)過擬合的現(xiàn)象。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題是提供一種面向“信息疫情”不實(shí)信息甄別的三分類混合遷移學(xué)習(xí)方法及系統(tǒng),可以更精準(zhǔn)地甄別“信息疫情”中的不實(shí)信息,增加方法的實(shí)際應(yīng)用效果。

2、為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:

3、第一方面,一種面向“信息疫情”不實(shí)信息甄別的三分類混合遷移學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括:預(yù)訓(xùn)練模型和微調(diào)模型;

4、利用tf-idf技術(shù)對(duì)“信息疫情”相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,從中提取出關(guān)鍵的特征詞;

5、通過bert模型,為提取出的“信息疫情”關(guān)鍵詞以及常規(guī)不實(shí)信息生成詞嵌入表示;

6、將“信息疫情”關(guān)鍵詞的詞嵌入與常規(guī)不實(shí)信息的bert詞嵌入及其文本輸出進(jìn)行融合,以得到融合后的數(shù)據(jù);使用融合后的數(shù)據(jù),并根據(jù)常規(guī)的“虛假”或“真實(shí)”標(biāo)簽,進(jìn)行二分類訓(xùn)練,以構(gòu)建預(yù)訓(xùn)練模型;

7、在微調(diào)模型中,通過“未確定”類別用于分類無法明確判定為“虛假”或“真實(shí)”的記錄;利用預(yù)訓(xùn)練模型的bert層生成的融合“信息疫情”關(guān)鍵詞和常規(guī)不實(shí)信息的文本輸出;

8、結(jié)合bert模型、textcnn模型和fasttext模型,對(duì)bert模型的輸入特征進(jìn)行處理,利用微調(diào)模型對(duì)處理后的特征進(jìn)行訓(xùn)練,將“信息疫情”相關(guān)的數(shù)據(jù)細(xì)分為“未確定”、“虛假”或“真實(shí)”三類。

9、進(jìn)一步的,利用tf-idf技術(shù)對(duì)“信息疫情”相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,從中提取出關(guān)鍵的特征詞,包括:

10、利用tf-idf對(duì)“信息疫情”記錄進(jìn)行預(yù)處理,從中提取前10%關(guān)鍵詞,其中,“信息疫情”表示為d={d1,d2,…,dn},每個(gè)di代表一條“信息疫情”記錄;

11、對(duì)每條記錄di進(jìn)行分詞處理,對(duì)于中文文本,采用jieba分詞工具;對(duì)于英文文本,使用正則表達(dá)式進(jìn)行分詞;利用tf-idf對(duì)分詞后的“信息疫情”記錄進(jìn)行處理,計(jì)算每個(gè)術(shù)語t在文檔di中的tf-idf得分,其計(jì)算公式如下:

12、tf-idf(t,di)=tf(t,di)×idf(t);

13、其中,n表示記錄的總數(shù),|{d:t∈d}|表示包含術(shù)語t的記錄數(shù),在獲得所有“信息疫情”記錄d中每個(gè)術(shù)語的tf-idf得分后,選取tf-idf值最高的10%術(shù)語作為“信息疫情”關(guān)鍵詞,關(guān)鍵詞提供了關(guān)于“信息疫情”最相關(guān)的信息。

14、進(jìn)一步的,通過bert模型,為提取出的“信息疫情”關(guān)鍵詞以及常規(guī)不實(shí)信息生成詞嵌入表示,包括:

15、“信息疫情”關(guān)鍵詞集合表示為xhealthwords={t1,t2,…,tk},其中,k表示信息疫情關(guān)鍵詞的數(shù)量,其中每個(gè)關(guān)鍵詞ti經(jīng)過bert模型處理,生成相應(yīng)的詞嵌入表示ei,其計(jì)算公式如下:

16、ebert-healthwords=bertembedding(xhealthwords)=[e1,e2,…,ek];

17、其中,bertembedding表示采用bert模型生成詞嵌入的操作,ebert-healthwords表示采用bert模型生成詞嵌入的結(jié)果。

18、xgen,j表示常規(guī)不實(shí)信息第j個(gè)實(shí)例的標(biāo)記序列,采用bert模型處理xgen,j,生成xgen,j的詞嵌入表示,其計(jì)算公式如下;

19、ebert-gen,j=bertembedding(xgen,j);

20、其中,bertembedding表示采用bert模型生成詞嵌入的操作,ebert-gen,j表示采用bert模型生成詞嵌入的結(jié)果。

21、融合常規(guī)不實(shí)信息和“信息疫情”關(guān)鍵詞的詞嵌入,創(chuàng)建統(tǒng)一表示,將常規(guī)不實(shí)信息的詞嵌入ebert-gen,j與每個(gè)“信息疫情”關(guān)鍵詞的詞嵌入ei相拼接,并將結(jié)果展平成一個(gè)單一向量,其計(jì)算公式如下:

22、

23、其中,concat表示拼接操作,表示拼接方式,flatten表示展平操作,fj表示融合常規(guī)不實(shí)信息和“信息疫情”關(guān)鍵詞的詞嵌入。

24、進(jìn)一步的,使用融合后的數(shù)據(jù),并根據(jù)常規(guī)的“虛假”或“真實(shí)”標(biāo)簽,進(jìn)行二分類訓(xùn)練,以構(gòu)建預(yù)訓(xùn)練模型,包括:

25、采用bert模型處理xgen,j,生成xgen,j的文本輸出,該文本輸出包括含有上下文信息的嵌入向量和池化輸出,獲取xgen,j的池化輸出,其計(jì)算公式如下:

26、pooled_outputj=bertpooled(xgen,j);

27、其中,bertpooled表示采用bert模型生成池化輸出的操作,pooled_outputj表示采用bert模型生成池化輸出的結(jié)果。

28、將pooled_outputj和fj相結(jié)合,通過全連接層處理融合后的特征向量,對(duì)融入“信息疫情”關(guān)鍵詞的常規(guī)不實(shí)信息執(zhí)行二分類預(yù)測(cè),其計(jì)算公式如下:

29、

30、其中,fc表示全連接層,σ為sigmoid激活函數(shù),為二分類任務(wù)中預(yù)測(cè)屬于“真實(shí)”類別的概率。

31、進(jìn)一步的,在微調(diào)模型中,通過“未確定”類別用于分類無法明確判定為“虛假”或“真實(shí)”的記錄;利用預(yù)訓(xùn)練模型的bert層生成的融合“信息疫情”關(guān)鍵詞和常規(guī)不實(shí)信息的文本輸出,包括:

32、接入預(yù)訓(xùn)練模型中bert層生成的常規(guī)不實(shí)信息文本輸出,獲取一批“信息疫情”文本含有上下文信息的嵌入向量和池化輸出,其計(jì)算公式如下:

33、

34、其中,xhealth表示“信息疫情”實(shí)例輸入批次的標(biāo)記序列,bertpooled表示采用bert模型生成池化輸出的操作,pooled_output表示采用bert模型生成池化輸出的結(jié)果,p表示bert模型生成池化輸出的結(jié)果是一個(gè)矩陣,該矩陣的維度是為實(shí)數(shù)集,b為批量大小,l為序列長度,bertencoded表示采用bert模型生成含有上下文信息的嵌入向量的操作,contextualized_token_embedding表示采用bert模型生成含有上下文信息的嵌入向量的結(jié)果,h表示bert模型生成含有上下文信息的嵌入向量的結(jié)果是一個(gè)矩陣,該矩陣的維度是h為隱藏層維度;

35、池化輸出經(jīng)過dropout層處理,含有上下文信息的嵌入向量通過textcnn池化層和fasttext池化層處理,其計(jì)算公式如下:

36、pdrop=dropout(p);

37、c1=adaptivemaxpool1d(conv1d(h,k1));

38、c2=adaptivemaxpool1d(conv1d(h,k2));

39、fmean=adaptiveavgpool1d(h);

40、fmax=adaptivemaxpool1d(h);

41、其中,pdrop表示對(duì)池化輸出應(yīng)用dropout正則化后的結(jié)果;c1和c2是textcnn池化層的輸出,池化層對(duì)含有上下文信息的嵌入向量分別采用核大小為k1和k2的卷積操作,執(zhí)行自適應(yīng)最大池化,conv1d表示一維卷積操作,adaptivemaxpool1d表示自適應(yīng)最大池化操作;fmean和fmax則是fasttext池化層的輸出,池化層對(duì)含有上下文信息的嵌入向量分別執(zhí)行自適應(yīng)平均池化和自適應(yīng)最大池化,adaptiveavgpool1d表示自適應(yīng)平均池化操作。

42、進(jìn)一步的,結(jié)合bert模型、textcnn模型和fasttext模型,對(duì)bert模型的輸入特征進(jìn)行處理,利用微調(diào)模型對(duì)處理后的特征進(jìn)行訓(xùn)練,將“信息疫情”相關(guān)的數(shù)據(jù)細(xì)分為“未確定”、“虛假”或“真實(shí)”三類,包括:

43、拼接dropout層、textcnn池化層和fasttext池化層的處理結(jié)果,獲取最終的特征表示,其計(jì)算公式如下:

44、f=[pdrop,c1,c2,fmean,fmax];

45、其中,f表示拼接后的特征向量;

46、將拼接后的特征向量傳遞至全連接層,對(duì)“信息疫情”記錄執(zhí)行三分類預(yù)測(cè),其計(jì)算公式如下:

47、

48、其中,φ表示softmax激活函數(shù),表示三分類任務(wù)中各類別的預(yù)測(cè)概率分布。

49、第二方面,一種面向“信息疫情”不實(shí)信息甄別的三分類混合遷移學(xué)習(xí)方法,包括:

50、利用tf-idf技術(shù)對(duì)“信息疫情”相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,從中提取出關(guān)鍵的特征詞;

51、通過bert模型,為提取出的“信息疫情”關(guān)鍵詞以及常規(guī)不實(shí)信息生成詞嵌入表示;

52、將“信息疫情”關(guān)鍵詞的詞嵌入與常規(guī)不實(shí)信息的bert詞嵌入及其文本輸出進(jìn)行融合,以得到融合后的數(shù)據(jù);使用融合后的數(shù)據(jù),并根據(jù)常規(guī)的“虛假”或“真實(shí)”標(biāo)簽,進(jìn)行二分類訓(xùn)練,以構(gòu)建預(yù)訓(xùn)練模型;

53、在微調(diào)模型中,通過“未確定”類別用于分類無法明確判定為“虛假”或“真實(shí)”的記錄;利用預(yù)訓(xùn)練模型的bert層生成的融合“信息疫情”關(guān)鍵詞和常規(guī)不實(shí)信息的文本輸出;

54、結(jié)合bert模型、textcnn模型和fasttext模型,對(duì)bert模型的輸入特征進(jìn)行處理,利用微調(diào)模型對(duì)處理后的特征進(jìn)行訓(xùn)練,將“信息疫情”相關(guān)的數(shù)據(jù)細(xì)分為“未確定”、“虛假”或“真實(shí)”三類。

55、第三方面,一種計(jì)算設(shè)備,包括:

56、一個(gè)或多個(gè)處理器;

57、存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)所述的方法。

58、第四方面,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的方法。

59、本發(fā)明的上述方案至少包括以下有益效果:

60、1.利用衛(wèi)生工作者在健康信息領(lǐng)域的專業(yè)知識(shí),將“信息疫情”標(biāo)記為三類,結(jié)合bert、textcnn和fasttext開發(fā)了一個(gè)微調(diào)模型,將“信息疫情”分為不確定、虛假或真實(shí)三類,增加方法的實(shí)際應(yīng)用效果。

61、2.有效利用標(biāo)記為虛假或真實(shí)的常規(guī)不實(shí)信息,結(jié)合“信息疫情”關(guān)鍵詞,設(shè)計(jì)預(yù)訓(xùn)練模型。通過大量融入“信息疫情”關(guān)鍵詞的常規(guī)不實(shí)信息,提升分類方法的準(zhǔn)確率和泛化能力,改善模型在此類任務(wù)中出現(xiàn)過擬合的現(xiàn)象。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1