本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、中小企業(yè)在推動(dòng)國(guó)民經(jīng)濟(jì)增長(zhǎng)方面具有舉足輕重的地位。因此,分析企業(yè)違約風(fēng)險(xiǎn),不僅對(duì)維護(hù)經(jīng)濟(jì)穩(wěn)定具有重要意義,還能為投資決策提供關(guān)鍵參考,同時(shí)助力企業(yè)優(yōu)化管理與布局。為此,一些企業(yè)違約預(yù)測(cè)模型引入了企業(yè)的內(nèi)部指標(biāo)數(shù)據(jù)和外部關(guān)聯(lián)違約風(fēng)險(xiǎn),為每個(gè)企業(yè)違約風(fēng)險(xiǎn)進(jìn)行評(píng)估。
2、許多傳統(tǒng)的違約評(píng)估模型依賴于統(tǒng)計(jì)分析與傳統(tǒng)機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)企業(yè)違約風(fēng)險(xiǎn),特別是在指標(biāo)數(shù)據(jù)的基礎(chǔ)上進(jìn)行內(nèi)部違約風(fēng)險(xiǎn)挖掘。如一種計(jì)算小微企業(yè)貸款違約概率pd的方法(cn111754341b),通過(guò)統(tǒng)計(jì)小微企業(yè)貸款歷史數(shù)據(jù),利用遷移矩陣和馬爾可夫鏈計(jì)算出違約概率,并結(jié)合業(yè)務(wù)人員提供的調(diào)整參數(shù)對(duì)結(jié)果進(jìn)行前瞻性修正,最終得到不同情景下的精準(zhǔn)違約率;一種基于xgboost的企業(yè)違約風(fēng)險(xiǎn)模型的建立方法(cn109508864b),通過(guò)整理企業(yè)數(shù)據(jù),利用滑動(dòng)窗口切割數(shù)據(jù),并借助xgboost算法建立預(yù)測(cè)模型,優(yōu)化模型后用于企業(yè)違約風(fēng)險(xiǎn)預(yù)測(cè)。然而,中小企業(yè)普遍面臨財(cái)務(wù)報(bào)告不定期或不完善的問(wèn)題,這些方法的實(shí)際應(yīng)用面臨了諸多挑戰(zhàn)。此外,這些方法忽視了企業(yè)間外部違約風(fēng)險(xiǎn)的傳播效應(yīng)。近年來(lái),隨著圖模型在表示復(fù)雜關(guān)系上的優(yōu)勢(shì)逐步顯現(xiàn),部分研究開(kāi)始嘗試將其應(yīng)用于違約預(yù)測(cè),尤其是在模擬外部違約風(fēng)險(xiǎn)傳播方面。諸如hat、comrisk、“一種企業(yè)違約預(yù)測(cè)方法、裝置、介質(zhì)及電子設(shè)備”(cn112990946b)等方法嘗試通過(guò)異構(gòu)圖模型來(lái)建模外部風(fēng)險(xiǎn),但這些方法普遍面臨著可解釋性不足的問(wèn)題。
3、為了解決上述挑戰(zhàn),研究人員提出了基于元路徑的違約預(yù)測(cè)模型,該方法通過(guò)為企業(yè)生成外部關(guān)聯(lián)路徑以學(xué)習(xí)顯式傳播的違約風(fēng)險(xiǎn),提高模型可解釋性。然而,當(dāng)前違約評(píng)估模型仍然面臨諸如遷移性有限和容易受到噪聲干擾等挑戰(zhàn)。具體而言,該類型方法通??梢苑譃閮深悾旱谝活愂且蕾囉谑謩?dòng)預(yù)設(shè)元路徑的模型,由于過(guò)度依賴原始數(shù)據(jù),這限制了模塊的遷移性;第二類是利用所有不超過(guò)固定長(zhǎng)度的元路徑的模型,這種方法引入了大量不相關(guān)的噪聲,降低了信息聚合的準(zhǔn)確性。此外,現(xiàn)有的違約評(píng)估模型通常將企業(yè)的違約風(fēng)險(xiǎn)信息與守約無(wú)風(fēng)險(xiǎn)信息壓縮到一起表示,這種做法容易混淆信息,從而導(dǎo)致較差的企業(yè)評(píng)估結(jié)果。
4、綜上所述,現(xiàn)有的基于元路徑的違約評(píng)估方法在遷移性和降低噪聲干擾方面存在局限,難以做到有效平衡。同時(shí),現(xiàn)有的違約評(píng)估方法將企業(yè)的風(fēng)險(xiǎn)與無(wú)風(fēng)險(xiǎn)信息壓縮為單一表示,導(dǎo)致信息混淆,從而產(chǎn)生較差的評(píng)估結(jié)果。這兩個(gè)方面問(wèn)題亟待改進(jìn)。
技術(shù)實(shí)現(xiàn)思路
1、為克服現(xiàn)有技術(shù)的局限性,本發(fā)明提出了一種基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)方法及系統(tǒng),該方法能夠更好地平衡遷移性與噪聲干擾,并通過(guò)分離企業(yè)違約風(fēng)險(xiǎn)信息與守約無(wú)風(fēng)險(xiǎn)信息,實(shí)現(xiàn)更加準(zhǔn)確的企業(yè)違約風(fēng)險(xiǎn)識(shí)別。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案包括以下內(nèi)容。
3、一種基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)方法,所述方法包括:
4、采集目標(biāo)企業(yè)的內(nèi)部經(jīng)營(yíng)信息與外部關(guān)聯(lián)信息,并依據(jù)企業(yè)的外部關(guān)聯(lián)信息構(gòu)建企業(yè)的異質(zhì)信息網(wǎng)絡(luò)與元網(wǎng)絡(luò);其中,所述異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)包括:企業(yè)節(jié)點(diǎn)、行業(yè)節(jié)點(diǎn)、區(qū)域節(jié)點(diǎn)和利益相關(guān)者節(jié)點(diǎn),所述元網(wǎng)絡(luò)是基于異質(zhì)信息網(wǎng)絡(luò)抽象生成;
5、將目標(biāo)企業(yè)的內(nèi)部指標(biāo)信息輸入到內(nèi)部違約風(fēng)險(xiǎn)編碼器,得到該目標(biāo)企業(yè)的內(nèi)部違約風(fēng)險(xiǎn)嵌入;
6、將目標(biāo)企業(yè)的異質(zhì)信息網(wǎng)絡(luò)和元網(wǎng)絡(luò)輸入到基于元路徑的顯式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的顯式外部違約風(fēng)險(xiǎn)嵌入;
7、將目標(biāo)企業(yè)的異質(zhì)信息網(wǎng)絡(luò)輸入到基于異質(zhì)圖的隱式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的隱式外部違約風(fēng)險(xiǎn)嵌入;
8、融合內(nèi)部違約風(fēng)險(xiǎn)嵌入、顯式外部違約風(fēng)險(xiǎn)嵌入和隱式外部違約風(fēng)險(xiǎn)嵌入,并結(jié)合膠囊網(wǎng)絡(luò),獲取該目標(biāo)企業(yè)的違約預(yù)測(cè)結(jié)果。
9、進(jìn)一步地,所述將目標(biāo)企業(yè)的內(nèi)部指標(biāo)信息輸入到內(nèi)部違約風(fēng)險(xiǎn)編碼器,得到該目標(biāo)企業(yè)的內(nèi)部違約風(fēng)險(xiǎn)嵌入,包括:
10、提取內(nèi)部指標(biāo)信息的數(shù)值型特征和/或離散型特征,并對(duì)數(shù)值型特征進(jìn)行標(biāo)準(zhǔn)化和歸一化處理,將離散型特征轉(zhuǎn)換為嵌入向量;其中,所述數(shù)值型特征包括:注冊(cè)資本、實(shí)收資本、注冊(cè)時(shí)間和訴訟持續(xù)時(shí)間,所述離散型特征包括:訴訟原因、法院級(jí)別和訴訟結(jié)果;
11、將離散特征的嵌入向量與處理后的數(shù)值型特征進(jìn)行拼接,并通過(guò)線性層進(jìn)行映射,得到該目標(biāo)企業(yè)的內(nèi)部違約風(fēng)險(xiǎn)嵌入。
12、進(jìn)一步地,所述將企業(yè)的異質(zhì)信息網(wǎng)絡(luò)和元網(wǎng)絡(luò)輸入到基于元路徑的顯式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的顯式外部違約風(fēng)險(xiǎn)嵌入,包括:
13、基于元網(wǎng)絡(luò)在異質(zhì)信息網(wǎng)絡(luò)中游走,為該目標(biāo)企業(yè)生成不超過(guò)定長(zhǎng)的所有元數(shù)據(jù)類型的路徑實(shí)例;
14、計(jì)算每一元路徑類型p的有效值sp;
15、根據(jù)有效值sp對(duì)元路徑類型進(jìn)行排序,并選取前k個(gè)排名靠前的元路徑類型;
16、在所述前k個(gè)排名靠前的元路徑類型中,對(duì)元路徑類型p的路徑實(shí)例執(zhí)行加權(quán)聚合,得到元路徑類型p下的語(yǔ)義嵌入zp;
17、使用注意力機(jī)制融合語(yǔ)義嵌入zp,得到該目標(biāo)的顯式外部違約風(fēng)險(xiǎn)嵌入z。
18、進(jìn)一步地,所述元路徑的有效值其中,tp表示元路徑類型p的所有路徑實(shí)例總數(shù),表示元路徑類型p中兩端節(jié)點(diǎn)均為違約企業(yè)的路徑實(shí)例數(shù)量,表示元路徑類型p中兩端節(jié)點(diǎn)均為守約企業(yè)的路徑實(shí)例數(shù)量,表示元路徑類型p中目標(biāo)節(jié)點(diǎn)為守約企業(yè)、源節(jié)點(diǎn)為違約企業(yè)的路徑實(shí)例數(shù)量,表示元路徑類型p中目標(biāo)節(jié)點(diǎn)為違約企業(yè)、源節(jié)點(diǎn)為守約企業(yè)的路徑實(shí)例數(shù)量。
19、進(jìn)一步地,所述將該目標(biāo)企業(yè)的異質(zhì)信息網(wǎng)絡(luò)輸入到基于異質(zhì)圖的隱式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的隱式外部違約風(fēng)險(xiǎn)嵌入,包括:
20、初始化異質(zhì)信息網(wǎng)絡(luò)中所有節(jié)點(diǎn)的節(jié)點(diǎn)嵌入
21、利用圖神經(jīng)網(wǎng)絡(luò)的第l層,計(jì)算每一節(jié)點(diǎn)在不同外部關(guān)聯(lián)關(guān)系π下聚合鄰居信息的嵌入并基于節(jié)點(diǎn)嵌入和所有外部關(guān)聯(lián)關(guān)系π下聚合鄰居信息的嵌入得到該節(jié)點(diǎn)的風(fēng)險(xiǎn)模式嵌入節(jié)點(diǎn)嵌入其中,所述圖神經(jīng)網(wǎng)絡(luò)共有l(wèi)層;
22、拼接節(jié)點(diǎn)嵌入得到所有節(jié)點(diǎn)的違約風(fēng)險(xiǎn)模式嵌入矩陣p(l);
23、從所有節(jié)點(diǎn)的違約風(fēng)險(xiǎn)模式嵌入矩陣p(l)中提取出所有企業(yè)節(jié)點(diǎn)的風(fēng)險(xiǎn)模式嵌入矩陣
24、對(duì)風(fēng)險(xiǎn)模式嵌入矩陣進(jìn)行全局注意力計(jì)算,獲取每一企業(yè)節(jié)點(diǎn)的企業(yè)嵌入矩陣
25、基于該目標(biāo)企業(yè)的企業(yè)嵌入矩陣和風(fēng)險(xiǎn)模式嵌入矩陣得到該目標(biāo)企業(yè)的隱式外部違約風(fēng)險(xiǎn)嵌入
26、進(jìn)一步地,融合內(nèi)部違約風(fēng)險(xiǎn)嵌入、顯式外部違約風(fēng)險(xiǎn)嵌入和隱式外部違約風(fēng)險(xiǎn)嵌入,并結(jié)合膠囊網(wǎng)絡(luò),獲取該目標(biāo)企業(yè)的違約預(yù)測(cè)結(jié)果,包括:
27、融合內(nèi)部違約風(fēng)險(xiǎn)嵌入、顯式外部違約風(fēng)險(xiǎn)嵌入和隱式外部違約風(fēng)險(xiǎn)嵌入,得到融合嵌入;
28、基于融合嵌入,并利用膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制為目標(biāo)企業(yè)生成狀態(tài)s下的嵌入os;其中,狀態(tài)s={r,nr},r表示違約風(fēng)險(xiǎn)狀態(tài),nr表示守約無(wú)風(fēng)險(xiǎn)狀態(tài);
29、計(jì)算目標(biāo)企業(yè)的違約風(fēng)險(xiǎn)分?jǐn)?shù)‖or‖和守約無(wú)風(fēng)險(xiǎn)分?jǐn)?shù)‖onr‖;其中,‖·‖表示取模長(zhǎng)運(yùn)算;基于違約風(fēng)險(xiǎn)分?jǐn)?shù)‖or‖和守約無(wú)風(fēng)險(xiǎn)分?jǐn)?shù)‖or‖,計(jì)算目標(biāo)企業(yè)的違約概率
30、將所述違約概率分?jǐn)?shù)與一設(shè)定閾值進(jìn)行比較,得到該目標(biāo)企業(yè)的違約預(yù)測(cè)結(jié)果。
31、進(jìn)一步地,基于融合嵌入,并利用膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制為目標(biāo)企業(yè)生成狀態(tài)s下的嵌入os,包括:
32、從融合嵌入中提取出第k個(gè)特征的特征嵌入uk;
33、基于所述特征嵌入,獲取狀態(tài)s膠囊從融合嵌入中提取出來(lái)的第k個(gè)特征的特征嵌入ts,k;
34、基于所述特征嵌入ts,k,利用動(dòng)態(tài)路由技術(shù)融合不同特征嵌入獲取目標(biāo)企業(yè)處于狀態(tài)s的嵌入ts;
35、基于嵌入ts,生成目標(biāo)企業(yè)狀態(tài)s下的嵌入os。
36、一種基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:
37、數(shù)據(jù)采集模塊,用于采集目標(biāo)企業(yè)的內(nèi)部經(jīng)營(yíng)信息與外部關(guān)聯(lián)信息,并依據(jù)企業(yè)的外部關(guān)聯(lián)信息構(gòu)建企業(yè)的異質(zhì)信息網(wǎng)絡(luò)與元網(wǎng)絡(luò);其中,所述異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)包括:企業(yè)節(jié)點(diǎn)、行業(yè)節(jié)點(diǎn)、區(qū)域節(jié)點(diǎn)和利益相關(guān)者節(jié)點(diǎn),所述元網(wǎng)絡(luò)是基于異質(zhì)信息網(wǎng)絡(luò)抽象生成;
38、第一編碼模塊,用于將目標(biāo)企業(yè)的內(nèi)部指標(biāo)信息輸入到內(nèi)部違約風(fēng)險(xiǎn)編碼器,得到該目標(biāo)企業(yè)的內(nèi)部違約風(fēng)險(xiǎn)嵌入;
39、第二編碼模塊,用于將目標(biāo)企業(yè)的異質(zhì)信息網(wǎng)絡(luò)和元網(wǎng)絡(luò)輸入到基于元路徑的顯式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的顯式外部違約風(fēng)險(xiǎn)嵌入;
40、第三編碼模塊,用于將目標(biāo)企業(yè)的異質(zhì)信息網(wǎng)絡(luò)輸入到基于異質(zhì)圖的隱式外部違約風(fēng)險(xiǎn)編碼器中,得到該目標(biāo)企業(yè)的隱式外部違約風(fēng)險(xiǎn)嵌入;
41、違約預(yù)測(cè)模塊,用于融合內(nèi)部違約風(fēng)險(xiǎn)嵌入、顯式外部違約風(fēng)險(xiǎn)嵌入和隱式外部違約風(fēng)險(xiǎn)嵌入,并結(jié)合膠囊網(wǎng)絡(luò),獲取該目標(biāo)企業(yè)的違約預(yù)測(cè)結(jié)果。
42、一種電子設(shè)備,所述電子設(shè)備包括:處理器以及存儲(chǔ)有計(jì)算機(jī)程序指令的存儲(chǔ)器;所述處理器執(zhí)行所述計(jì)算機(jī)程序指令時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)方法。
43、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于元路徑去噪與膠囊網(wǎng)絡(luò)建模的企業(yè)違約預(yù)測(cè)方法。
44、與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果。
45、1)本發(fā)明的基于元路徑的顯式關(guān)聯(lián)風(fēng)險(xiǎn)編碼器,專注于生成和過(guò)濾無(wú)效路徑,從而保留違約預(yù)測(cè)中關(guān)鍵的關(guān)聯(lián)信息,有效平衡了模型的遷移性和噪聲干擾,同時(shí)將外部風(fēng)險(xiǎn)信息分層聚合到節(jié)點(diǎn)上,增強(qiáng)了風(fēng)險(xiǎn)傳播的可解釋性。
46、2)本發(fā)明的通過(guò)異構(gòu)圖實(shí)現(xiàn)的隱式關(guān)聯(lián)風(fēng)險(xiǎn)建模組件,致力于捕獲全局隱式關(guān)聯(lián)信息,以彌補(bǔ)元路徑長(zhǎng)度有限導(dǎo)致的信息丟失。
47、3)本發(fā)明在內(nèi)部違約風(fēng)險(xiǎn)嵌入、顯式外部違約風(fēng)險(xiǎn)嵌入以及隱式外部違約風(fēng)險(xiǎn)嵌入的基礎(chǔ)上,基于膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由技術(shù)更好地融合和利用不同的風(fēng)險(xiǎn)信息以實(shí)現(xiàn)精確的違約預(yù)測(cè)。