本發(fā)明屬于疾病預測模型,具體涉及一種糖尿病前期未來疾病進展的風險預測模型及其構建方法。
背景技術:
1、糖尿病前期代表葡萄糖失調(diào)的中間階段,可能先于2型糖尿病(t2dm)。中國心血管代謝與惡性腫瘤隊列報道長達5年的隨訪中,由空腹耐量受損、糖耐量受損和hba1c升高共同定義的糖尿病前期進展為糖尿病的累積發(fā)病率為21.3%。另一項糖尿病預防的隨機臨床試驗中,中國大慶研究的30年隨訪期間,對照組糖尿病前期參與者的累計糖尿病發(fā)病率達到95.9%。因此,早期識別糖尿病前期高危人群、有效篩查和風險分層管理對預防疾病進展為t2dm及其并發(fā)癥至關重要。
2、患有糖尿病前期的個體在胰島素敏感性、胰島素分泌、血糖水平和脂質(zhì)代謝等方面表現(xiàn)出顯著差異,這些因素影響代謝狀態(tài)、病理生理機制以及從糖尿病前期進展為t2dm、心血管疾病(cvd)、慢性腎病(ckd)等多種并發(fā)癥的發(fā)生。單獨的血糖測量不足以捕捉個體之間的風險差異,體脂、胰島素抵抗、血脂、血壓和肝酶等臨床指標能夠促進對糖尿病前期精確亞群的早期識別。
3、判別降維樹(ddrtree)是一種用于可視化和分析高維生物數(shù)據(jù)的計算方法,它集成降維和決策樹算法的原理,最近研究已經(jīng)將ddrtree算法用于區(qū)分2型糖尿病和1型糖尿病的異質(zhì)性,實現(xiàn)對個體間復雜、連續(xù)表型變異進行清晰的二維可視化??紤]到糖尿病前期病理生理學的差異,應用這種方法可以為糖尿病前期的異質(zhì)性提供新的見解。與傳統(tǒng)的數(shù)據(jù)驅動的疾病分型方法如k-means等相比,ddrtree方法無明確的分型界限,更能夠體現(xiàn)糖尿病前期人群的分型的復雜性和未來疾病進展的連續(xù)性。wagner等人和團隊利用k-means聚類方法對糖尿病前期進行分類分為不同的組,從而更準確地描述每組未來糖尿病和并發(fā)癥的風險。k-means算法以其簡單性和適用于大型數(shù)據(jù)集而在疾病分型研究中被廣泛應用,它可以定義明確的聚類類別,在數(shù)據(jù)結構相對簡單且疾病類型邊界明確的情況下表現(xiàn)更佳。然而,當處理連續(xù)表型變量和結構復雜的疾病異質(zhì)性時,ddrtree算法表現(xiàn)更為出色,它并非簡單定義幾個特定的疾病亞型,將某一亞型內(nèi)的不同個體視為同質(zhì),而是結合連續(xù)的表型來個性化預測特定個體患者的未來疾病進展,能夠捕捉疾病發(fā)展的動態(tài)軌跡,因此具有更大的臨床效用。ddrtree的聚類結果展現(xiàn)出一個易于可視化、更容易理解的二維樹形結構,表型變量和相關疾病關風險沿著整個二維樹連續(xù)分布,個體在二維樹上的坐標可用于預測糖尿病前期個體的未來多個疾病進展。
技術實現(xiàn)思路
1、針對上述技術問題,本發(fā)明的主要目的是提供一種糖尿病前期未來疾病進展的風險預測模型,目的是闡明:1)樹狀結構如何區(qū)分糖尿病前期個體之間的代謝參數(shù);2)特定代謝表型的異質(zhì)性如何預測糖尿病前期個體疾病進展為糖尿病及并發(fā)癥。糖尿病前期是糖尿病發(fā)展的中間階段且具有多層面的異質(zhì)性,通過對糖尿病前期未來疾病進展的風險進行精確評估,實現(xiàn)對糖尿病及并發(fā)癥早期干預、有效管理和針對性預防。
2、本發(fā)明的另一目的是提供所述糖尿病前期未來疾病進展的風險預測模型的構建方法,應用ddrtree算法,針對來自中國心臟代謝疾病及腫瘤隊列(4c)研究的55,777名參與者的糖尿病前期的異質(zhì)性數(shù)據(jù),并基于12種連續(xù)代謝臨床可用的表型,將糖尿病前期人群分為四個不同的亞型,定位個體在二維樹中的坐標,構建糖尿病前期未來疾病進展的風險預測模型,并通過其評估糖尿病前期未來疾病進展為t2dm、ckd和cvd的風險。
3、本發(fā)明的上述目的通過以下技術方案實現(xiàn):
4、本發(fā)明的第一方面,提供一種糖尿病前期未來疾病進展的風險預測模型的構建方法,包括以下步驟:
5、s1:采集訓練隊列和驗證隊列中糖尿病前期患者臨床指標數(shù)據(jù),包括患者的性別、年齡及12個臨床表型變量,分別為腰臀比(whr)、體重指數(shù)(bmi)、胰島素抵抗指數(shù)(homa-ir)、胰島β細胞功能指數(shù)(homa-b)、谷丙轉氨酶(alt)、谷草轉氨酶(ast)、γ-谷氨酰轉移酶(ggt)、空腹血糖(fpg)、餐后2小時血糖(pbg)、糖化血紅蛋白(hba1c)、甘油三酯(tg)和高密度脂蛋白膽固醇(hdl-c);
6、s2:使用ddrtree算法,對步驟s1中所述訓練隊列的糖尿病前期患者臨床指標數(shù)據(jù)進行降維和可視化,構建糖尿病前期異質(zhì)性的二維樹形結構;
7、s3:基于步驟s2中所述二維樹形結構,將糖尿病前期人群分為不同亞型,獲得糖尿病前期個體在二維樹中的分布坐標,評估糖尿病前期進展為t2dm、ckd和cvd疾病的風險,構建糖尿病前期未來疾病進展的風險預測模型;
8、s4:在驗證隊列中對步驟s3中所述糖尿病前期未來疾病進展的風險預測模型進行模型準確性驗證;
9、其中,所述糖尿病前期定義為:在沒有糖尿病的參與者中,fpg為5.6mmol/l至6.9mmol/l、或pbg為7.8mmol/l至11.0mmol/l、或hba1c為5.7%至6.4%。
10、作為優(yōu)選,步驟s1中,所述訓練隊列為來自中國心臟代謝疾病及腫瘤隊列(4c),包括55,777名糖尿病前期的參與者,采集糖尿病前期人群的臨床變量數(shù)據(jù);所述驗證隊列為2009年6月至8月在中國上海淞南地區(qū)建立的社區(qū)居住前瞻性隊列,包括4012名年齡≥40歲的個體,隨訪至2021年11月。
11、作為優(yōu)選,步驟s1中,采集糖尿病前期患者臨床指標數(shù)據(jù)進行數(shù)據(jù)篩選和變量提取,獲取與t2dm、ckd和cvd疾病風險相關的12個臨床表型變量,包括whr、bmi、homa-ir、homa-b、alt、ast、ggt、fpg、pbg、hba1c、tg和hdl-c。
12、作為優(yōu)選,步驟s2中,在所述訓練隊列中建立線性回歸模型,以性別、年齡作為自變量、以12個臨床表型變量分別作為因變量,獲得12個臨床表型變量的殘差矩陣,通過ddrtree算法對殘差矩陣進行降維和可視化,將糖尿病前期人群展示為二維樹形結構,在樹形結構中顯示表型變化和個體分布,從而體現(xiàn)糖尿病前期的異質(zhì)性。
13、作為優(yōu)選,步驟s3中,以高血糖、胰島素抵抗、肥胖、甘油三酯和肝酶升高為特征的糖尿病前期亞型進展為t2dm風險高。
14、作為優(yōu)選,步驟s3中,以肥胖、胰島素抵抗、高血糖和血脂異常為特征的糖尿病前期亞型進展為ckd風險高。
15、作為優(yōu)選,步驟s3中,以高血糖、胰島素抵抗、肥胖、甘油三酯和肝酶升高為特征的亞型和以肥胖、胰島素抵抗、高血糖和血脂異常為特征的亞型進展為cvd風險高,且cvd亞型分布差異大。
16、作為優(yōu)選,步驟s3中,所述糖尿病前期進展為cvd疾病包括卒中、心肌梗死和心力衰竭亞型。
17、本發(fā)明第二方面,提供一種糖尿病前期進展為t2dm、ckd和cvd疾病的風險預測系統(tǒng),包括:
18、數(shù)據(jù)采集模塊,用于采集糖尿病前期患者異質(zhì)性表型數(shù)據(jù),包括性別、年齡和12個臨床表型變量,分別為whr、bmi、homa-ir、homa-b、alt、ast、ggt、fpg、pbg、hba1c、tg和hdl-c;
19、數(shù)據(jù)預處理模塊,用于剔除缺失值和異常值,其中異常值為超出平均值±5個標準差(sd)范圍的值;
20、數(shù)據(jù)分析模塊,用于對訓練隊列中12個臨床表型變量使用ddrtree算法構建二維樹形結構;
21、預測模型構建模塊,用于將糖尿病前期人群分為不同亞型,以糖尿病前期個體在樹形結構中的二維坐標作為自變量,建立cox回歸模型,評估糖尿病前期進展為t2dm、ckd和cvd疾病的風險,構建糖尿病前期未來疾病進展的風險預測模型;
22、驗證模塊,用于通過利用驗證隊列對所述糖尿病前期未來疾病進展的風險預測模型進行模型準確性驗證。
23、作為優(yōu)選,所述數(shù)據(jù)采集模塊采集訓練隊列和驗證隊列中糖尿病前期患者臨床指標數(shù)據(jù);所述數(shù)據(jù)預處理模塊進行數(shù)據(jù)篩選和特征提取,獲取糖尿病前期進展為t2dm、ckd和cvd疾病風險相應的12個臨床表型變量,包括whr、bmi、homa-ir、homa-b、alt、ast、ggt、fpg、pbg、hba1c、tg和hdl-c。
24、與現(xiàn)有技術相比,本發(fā)明的有益效果在于:
25、1、本發(fā)明首次將ddrtree算法應用于全國性前瞻性隊列研究的糖尿病前期人群中,足夠的樣本量能夠構建穩(wěn)健的二維樹形結構,在探索疾病進展和理解疾病異質(zhì)性方面表現(xiàn)出色,使其成為捕獲疾病進化復雜動態(tài)的有價值工具。這項分析對糖尿病前期人群進行多維連續(xù)臨床變量的降維以描述疾病異質(zhì)性,有助于更個性化地指導糖尿病前期護理?;赿drtree的預防策略將可能給糖尿病、ckd、cvd及其亞型的高危人群帶來益處。在大規(guī)模的全國性糖尿病前期前瞻性隊列中,ddrtree算法可以捕捉到疾病風險因素的復雜相互作用,追蹤疾病復雜的動態(tài)變化,從而實現(xiàn)對糖尿病前期進展的風險預測,為糖尿病前期的個性化護理提供指導。
26、2、本發(fā)明的糖尿病前期未來疾病進展的風險預測模型中,以高血糖、胰島素抵抗、肥胖、甘油三酯和肝酶升高為特征的第4組t2dm風險最高,而以肥胖、胰島素抵抗、高血糖和血脂異常為特征的第3組ckd風險最高。第3組和第4組cvd風險較高,且cvd亞型分布差異較大,這些發(fā)現(xiàn)在外部驗證隊列sn_2009-2021中得到很好的驗證。此外,同時還開發(fā)了一個用戶友好的在線工具評估糖尿病前期人群個體的未來疾病風險,適用性強。