本發(fā)明涉及蛋白質(zhì)預(yù)測(cè),具體為機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、蛋白質(zhì)的突變與表型之間的關(guān)系在生物學(xué)和醫(yī)學(xué)研究中至關(guān)重要,尤其是在疾病發(fā)生、發(fā)展及治療的研究中,突變的類型、位置及其對(duì)蛋白質(zhì)功能的影響具有決定性作用。然而,現(xiàn)有技術(shù)主要存在以下問(wèn)題:
2、現(xiàn)有的蛋白質(zhì)突變分析工具一般用于預(yù)測(cè)致病性等相對(duì)總體的問(wèn)題,而我們的工具用于預(yù)測(cè)蛋白質(zhì)致病突變的表型效應(yīng)。
3、傳統(tǒng)的工具主要使用序列保守性等信息,這些工具一般只考慮了氨基酸序列結(jié)構(gòu)層面的信息。我們的工具整了網(wǎng)絡(luò)拓?fù)湫砸约皠?dòng)力學(xué)參數(shù)等,不僅考慮了蛋白質(zhì)的三級(jí)結(jié)構(gòu)和蛋白質(zhì)動(dòng)力學(xué)等,不僅預(yù)測(cè)的準(zhǔn)確性上升還可以在更多的角度研究蛋白質(zhì)突變的效應(yīng)。
4、傳統(tǒng)的工具針對(duì)多個(gè)蛋白展開分析,而我們針對(duì)單個(gè)蛋白進(jìn)行分析,這表示針對(duì)單個(gè)蛋白獲得更多獨(dú)立的生物學(xué)機(jī)制信息。
5、現(xiàn)在的很多工具使用深度學(xué)習(xí)框架,解釋性較差,只能給出一個(gè)預(yù)測(cè)結(jié)果而不能給出機(jī)制挖掘。而我們使用的可解釋機(jī)器學(xué)習(xí)可以進(jìn)行全局解釋和個(gè)體解釋,在生物學(xué)機(jī)制挖掘?qū)用婺軌蚪o此處更多的信息。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述存在的問(wèn)題,提出了本發(fā)明。
2、因此,本發(fā)明解決的技術(shù)問(wèn)題是:現(xiàn)有的蛋白質(zhì)突變表型預(yù)測(cè)方法存在依賴局部序列特征或結(jié)構(gòu)信息的局限,缺乏對(duì)蛋白質(zhì)突變對(duì)整體結(jié)構(gòu)、功能及其網(wǎng)絡(luò)效應(yīng)的全面評(píng)估,以及無(wú)法有效整合多維度特征進(jìn)行預(yù)測(cè)的不足,其在準(zhǔn)確性和可靠性方面存在問(wèn)題并且現(xiàn)有方法缺少可解釋性、取法解釋性。
3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法,包括:
4、獲取目標(biāo)蛋白質(zhì)的同源序列,并對(duì)所述同源序列進(jìn)行多序列比對(duì),獲得比對(duì)后的序列信息;基于所述比對(duì)后的序列信息,對(duì)每個(gè)氨基酸位點(diǎn)進(jìn)行保守性打分,評(píng)估各位點(diǎn)在進(jìn)化過(guò)程中的保守程度;基于所述保守性打分,計(jì)算目標(biāo)蛋白質(zhì)的香農(nóng)熵值與共演化系數(shù),表征氨基酸位點(diǎn)的變異頻率及協(xié)同進(jìn)化關(guān)系;利用所述香農(nóng)熵值與共演化系數(shù),計(jì)算目標(biāo)蛋白質(zhì)的自由能變化,評(píng)估突變對(duì)蛋白質(zhì)穩(wěn)定性的影響;根據(jù)所述自由能變化,構(gòu)建氨基酸接觸能網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)中的拓?fù)涮卣?;基于所述氨基酸接觸能網(wǎng)絡(luò),計(jì)算每個(gè)位點(diǎn)的相對(duì)可及面積,評(píng)估突變對(duì)蛋白質(zhì)表面暴露區(qū)域的影響;構(gòu)建目標(biāo)蛋白質(zhì)的彈性網(wǎng)絡(luò)模型,模擬突變對(duì)蛋白質(zhì)動(dòng)態(tài)穩(wěn)定性的影響;整合所述蛋白質(zhì)的序列特征、結(jié)構(gòu)特征及彈性網(wǎng)絡(luò)特征,形成綜合特征集合;基于所述綜合特征集合,使用機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)蛋白質(zhì)的突變表型預(yù)測(cè);對(duì)所述突變表型預(yù)測(cè)結(jié)果進(jìn)行可視化,并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行表型分類。
5、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述獲得比對(duì)后的序列信息包括獲取目標(biāo)蛋白質(zhì)的序列信息,并通過(guò)標(biāo)準(zhǔn)方法搜索數(shù)據(jù)庫(kù)中的同源蛋白質(zhì)序列;對(duì)搜索結(jié)果進(jìn)行篩選,去除冗余序列,并根據(jù)預(yù)設(shè)的準(zhǔn)則選擇合適數(shù)量的同源序列;對(duì)篩選后的同源序列進(jìn)行多序列比對(duì),生成比對(duì)結(jié)果。
6、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述香農(nóng)熵值表示為,
7、
8、其中,pj是在蛋白質(zhì)序列中位置i上的第j中氨基酸的相對(duì)頻率;所述共演化系數(shù)表示為,
9、
10、其中,p(xi,yj)為分別在序列位置上觀察到的氨基酸類型x和y的聯(lián)合概率,i和j,p(xi)為x型氨基酸在第i位的邊際/單重態(tài)概率。
11、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述構(gòu)建氨基酸接觸能網(wǎng)絡(luò)包括針對(duì)每個(gè)表型,構(gòu)建氨基酸接觸能網(wǎng)絡(luò),導(dǎo)入相應(yīng)模塊生成蛋白質(zhì)的接觸能網(wǎng)絡(luò),計(jì)算每個(gè)氨基酸位點(diǎn)的疏水性和極性;通過(guò)對(duì)突變型與野生型的差異分析,得到全局的疏水性和極性變化;使用圖論方法,計(jì)算各疾病組與野生型之間的介數(shù)中心性、緊密中心性和特征向量中心性;按照不同疾病組保存每個(gè)計(jì)算結(jié)果,形成差異數(shù)據(jù)文件。
12、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述相對(duì)可及面積表示為,
13、
14、其中,aexposed表示蛋白質(zhì)中氨基酸的暴露容積表面積,atotal表示在單獨(dú)溶液中氨基酸的暴露容積表面積。
15、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述構(gòu)建目標(biāo)蛋白質(zhì)的彈性網(wǎng)絡(luò)模型包括根據(jù)氨基酸殘基的相互作用構(gòu)建蛋白質(zhì)的彈性網(wǎng)絡(luò),并通過(guò)anm和gnm模型分別計(jì)算蛋白質(zhì)的集體振動(dòng)模式、結(jié)構(gòu)動(dòng)力學(xué)性質(zhì)及節(jié)點(diǎn)之間的振動(dòng)相關(guān)性;通過(guò)分析蛋白質(zhì)的有效性、敏感性和剛度,評(píng)估突變對(duì)蛋白質(zhì)整體結(jié)構(gòu)和功能的影響。
16、作為本發(fā)明所述的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的一種優(yōu)選方案,其中:所述使用機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)蛋白質(zhì)的突變表型預(yù)測(cè)包括對(duì)于每個(gè)預(yù)測(cè)任務(wù),將其轉(zhuǎn)化為多個(gè)二分類問(wèn)題,并對(duì)計(jì)算出的特征參數(shù)進(jìn)行降維處理;采用遞歸特征消除技術(shù),并結(jié)合lightgbm算法進(jìn)行特征篩選,優(yōu)化特征組合,利用交叉驗(yàn)證評(píng)估其精度,返回最佳特征集;基于篩選的特征集合,使用lightgbm算法進(jìn)行訓(xùn)練,并通過(guò)shap解釋方法分析特征對(duì)模型結(jié)果的正負(fù)影響;采用多種機(jī)器學(xué)習(xí)模型進(jìn)行組合優(yōu)化,通過(guò)遍歷模型組合獲取最佳預(yù)測(cè)模型;將不同模型的預(yù)測(cè)結(jié)果輸入邏輯回歸模型進(jìn)行整合,計(jì)算并輸出最終的phenoscore值,并根據(jù)auc值選擇最佳模型組合。
17、本發(fā)明的另外一個(gè)目的是提供機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法系統(tǒng),其能通過(guò)構(gòu)建機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法系統(tǒng),解決了現(xiàn)有方法中對(duì)突變影響的片面評(píng)估問(wèn)題,綜合了蛋白質(zhì)序列特征、結(jié)構(gòu)特征、氨基酸接觸能網(wǎng)絡(luò)和彈性網(wǎng)絡(luò)模型等多種信息,優(yōu)化了突變預(yù)測(cè)的準(zhǔn)確性和可靠性。
18、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法系統(tǒng),包括:同源序列模塊,用于獲取目標(biāo)蛋白質(zhì)的同源序列,并對(duì)所述同源序列進(jìn)行多序列比對(duì),獲得比對(duì)后的序列信息;保守性評(píng)估模塊,用于基于所述比對(duì)后的序列信息,對(duì)每個(gè)氨基酸位點(diǎn)進(jìn)行保守性打分,評(píng)估各位點(diǎn)在進(jìn)化過(guò)程中的保守程度;熵共演化模塊,用于基于所述保守性打分,計(jì)算目標(biāo)蛋白質(zhì)的香農(nóng)熵值與共演化系數(shù),表征氨基酸位點(diǎn)的變異頻率及協(xié)同進(jìn)化關(guān)系;自由能評(píng)估模塊,用于利用所述香農(nóng)熵值與共演化系數(shù),計(jì)算目標(biāo)蛋白質(zhì)的自由能變化,評(píng)估突變對(duì)蛋白質(zhì)穩(wěn)定性的影響;接觸能網(wǎng)絡(luò)模塊,用于根據(jù)所述自由能變化,構(gòu)建氨基酸接觸能網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)中的拓?fù)涮卣?;可及面積模塊,用于基于所述氨基酸接觸能網(wǎng)絡(luò),計(jì)算每個(gè)位點(diǎn)的相對(duì)可及面積,評(píng)估突變對(duì)蛋白質(zhì)表面暴露區(qū)域的影響;彈性網(wǎng)絡(luò)模塊,用于構(gòu)建目標(biāo)蛋白質(zhì)的彈性網(wǎng)絡(luò)模型,模擬突變對(duì)蛋白質(zhì)動(dòng)態(tài)穩(wěn)定性的影響;特征整合模塊,用于整合所述蛋白質(zhì)的序列特征、結(jié)構(gòu)特征及彈性網(wǎng)絡(luò)特征,形成綜合特征集合;表型預(yù)測(cè)模塊,用于基于所述綜合特征集合,使用機(jī)器學(xué)習(xí)方法進(jìn)行目標(biāo)蛋白質(zhì)的突變表型預(yù)測(cè);可視化模塊,用于對(duì)所述突變表型預(yù)測(cè)結(jié)果進(jìn)行可視化,并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行表型分類。
19、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的步驟。
20、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法的步驟。
21、本發(fā)明的有益效果:本發(fā)明提供的機(jī)器學(xué)習(xí)輔助的整合蛋白質(zhì)突變表型預(yù)測(cè)方法通過(guò)引入機(jī)器學(xué)習(xí)技術(shù)與多維度特征整合的方法,綜合考慮蛋白質(zhì)的序列特征、結(jié)構(gòu)特征和彈性網(wǎng)絡(luò)特征,利用多種算法進(jìn)行特征提取與建模,從而解決了現(xiàn)有技術(shù)中的局部分析和缺乏全局性考慮的問(wèn)題。本發(fā)明通過(guò)計(jì)算多個(gè)參數(shù)(如保守性、香農(nóng)熵、共演化系數(shù)、自由能變化、氨基酸接觸能網(wǎng)絡(luò)、相對(duì)可及面積等)全面分析蛋白質(zhì)突變的影響,結(jié)合彈性網(wǎng)絡(luò)模型和接觸能網(wǎng)絡(luò),更好地模擬和預(yù)測(cè)蛋白質(zhì)突變對(duì)功能的全局性影響。此外,考慮更完善的特征,具有解釋性,針對(duì)單個(gè)蛋白,解決表型預(yù)測(cè)問(wèn)題。