本發(fā)明屬于分子生物學(xué),具體涉及中華近瘤??娜旧w水平全基因組序列。
背景技術(shù):
1、中華近瘤海葵(paracondylactis?sinensis)又稱為沙蒜,是我國浙江沿海的一類經(jīng)濟(jì)物種,目前還尚未實(shí)現(xiàn)人工養(yǎng)殖,僅通過野生捕撈方式供給市場需求。研究表明,由于對沙蒜的過度捕撈,野生沙蒜群體已出現(xiàn)雜合缺失現(xiàn)象,若不采取相關(guān)保護(hù)及人工繁育措施,將不利于今后的可持續(xù)發(fā)展。
2、全基因組序列包含了生物的全部遺傳信息,是分子標(biāo)記開發(fā)、功能基因挖掘,物種群體演化過程研究的重要工具。雖然目前公共數(shù)據(jù)庫中已經(jīng)公布了中華近瘤海葵的部分分子數(shù)據(jù),但與全基因組數(shù)據(jù)相比,已公布的分子數(shù)據(jù)提供的信息有限,具體表現(xiàn)如下:1)已公布的線粒體基因組的部分基因數(shù)據(jù)及線粒體基因組全長數(shù)據(jù),其分子信息只涉及到細(xì)胞器基因組中的dna信息,而對于遺傳信息更為豐富的細(xì)胞核dna卻無法涵蓋,從而限制了對功能基因的挖掘;2)已公布的二代轉(zhuǎn)錄組數(shù)據(jù)雖然包含了核基因的編碼序列,但由于二代測序讀長較短僅為150bp,因而組裝后得到的轉(zhuǎn)錄本序列往往會存在很多組裝錯誤,也會使很多轉(zhuǎn)錄本序列只獲得部分片段,無法獲得轉(zhuǎn)錄本的全長序列;此外,轉(zhuǎn)錄組獲得的基因數(shù)據(jù)只是包含了在取樣時(shí)樣品組織中所包含的轉(zhuǎn)錄本信息,而對于當(dāng)時(shí)沒有表達(dá)的基因信息,卻無法獲得,二代轉(zhuǎn)錄組中包含的遺傳信息是不完整的;3)已公布的三代轉(zhuǎn)錄組序列雖然可以獲得轉(zhuǎn)錄本的全長序列,但仍存在獲得遺傳信息不完整的弊端,該數(shù)據(jù)經(jīng)過busco軟件評估后,其完整度僅為66.8%,由此可見,該序列信息對于沙蒜遺傳信息的覆蓋是遠(yuǎn)遠(yuǎn)不夠的。另外轉(zhuǎn)錄組數(shù)據(jù)只是包含了蛋白編碼序列及其上下游部分調(diào)控區(qū)的信息,對于基因組中的大部分非編碼序列是無法覆蓋住的。最后,單純依靠轉(zhuǎn)錄組信息也無法對基因組中的基因分布及染色體進(jìn)化進(jìn)行相關(guān)研究,這些缺陷只有獲得染色體水平的基因組信息后才可以解決。
3、目前尚未公布中華近瘤海葵染色體水平基因組的原因大體有兩方面:1)國內(nèi)關(guān)于??姆诸悓W(xué)及遺傳育種的專家較少,其野生種質(zhì)資源的研究相對薄弱,且政府及科研部門并未對其研究予以足夠的重視,因此,即便中華近瘤??咽墙阊睾3鞘酗埖曛械母邫n菜肴,但仍缺乏其全基因組信息的獲得;2)??蚪M序列存在高雜合的特點(diǎn),因此其基因組序列的拼接存在一定難度。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明利用第三代高通量測序技術(shù)結(jié)合序列組裝及染色體掛載,獲得中華近瘤??旧w水平的全基因組序列,為今后開展關(guān)于沙蒜分子領(lǐng)域的研究打下堅(jiān)實(shí)的基礎(chǔ)。
2、為了達(dá)到以上目的,本發(fā)明方案如下:
3、中華近瘤??娜旧w水平全基因組序列如zenodo數(shù)據(jù)庫所示,序列保存地址https://zenodo.org/records/14880344。
4、進(jìn)一步的,所述中華近瘤??娜旧w水平全基因組序列的獲取方法,包括以下步驟:
5、(1)樣品獲得
6、采集沙蒜中華近瘤海葵樣品
7、(2)dna提取
8、提取中華近瘤??鹍na
9、(3)文庫構(gòu)建及測序
10、選擇檢測合格的高質(zhì)量dna樣品;隨機(jī)打斷成dna片段;富集、純化dna;對片段化的dna進(jìn)行損傷修復(fù)、末端修復(fù);在dna片段兩端連接莖環(huán)狀測序接頭,并利用外切酶去除連接失敗的片段;構(gòu)建好的文庫通過pacbio?revio平臺在ccs模式下進(jìn)行測序,獲得hifi數(shù)據(jù);
11、(4)hic文庫構(gòu)建及測序
12、將??M織在液氮中研磨,利用福爾馬林溶液交聯(lián)染色質(zhì);室溫孵育,終止福爾馬林反應(yīng),接著再在室溫下孵育,并在冰上孵育超過15分鐘;隨后,將細(xì)胞在預(yù)冷的裂解緩沖液中裂解;染色質(zhì)使用限制性內(nèi)切酶dpnii進(jìn)行消化,并標(biāo)記上生物素殘基,然后進(jìn)行末端修復(fù);使用nebnext?dna文庫構(gòu)建試劑盒制備插入片段大小為350bp的hic文庫,并進(jìn)行測序,讀取長度為150bp,獲得下機(jī)數(shù)據(jù);
13、(5)組裝
14、對下機(jī)后的hifi數(shù)據(jù)進(jìn)行組裝;
15、(6)染色體掛載
16、首先利用trimmomatic軟件對下機(jī)后的hic數(shù)據(jù)進(jìn)行過濾,去除接頭序列及低質(zhì)量序列;
17、然后利用fastuniq軟件對測序過程中的pcr重復(fù)進(jìn)行去除;構(gòu)建引索、序列比對及排序;
18、掛載及矯正,獲得染色體水平基因組序列。
19、優(yōu)選的,步驟(3)所述高質(zhì)量dna樣品為:主帶>30kb的樣品。
20、優(yōu)選的,用于步驟(5)組裝的軟件包括hifiasm、canu+purge、flye、nextdenovo、spades軟件。
21、優(yōu)選的,步驟(6)的掛載及矯正方法為:
22、進(jìn)行初步掛載,得到序列掛載的結(jié)果yahs.out_scaffolds_final.fa;對該結(jié)果文件進(jìn)行處理,命令如下:
23、juicer?pre-a-o?out_jbat?yahs.out.bin?yahs.out_scaffolds_final.agpcontig.fasta.fai
24、java-xmx200g-jar?juicer_tools.jar?pre?out_jbat.txt?out_jbat.hicassembly?210673832
25、其中210673832為基于contig.fasta計(jì)算得到的中華近瘤??蚪M大小,該步驟運(yùn)行后得到out_jbat.hic,該文件和上一步命令得到的out_jbat.assembly一同作為juicebox軟件的輸入文件,用于人工手動調(diào)整基因組片段的掛載關(guān)系;人工調(diào)整后,由juicebox軟件輸出各個contig在染色體上的排布關(guān)系文件out_jbat.review.assembly,該文件作為juicer軟件的輸入文件,進(jìn)行染色體序列最后的掛載,命令如下:
26、juicer?post-o?out_jbat?out_jbat.review.assembly?out_jbat.liftover.agpcontig.fasta
27、最終輸出結(jié)果文件為out_jbat.final.fa,作為染色體水平基因組序列的最終序列文件。
28、優(yōu)選的,用于掛載的程序包括:chromap+yahs流程、haphic軟件、juicer+3d-dna流程、all-hic軟件。
29、優(yōu)選的,步驟(3)所述dna片段的大小為15-18kb的。
30、優(yōu)選的,步驟(5)為利用hifiasm軟件對下機(jī)后的hifi數(shù)據(jù)進(jìn)行組裝,軟件運(yùn)行參數(shù),除-l為3外,其他全部默認(rèn),運(yùn)行命令為:
31、hifiasm-o?contig.fasta-t?36-l?3hifi.fasta
32、其中contig.fasta為組裝后contig水平的基因組序列,hifi.fasta為pacbiorevio下機(jī)后的數(shù)據(jù)。
33、優(yōu)選的,步驟(4)所述裂解緩沖液含有10mm?nacl、0.2%?igepal?ca-630、10mmtris–hcl和1×蛋白酶抑制劑溶液。
34、進(jìn)一步的,本發(fā)明提供所述中華近瘤??娜旧w水平全基因組序列或由所述方法獲得的中華近瘤??娜旧w水平全基因組序列在中華近瘤??N群遺傳結(jié)構(gòu)分析中的應(yīng)用。
35、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
36、本發(fā)明利用ccs測序技術(shù)結(jié)合序列拼接及hic染色體掛載技術(shù),獲得中華近瘤??旧w水平的全基因序列,該染色體水平基因組最終掛載到19條單倍型染色體中,經(jīng)busco評估后,其完整度高達(dá)95.9%,表明該序列中已包含了中華近瘤??麕缀跞康幕蛐蛄小4送?,基因組序列中除了蛋白編碼序列外,還包含了大量的非編碼序列(約占85.7%),可用于分子標(biāo)記的開發(fā)及群體遺傳結(jié)構(gòu)的分析。該染色體水平基因組的公布是對中華近瘤??蛸Y源信息的有效補(bǔ)充,有利于后期對生物基因資源的充分開發(fā)和利用。