




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、卷積神經(jīng)網(wǎng)絡(luò)在核小體定位識(shí)別中的應(yīng)用摘要:為更準(zhǔn)確識(shí)別核小體定位,本文提出一種基于Z曲線理論(Z-Curve)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法,稱為 ZCN方法。ZCN方法以Z曲線三維坐標(biāo)矩陣表示核小體序列特征,通過十倍交叉驗(yàn)證,進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn) 行模型訓(xùn)練和驗(yàn)證,使用標(biāo)準(zhǔn)評(píng)估指標(biāo)進(jìn)行性能評(píng)價(jià)。結(jié)果表明:ZCN方法在酵母中具有良好的識(shí)別效能,敏感性 Sn、準(zhǔn)確性Sp、ROC曲線面積分別為92. 4%90. 2%和0.970 4,可推廣到人類、線蟲和果蠅的核小體定位識(shí)別中,其 ROC曲線面積分別為0. 7960.940和0. 772,與其他方法比較,進(jìn)一步證實(shí)ZCN方法具有較好的識(shí)別效能和可推
2、 廣性。在酵母全基因組進(jìn)行核小體定位預(yù)測(cè),發(fā)現(xiàn)16條染色體的預(yù)測(cè)準(zhǔn)確率均值為78. 83%,在基因GAL和 GAL10中進(jìn)行核小體定位預(yù)測(cè),研究了降低假陽性的方法,給出了預(yù)測(cè)核小體定位的圖譜。ZCN方法為研究核小 體定位識(shí)別、預(yù)測(cè)及功能分析提供了有價(jià)值的方法和指導(dǎo)。關(guān)鍵詞:計(jì)算生物學(xué);卷積神經(jīng)網(wǎng)絡(luò);Z曲線理論;核小體;DNA序列;連接區(qū)Application of convolutional neural network basedon Z-Curve theory in identifying nucleosome positioningAbstract: In order to impro
3、ve the recognition accuracy of nucleosome positioning, we applied a method,th+t convolution neural network method based on the Z-curve theory was used to identify nucleosome DNA sequence and called ZCN method, the z-curve three-dimensional coordinate matrix was used to represent the features of nucl
4、eo- somes,the convolutional neural network was trained and verified by nucleosome sequences and linker sequences through 10-fold cross validation, and use standard evaluation indicators for performance evaluation.The results show that the convolutional neural network method has a good recognition pe
5、rformance in Saccharomyces cerevisiae, and Sensitivity Sn, accuracy Sp and ROC curve areas were 92. 4%, 90. 2% and 0. 9704, respectively. It can be applied to the localization of nucleosomes in H. sapiens, C. elegans and D.melanogaster, the ROC curve areas were 0. 796, 0. 940 and 0. 7723respectively
6、3and compared with the other four methods3it is further confirmed that ZCN method has better identification efficiency and generalization. In the whole genome of S. cerevisiae, the prediction accuracy of nucleosome positioning was found to be 78. 83% for the mean of 16 chromosomes. ZCN was used to p
7、redict nucleosome positioning on GALl and GAL10 genes3which the method of reducing false positive was studied and the map of predicting nucleosome was displayed. In conclusion3ZCN method provides valuable methods and guidance for the researching nucleosome positioning3recognition3prediction and func
8、tion analysis.Keywords: computational biology; convolutional neural network; Z-curve theory; nucleosome; DNA sequence; linker(1)-5)(1)-5)/55)/5- 5) /5,51,2,,8( 2)圖1基于Z曲線的卷積神經(jīng)網(wǎng)絡(luò)流程Fig.l Flow chart of convolutional neural network basedon Z-curve核小體是真核生物的染色質(zhì)基本結(jié)構(gòu)單元,由約 147 bp的DNA雙鏈纏繞組蛋白八聚體約1.75圈 形成,是染色體的一
9、級(jí)結(jié)構(gòu)4o相鄰核小體通過 稱短DNA序列連接,其范圍為10 bp - 100 bp。 DNA序列特征一直被認(rèn)為是核小體定位的重要因 素。核小體參與染色質(zhì)形成、拮抗轉(zhuǎn)錄因子面、 抑制基因表達(dá)7%等重要的生物學(xué)過程,其DNA序 列的精確定位不僅影響基因表達(dá)調(diào)控e% ,對(duì)DNA 復(fù)制、DNA修復(fù)10及重組11等也有重要作用。 當(dāng)前國內(nèi)外核小體定位研究大多針對(duì)開發(fā)分類算 法,例如通過信息嫡12、堿基對(duì)偏轉(zhuǎn)角度13等方 法來表示核小體DNA序列特征14,進(jìn)而訓(xùn)練分類 器。本文基于Z曲線理論將核小體DNA序列轉(zhuǎn)換 為三維空間曲線坐標(biāo),應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn) 練和檢驗(yàn),獲得了較好的分類效能,為今后的核小 體
10、定位研究提供一些參考。1基于Z曲線理論的卷積神經(jīng)網(wǎng)絡(luò)方 法(ZCN)1.1 Z曲線理論及轉(zhuǎn)換公式Z曲線理論基于正面體表示堿基對(duì)稱性15,將 DNA序列用4種字母符號(hào)表示為一維序列,利用這 種形式來表示任意長度的DNA序列,能夠顯示出 DNA序列的新特征,且根據(jù)正四面體的對(duì)稱性可以 證明,每條序列對(duì)應(yīng)唯一一條Z曲線。對(duì)于一條長 為8的單鏈DNA序列,它的三維坐標(biāo)可表示方 法為:產(chǎn)(2( & +G) -5,匕(2( & + C)-5 奴(2( An + Tn) 5,=4 5,5 ,5 ( 1,2,8每次從第1個(gè)堿基到第5個(gè)堿基,分別統(tǒng)計(jì) 1 - 5這個(gè)子序列中4種堿基積累出現(xiàn)的次數(shù),記為 A、C、
11、G”、T。X”、匕、=的取值范圍為-5,5,對(duì) 其進(jìn)行標(biāo)準(zhǔn)化處理,將X5、匕、乙的值都除以5得到 $、&,使其范圍處于1,1 l:,$5( 2( G5),( 2( A+ C.)&5( ( 2( A+ T)$,%,&4 - 1,1 1.2卷積神經(jīng)網(wǎng)絡(luò)分類器卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)16,包括卷 積層( convolutional layer)和池化層( pooling layer), 布局更接近于真實(shí)生物神經(jīng)網(wǎng)絡(luò),能降低特征提取 和分類過程中數(shù)據(jù)的復(fù)雜程度17。卷積神經(jīng)網(wǎng)絡(luò) 的構(gòu)建包括創(chuàng)建卷積層、創(chuàng)建線性整流層、創(chuàng)建池化 層以及創(chuàng)建全連接層4個(gè)步驟。本文基于 Z 曲線理論3應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)提
12、出 一種新的核小體定位識(shí)別方法,簡稱為ZCN,該方 法的流程圖如圖1所示。分類器的構(gòu)建過程使用R 軟件包“mxnet”進(jìn)行訓(xùn)練和驗(yàn)證,采用十倍交叉驗(yàn) 證方法進(jìn)行效果評(píng)估,取10次驗(yàn)證的平均結(jié)果為一 次最后結(jié)果,同時(shí),為了減少由于隨機(jī)分類而帶來的 結(jié)果誤差,隨機(jī)重復(fù)進(jìn)行50次十倍交叉驗(yàn)證。具體 過程如下:將Z曲線模型投入卷積層構(gòu)建模型,卷 積核大小為3,并選定卷積核個(gè)數(shù)為300創(chuàng)建卷積 層;然后加入非線性函數(shù)即雙曲正切函數(shù)創(chuàng)建線性 整流層;再采用最大池化,步長設(shè)置為1創(chuàng)建池化 層;最后,每一個(gè)結(jié)點(diǎn)都與上一層的所有結(jié)點(diǎn)相連, 用來把前邊提取到的特征綜合起來,最終得到全連 接層,并用“softmax
13、函數(shù)構(gòu)建分類器模型,使用驗(yàn) 證集數(shù)據(jù)進(jìn)行分類器檢驗(yàn);最后,通過驗(yàn)證數(shù)據(jù)集進(jìn) 行驗(yàn)證。1.3分類器模型性能評(píng)估為評(píng)價(jià)ZCN方法的分類效果,使用敏感性 ( sensitivity, Sn)、特異性( specificity, Sp)、準(zhǔn)確率 ( accuracy, Acc)和 Matthews )關(guān)系數(shù)( matthews correlation coefficient, MCC)及 ROC ( receiver operating characteristic)曲線面積 AUC ( area under ROC)來作 為評(píng)價(jià)參數(shù)1e,前3個(gè)指標(biāo)通常被用于在統(tǒng)計(jì)預(yù)測(cè) 理論中從不同角度衡量預(yù)測(cè)系統(tǒng)性
14、能為:TPSn =TP +FPTNpTN+FPTP+TNAcc =一TP+TN+FP+FNTPxTN-FNxFP( 3)MCC=TP+NF) ( TN+FP) ( TP+FP) ( TN+FN)式中:TP表示真陽性(true positive, TP)數(shù)量;FP表 示假陽性( false positive,F(xiàn)P)數(shù)量;TN( 3)MCC=TP+NF) ( TN+FP) ( TP+FP) ( TN+FN)2實(shí)驗(yàn)結(jié)果2.1數(shù)據(jù)來源及預(yù)處理2. 1. 1 酵母數(shù)據(jù)集從文獻(xiàn)19 %中獲得酵母( Saccharomyces cerevi- siae,S. cerevisiae)核小體數(shù)據(jù),含有5 000
15、條核小體 DNA序列作為陽性數(shù)據(jù)集,與5 000條連接DNA序 列作為陰性集,每條序列長為150 bp,記為數(shù)據(jù)集 S1;同時(shí),采用文獻(xiàn)20中的1 880條核小體DNA 序列集和1 740條連接區(qū)DNA序列集,記為數(shù)據(jù) 集S2。2. 1.2人類、線蟲和果蠅數(shù)據(jù)集從Guo文獻(xiàn)中獲得人類( 7. sapiens)、線蟲( I. elegans)和果蠅( D. melanogaster)的數(shù)據(jù)集,人類 共有2 273條核小體DNA序列集和2 300條連接區(qū)DNA序列集,線蟲共有2 067條核小體DNA序列集 和2 108條連接區(qū)DNA序列集,果蠅共有2 400條 核小體DNA序列集和2 350條連接
16、區(qū)DNA序列 集,用于檢驗(yàn)ZCN方法分類效能和可推廣性。2. 1.3 酵母全基因組數(shù)據(jù)從UCSC數(shù)據(jù)庫獲取釀酒酵母全基因組序列數(shù) 據(jù)22,包含17條染色體序列,其網(wǎng)址為:http: hg- /downloads.html( 版本:SacCer_ Apr2011 sacCer3),使用其中16條染色體數(shù)據(jù);另外 從 SGD/ Saccharomyces Genome Database)數(shù)據(jù)庫獲 得酵母基因GAL1和基因GAL10的DNA序列數(shù) 據(jù),用于核小體預(yù)測(cè),其網(wǎng)址為http: / HYPERLINK http:/www.yeastgenome www.yeastgenome. org/ 。
17、4 酵母全基因組核小體數(shù)據(jù)集從Xu Zhou與Erin OShea的文獻(xiàn)中獲得61 532 條酵母核小體位置信息數(shù)據(jù)23,這是一套全基因組 的核小體數(shù)據(jù)集,用于檢驗(yàn)預(yù)測(cè)結(jié)果!2.2分類器識(shí)別結(jié)果與分析1 ZCN方法在酵母數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果酵母數(shù)據(jù)集 S1 的核小體 DNA 序列和連接區(qū) DNA序列經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和驗(yàn)證,結(jié)果 如圖2( a),敏感性Sn、特異性Sp、準(zhǔn)確率Acc和 MCC 值分別為 0. 91、0. 88、0. 90、0. 80,ROC 曲線下 面積AUC值為0. 96,面積最高值達(dá)到0. 970 4,如圖 2( b) ,這表明 ZCN 方法在酵母的核小體定位識(shí)別中 的
18、效能良好,能夠較好地識(shí)別出核小體序列與連接 區(qū)序列!(b) ROC曲線圖2 ZCN方法實(shí)驗(yàn)結(jié)果和ROC曲線(S1)Fig.2 Results of ZCN method and receiver operating characteristic SI)酵母數(shù)據(jù)集S2的核小體DNA序列和連接區(qū) DNA序列,分別經(jīng)過Z曲線轉(zhuǎn)換得到三維空間坐標(biāo) 矩陣數(shù)據(jù)集,投入訓(xùn)練出的分類器中進(jìn)行分類,通過 十倍交叉驗(yàn)證,結(jié)果如圖3(a)所示,Sn、Sp、Acc和 MCC 分別達(dá)到 0. 97、0. 84、0. 90、0. 82。ROC 曲線;積AUC值最高達(dá)到0. 972 3,如圖3( b)所示,表明 ZCN方法
19、在酵母核小體定位中再次取得較好識(shí)別 效果,且各項(xiàng)性能指標(biāo)穩(wěn)定。實(shí)驗(yàn)表明ZCN方法在 酵母中具有較好的應(yīng)用效果。(a)ZCN方法實(shí)驗(yàn)結(jié)果(b) ROC曲線圖3 ZCN方法實(shí)驗(yàn)結(jié)果和ROC曲線(S2)Fig.3 Results of ZCN method and receiver operating characteristic S2)2.2.2 ZCN方法在人類、線蟲和果蠅中的實(shí)驗(yàn)結(jié)果 應(yīng)用ZCN方法識(shí)別人類、線蟲和果蠅3個(gè)物種 的核小體定位,得到人類、線蟲和果蠅的ROC曲線 下面積AUC值分別為0. 796 0. 940和0. 772,如圖 4所示,Sn、Sp和Acc值如表1所示。ZCN方法不
20、 僅可應(yīng)用于酵母也可應(yīng)用于其他多個(gè)物種的核小體 定位識(shí)別,分類效能良好且具有可靠的推廣性。圖4人類、線蟲和果蠅的ROC曲線面積Fig.4 ROC curve areas for H. sapiens, C. elegans and D, melnogaster2. 2.3 ZCN方法與其他識(shí)別方法的比較將ZCN方法與其他方法進(jìn)行結(jié)果比較,包括 iNuc-STNC 方法 $21%、iNuc-PseKNC 方法 $ie%、3LS 方法 和LeNup14,這4種方法沒有酵母實(shí)驗(yàn)結(jié)果,因此 只進(jìn)行人類、線蟲和果蠅的核小體定位識(shí)別結(jié)果比 較;另外,LeNup方法采用20倍交叉驗(yàn)證,而3LS、 iNuc-
21、PseKNC 和 iNuc-STNC 方法采用 Jackknife 檢驗(yàn) 方法,ZCN方法采用10倍交叉驗(yàn)證方法,其訓(xùn)練數(shù) 據(jù)集在樣本大小和訓(xùn)練次數(shù)上均小于上述4種方 法,如表1所示。表1 ZCN方法與其他方法的實(shí)驗(yàn)結(jié)果比較Table 1 Comparison of experimental results between ZCN method and other methods種類方法Sn/%Sp E %Acc E %AUCLeNup92. 1285. 6288. 890. 941 23LS91.6988. 3590. 010. 958 8H. sapiensiNuc-PseKNC87. 8
22、684. 7086. 270. 925 0iNuc-STNCe9. 3185. 9187. 60ZCN68. 7779. 3669. 310. 796LeNup93. 3990. 4191. 880. 965 33LS86. 5489. 2187. 860. 950 5C. elegansiNuc-PseKNC90. 3083. 5586. 900. 935 0iNuc-STNC91. 6286. 6688. 62_ZCN91. 1683. 5185. 130. 940LeNup89. 7487. 1388. 470. 940 1D. melan-3LS84. 0782. 7483. 410.
23、 914 7ogasteriNuc-PseKNC78. 3181. 6579. 970. 874 0iNuc-STNC79. 7683. 6181. 67_ZCN68. 5575. 1867. 530. 772 0ZCN方法在人類和果蠅數(shù)據(jù)集中,敏感性Sn、 特異性Sp、準(zhǔn)確性Acc 3項(xiàng)指標(biāo)略低,ROC曲線; 積AUC值分別達(dá)到0. 796和0. 772,而iNuc-STNC 方法沒有給出AUC值;在線蟲數(shù)據(jù)中,ZCN方法的 敏感性Sn高于3LS方法,特異性Sp、準(zhǔn)確性Acc與 iNuc-PseKNC方法基本一致,ROC曲線面積AUC值 0. 940略高于iNuc-PseKNC方法。ZCN方
24、法在訓(xùn)練 數(shù)據(jù)集大小和訓(xùn)練次數(shù)均小于其他4種方法,但在 單項(xiàng)指標(biāo)上表現(xiàn)較好,且各項(xiàng)指標(biāo)穩(wěn)定,特別地在酵 母中取得較好實(shí)驗(yàn)結(jié)果,表明ZCN方法有識(shí)別較好 效能和可推廣性。2.3酵母核小體預(yù)測(cè)結(jié)果與分析2. 3. 1 核小體序列預(yù)測(cè)候選序列集通過滑窗法,設(shè)置滑動(dòng)窗口大小為150 bp,步長 為1 bp,按染色體提取出核小體DNA序列候選預(yù)測(cè)集,如表2所示,共得12 068 942條DNA序列作為 候選預(yù)測(cè)集,將每條DNA進(jìn)行Z曲線轉(zhuǎn)換得到坐標(biāo) 矩陣,投入到ZCN方法訓(xùn)練的模型中進(jìn)行預(yù)測(cè)。表2酵母全基因組核小體定位候選預(yù)測(cè)集Table 2Candidate prediction set of nuc
25、leosome localization in the whole genome of S. cerevisiae染色體:候選預(yù)測(cè)集染色體候選預(yù)測(cè)集chr01230 069chr09439 739chr02813 035chr10745 602chr03316 471chr11666 667chr041 531 784chr121 078 028chr05576 725chr13924 282chr06270 012chr14784 184chr071 090 791chr151 091 142chr08562 494chr16947 9172.3.2 核小體預(yù)測(cè)去冗余篩選方法滑窗法獲得候選序
26、列集存在大量相似序列和冗 余數(shù)據(jù),為減少預(yù)測(cè)結(jié)果中的重復(fù)和冗余,提出基于 染色體上每個(gè)堿基位置的去冗余策略,對(duì)序列陽性 集進(jìn)行篩選,保留預(yù)測(cè)為核小體的DNA片段,將這 些片段回拼至全基因組對(duì)應(yīng)位置上。篩選方法思想如下:1)每條染色體上的每條候 選預(yù)測(cè)序列,除去首尾2條候選預(yù)測(cè)序列的75 bp 堿基外,每條候選預(yù)測(cè)序列的每個(gè)堿基,將其擴(kuò)展前 后共150 bp序列提取出來投入ZCN訓(xùn)練模型中進(jìn) 行預(yù)測(cè)。若預(yù)測(cè)為核小體,則將這一堿基標(biāo)記為核 小體。因此,除了每條染色體序列最開始的149個(gè) 堿基與末尾149個(gè)堿基,相當(dāng)于在考慮周圍序列信 息的條件下,對(duì)染色體上單個(gè)堿基進(jìn)行150次記分。 堿基所對(duì)應(yīng)的得
27、分越,該堿基前后共150 /p堿基 所對(duì)應(yīng)的150條序列被分類為核小體序列的數(shù)量越 多,即這個(gè)位置的堿基更傾向于落到核小體序列片 段;2)如果一條DNA片段被分類為核小體,則該序 列對(duì)應(yīng)堿基150 bp范圍內(nèi)的所有堿基得分加1,否 則加0,在對(duì)所有序列進(jìn)行分類之后,所有位置的堿 基的得分范圍為。150,設(shè)定初始閾值75,當(dāng)每個(gè) 位置的堿基得分閾值大于或等于75時(shí),認(rèn)為該位置 堿基更加傾向于落在核小體區(qū)域,逐漸提高閾值,( 到可以降低假陽性的更加嚴(yán)格的閾值,最后統(tǒng)計(jì)篩 選出得到去除有重復(fù)的相鄰候選序列,得到預(yù)測(cè)的 核小體數(shù)量,如圖5所示,經(jīng)過28次計(jì)算,最后選擇 閾值為 93 篩選所得 9 22
28、9 869 個(gè)堿基位置作為核小 體預(yù)測(cè)結(jié)果。2. 3. 3 核小體預(yù)測(cè)結(jié)果驗(yàn)證-0.006 0 -0.008 3 -0.003 53高低染色體(b)比率驗(yàn)證0.024 8口 nxd 5刀。2】4-。00 8 002 危。123 0.009 5 。牙圖6預(yù)測(cè)位置與實(shí)際位置的驗(yàn)證統(tǒng)計(jì)Fig.6 Statistics of predicted position and actual position為檢驗(yàn)其與驗(yàn)證集在單條染色體上的核小體結(jié) 果的一致性,使用一套獨(dú)立數(shù)據(jù)集( 61 532條核小 體序列)來驗(yàn)證結(jié)果,繪制酵母單條染色體上預(yù)測(cè) 堿基與實(shí)際堿基位置統(tǒng)計(jì)圖-0.006 0 -0.008 3 -
29、0.003 53高低染色體(b)比率驗(yàn)證0.024 8口 nxd 5刀。2】4-。00 8 002 危。123 0.009 5 。牙圖6預(yù)測(cè)位置與實(shí)際位置的驗(yàn)證統(tǒng)計(jì)Fig.6 Statistics of predicted position and actual position100.097.595.092 5(93,922 986 9)90.087.58090100閾值/n。圖5候選預(yù)測(cè)結(jié)果閾值篩選Fig.5 Threshold selection of candidate prediction result計(jì)算單條染色體預(yù)測(cè)位置與實(shí)際位置的交集, 以檢驗(yàn)核小體定位的準(zhǔn)確性,可見位置的重疊
30、程度 較高,如表3所y。表3酵母核小體定位的全基因組位點(diǎn)驗(yàn)證Table 3 Whole genome site verification of yeast nucleosome positioning染色體預(yù)測(cè)結(jié)果集驗(yàn)證集交集準(zhǔn)確率/%chr01174 619174 300136 46078. 29chr02633 933621 000500 11580. 53chr03232 690241 650185 05676. 58chr041 148 1951 173 300910 12377. 57chr05435 367443 850345 53977. 85chr06207 727207 90
31、0166 16979. 93chr07825 042828 000染色體預(yù)測(cè)結(jié)果集驗(yàn)證集交集準(zhǔn)確率/%chr01174 619174 300136 46078. 29chr02633 933621 000500 11580. 53chr03232 690241 650185 05676. 58chr041 148 1951 173 300910 12377. 57chr05435 367443 850345 53977. 85chr06207 727207 900166 16979. 93chr07825 042828 000645 70877. 98chr08433 723428 55034
32、3 36180. 12chr09344 939336 600271 97780. 80chr10581 059571 200451 14978. 98chr11504 252507 300388 38276. 56chr12826 454818 700647 84279. 13chr13705 540711 450561 77178. 96chr14619 530598 650487 81481.49chr15835 707838 650661 40878. 87chr16721 092728 700572 72778. 60總數(shù)9 229 8699 229 8007 275 60178. 8
33、32. 3.4 酵母基因GAL1與基因GAL10的預(yù)測(cè)結(jié)果從SGD數(shù)據(jù)庫獲得基因GAL1和GAL10的 DNA序列數(shù)據(jù)及位置數(shù)據(jù),用ZCN方法在這兩個(gè)基 因上進(jìn)行核小體定位預(yù)測(cè)和驗(yàn)證,預(yù)測(cè)過程與全基 因組上核小體預(yù)測(cè)過程一致,GAL1原基因長度為 1 587 bp( chrll: 279021-280607),加上下游 1 kb,共 為 3 587 bp/ chrll: 278021-281607),GAL10 原基因 長度為 2 100 bp/ chrll: 276253-278352),加上下游 1 kb,共為 4 100 bp/ chrll: 275253-279352) 0 預(yù)測(cè)結(jié)果如
34、圖7所示,計(jì)算該基因上預(yù)測(cè)位置 與實(shí)際位置的交集,及交集在預(yù)測(cè)集與真實(shí)集中的 占比。100一 ratioGAL 一 ratioGAL 10 預(yù)測(cè)15_ ratio_GAL10實(shí)際位置ratio_GAL 1_預(yù)測(cè)位置 ratio GALl 實(shí)際位置20 40 60 80 100 120 140閾值/no圖7預(yù)測(cè)位置與實(shí)際位置的驗(yàn)證統(tǒng)計(jì)Fig.7 Statistics of predicted position and actual position圖7中,粗線表示預(yù)測(cè)核小體堿基中交集位點(diǎn) 的含量,即預(yù)測(cè)核小體堿基的準(zhǔn)確率;細(xì)線表示在真 實(shí)核小體堿基中交集位點(diǎn)的比例,也可以表示每個(gè) 閾值下核小體的檢出率,它越來越低是因?yàn)殡S著閾 值升高,預(yù)測(cè)堿基位點(diǎn)數(shù)量逐漸降低,導(dǎo)致交集數(shù)量 減少,但作為分母的真實(shí)核小體堿基數(shù)量一直不變。 當(dāng)閾值設(shè)為1時(shí),表示以卷積神經(jīng)網(wǎng)絡(luò)模型一次分 類即為預(yù)測(cè)結(jié)果,此時(shí)在基因GAL10序列中有 3 374個(gè)堿基被預(yù)測(cè)為核小體位點(diǎn),其中有2954/約 87. 55%) 個(gè)為真實(shí)的核小體堿基位點(diǎn),占真實(shí)的核 小體堿基位點(diǎn)數(shù)據(jù)集( 3 241個(gè))的91.14%。而在 基因 GAL1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同模板租賃合同(商業(yè)辦公 space)范本
- 2025加盟合同范本下載
- 碼頭建設(shè)工程實(shí)施方案(范文模板)
- 2025建筑工程監(jiān)理合同模板
- 《2025租賃合同的書寫要點(diǎn)》
- 2025城市綠化工程勞務(wù)分包合同
- 2025合作生產(chǎn)合同范本
- 產(chǎn)業(yè)園區(qū)配套基礎(chǔ)設(shè)施建設(shè)項(xiàng)目規(guī)劃設(shè)計(jì)方案
- 2025技術(shù)咨詢服務(wù)合同模板
- 2025供應(yīng)商合同(中英文)
- 2025至2030年中國海參市場分析及競爭策略研究報(bào)告
- 新版水利工程監(jiān)理日志
- 音樂課堂基礎(chǔ)知識(shí)教學(xué)
- 生產(chǎn)月度工作總結(jié)匯報(bào)
- 他達(dá)拉非臨床應(yīng)用
- 中職高教版(2023)語文職業(yè)模塊-第一單元1.4閃亮的坐標(biāo),勞模王進(jìn)喜【課件】
- 冠脈介入對(duì)比劑使用專家共識(shí)課件
- 《高效客戶關(guān)系管理培訓(xùn)課件》
- 替爾泊肽在肥胖人群中的應(yīng)用
- 醫(yī)療行業(yè)項(xiàng)目進(jìn)駐流程解析
- 醫(yī)療信息保密制度
評(píng)論
0/150
提交評(píng)論