




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、多樣本混合測序的編碼設(shè)計(jì)和解碼算法多樣本混合測序的編碼設(shè)計(jì)和解碼算法BioinformaticsDNA測序技術(shù)快速發(fā)展2全球首批NovaSeq 進(jìn)駐南京2017. 03.30BioinformaticsDNA測序技術(shù)快速發(fā)展4全球首批Bioinformatics多樣本混合測序3充分利用測序通量 同時(shí)測序多個(gè)樣本關(guān)鍵問題區(qū)分不同樣本 編碼(1)Barcoding(顯性編碼)(2)Overlap pooling(隱性編碼)Nat Rev Genet. 2014 , 15(11):749-63Bioinformatics多樣本混合測序5充分利用測序通量Bioinformatics多樣本混合測序4 B
2、arcoding(顯性編碼)readBarcode樣本標(biāo)記Nat Methods. 2008, 5(3):235-7.關(guān)注的問題編碼的數(shù)量編碼的容錯(cuò)和糾錯(cuò)能力Bioinformatics多樣本混合測序6 BarcodBioinformatics多樣本重疊混合測序5 Overlap pooling(隱性編碼)Genome Res. 2009 19: 1243-1253Genome Res. 2009 19: 1254-1261Nature Biotechnology,2009.以樣本的混合模式作為編碼提高測序效率編碼設(shè)計(jì)復(fù)雜,解碼困難Bioinformatics多樣本重疊混合測序7 Overl多
3、樣本混合測序?qū)嶒?yàn)設(shè)計(jì)及數(shù)據(jù)解碼Cao CC, Sun X. Quantitative Biology, 2016, 4(1): 3646.重疊混合測序 編碼 解碼6Overlapping Pool Sequencing多樣本混合測序?qū)嶒?yàn)設(shè)計(jì)及數(shù)據(jù)解碼Cao CC, Sun X.重疊混合7混合池1混合池2混合池3樣本混合模式樣本之間重疊混合樣本混合矩陣一個(gè)混合池測序多個(gè)樣本一個(gè)樣本在多個(gè)池中測序重疊混合9混合池1樣本之間樣本混合矩陣一個(gè)混合池測序多個(gè)樣本重疊混合測序的編碼與解碼 篩選稀有變異攜帶者8問題:保證準(zhǔn)確解碼辨別測序誤差與突變辨別多個(gè)陽性樣本重疊混合測序的編碼與解碼 篩選稀有變異攜帶者1
4、0問題:重疊混合測序的優(yōu)化設(shè)計(jì)測序深度模型分組重疊混合模型Optimal sequencing depths of coverage for pooled sequencing of diploid samplesData requirement for different number of blocks9重疊混合測序的優(yōu)化設(shè)計(jì)測序深度模型分組重疊混合模型Optim重疊混合測序的優(yōu)化設(shè)計(jì)測序深度模型分組重疊混合模型優(yōu)化選擇 代價(jià)模型:文庫+數(shù)據(jù)+混合 根據(jù)代價(jià)選擇最優(yōu)設(shè)計(jì)Cao CC, Sun X. Genetic Epidemiology. 201310重疊混合測序的優(yōu)化設(shè)計(jì)測序深度模型C
5、ao CC, Sun X重疊混合測序的優(yōu)化設(shè)計(jì)優(yōu)化選擇樣本混合方案利用群試?yán)碚撨M(jìn)行解碼單獨(dú)測序成本大幅降低篩選稀有突變攜帶者的測序成本Cao CC, Sun X. Genetic Epidemiology. 2013在不同混合樣本數(shù)目下的測序代價(jià)11STD設(shè)計(jì)參數(shù): n=200, d=2重疊混合測序的優(yōu)化設(shè)計(jì)優(yōu)化選擇樣本混合方案單獨(dú)測序成本大幅降基于定量群試的重疊混合測序設(shè)計(jì)及解碼前面只用到每個(gè)混合池的陽性樣本定性檢測結(jié)果攜帶突變的測序片段個(gè)數(shù)能夠反映攜帶者的比例定量群試:利用覆蓋變異位點(diǎn)測序片段個(gè)數(shù)信息1號2號3號4號5號6號7號8號I號II號III號IV號V號12基于定量群試的重疊混合測序
6、設(shè)計(jì)及解碼前面只用到每個(gè)混合池的陽基于定量群試的重疊混合測序設(shè)計(jì)及解碼 樣本混合設(shè)計(jì)定義PI指標(biāo)評價(jià)樣本混合設(shè)計(jì)PI為陽性混合池?cái)?shù)目比陽性樣本數(shù)目 與不確定屬性的陰性樣本數(shù)目之和還高的概率值 PI能夠反映識別稀有突變攜帶者的可能性大小 根據(jù)PI選擇隨機(jī)設(shè)計(jì)的最優(yōu)設(shè)計(jì)參數(shù) 解碼:識別突變攜帶者貝葉斯解碼算法A:樣本混合模式 O:測序結(jié)果13基于定量群試的重疊混合測序設(shè)計(jì)及解碼 樣本混合設(shè)計(jì)A:樣本混基于定量群試的重疊混合測序設(shè)計(jì)及解碼與普通群試相比,該方法能夠容許檢測更多的稀有變異攜帶者Cao CC, Sun X. BMC Bioinformatics. 2014Least sequencing
7、 data throughput required to achieve a 95% correct decoding rate. Only 36 pools were allowed to identify heterozygous variant carriers among 100 diploid samples. Performance of overlapping pool sequencing using random k-set pool design14正確解碼前提下的數(shù)據(jù)通量需求基于定量群試的重疊混合測序設(shè)計(jì)及解碼與普通群試相比,該方法能面向單倍型的混合測序解碼從混合測序結(jié)果
8、中準(zhǔn)確估計(jì)單倍型頻率,并判斷稀有單倍型攜帶者Ehapp新算法Cao CC, Sun X. Bioinformatics. 2015.15面向單倍型的混合測序解碼從混合測序結(jié)果中準(zhǔn)確估計(jì)單倍型頻率,面向單倍型的混合測序解碼Ehapp在較短的測序讀長下具有較大的優(yōu)勢應(yīng)用重疊混合測序篩選稀有單倍型攜帶者Cao CC, Sun X. Bioinformatics. 2015.16面向單倍型的混合測序解碼Ehapp在較短的測序讀長下具有較大基于重疊混合的單倍型測序方法研究動機(jī):嘗試將重疊混合測序方法應(yīng)用于單倍型測序,解決存在的問題,以期提高單倍型構(gòu)建性能17基于重疊混合的單倍型測序方法研究動機(jī):19Bi
9、oinformatics單倍型測序18單倍型測序的主要方法 物理分割 克隆測序 稀釋基因組DNAGlusman et al. Genome Medicine 2014, 6:73Nature Biotechnology,29: 3839 (2011)Bioinformatics單倍型測序20單倍型測序的主要方單倍型測序基于克隆或稀釋的單倍型測序 基因組片段混合在各個(gè)池子中 每個(gè)池中局部單倍型盡量不重疊Nat Rev Genet. 2015 Jun;16(6):344-58.單倍型測序基于克隆或稀釋的單倍型測序Nat Rev Gene基于重疊混合的單倍型測序方法待解決兩個(gè)問題 克隆重疊問題 錯(cuò)誤
10、連接問題解決問題的思路準(zhǔn)確識別覆蓋每個(gè)allele的克隆提高單倍體構(gòu)建的準(zhǔn)確性Chimeric fragmentsA ACA TGG TGA AG20基于重疊混合的單倍型測序方法待解決兩個(gè)問題Chimeric Bioinformatics基于重疊混合的單倍型測序方法21 多次混合 將克隆看成為重疊混合測序的樣本Some other overlapping pools利用不同的Overlap信息解碼根據(jù)不同混合池中的不同覆蓋判斷重疊部分的歸屬Bioinformatics基于重疊混合的單倍型測序方法23解決問題的基本策略核心準(zhǔn)確識別SNP位點(diǎn)以及覆蓋每個(gè)allele的所有克隆進(jìn)而確定每個(gè)克隆上各個(gè)
11、allele及其順序前提:覆蓋某allele的克隆個(gè)數(shù)相對于整個(gè)克隆文庫來說是稀有的SNP位置重疊混合測序解碼SNP集覆蓋SNP的克隆集形成局部單倍型并組裝22解決問題的基本策略核心準(zhǔn)確識別SNP位點(diǎn)以及覆蓋每個(gè)alle基于重疊混合的單倍型測序方法稀釋到多個(gè)混合池構(gòu)建測序文庫并測序比對 & 檢測SNP重構(gòu)局部單倍型連接局部單倍體構(gòu)建個(gè)體克隆文庫完整單倍體基因組23基于重疊混合的單倍型測序方法稀釋到多個(gè)混合池構(gòu)建測序比對 &解碼方法Figure 1. Illustration of alleles assignment. (A) Five clones are pooled into three
12、 pools, which means pool #1 contains clones 1, 4 and 5; pool #2 contains clones 2 and 4; and pool #3 contains clones 3 and 5. (B) The sequencing results. For example, allele 2 is sequenced three, two and one times in pools #1, #2 and #3, respectively. (C) According toMand Y, the vector x for every a
13、llele could be solved and the five clones could be reconstructed accordingly, as shown in (C). For example, the sequencing result of allele 2 is (3, 2, 1)T, equaling the dot-product of the vectorMwith the target vector x of (1, 1, 0, 1, 1)T, which means allele 2 is contained in clone 1, clone 2, clo
14、ne 4 and clone 5, but not in clone 3.Decoding Algorithm Alleles assignment M : pooling matrixY : count of allelej in the ith poolx: either 1 or 0, indicating if theclone contains the alleleLi C et al. Nucleic Acids Res. 201624解碼方法Figure 1. Illustration of 實(shí)驗(yàn)設(shè)計(jì) 25Experimental design (分組設(shè)計(jì))HapMap samp
15、le NA12878:produced two haplotype sequencesThe length of the clones followed a Poisson distribution, where the average length was approximately 140 kb. 130 110 clones were generated, with 6 clone coverage. 實(shí)驗(yàn)設(shè)計(jì) 27Experimental design (分組實(shí)驗(yàn)結(jié)果 Li C et al. Nucleic Acids Res. 2016The correct decoding rat
16、e for different combinations of various k (the percent of clones that are pooled in each pool), t (the number of pools) and dt values (the data throughput for each pool). The color and size of the circle denote the correct decoding rate for each scenario 解碼正確率隨混合池個(gè)數(shù)及數(shù)據(jù)通量的變化選擇最優(yōu)的混合測序參數(shù),以獲得最高的解碼正確率26實(shí)
17、驗(yàn)結(jié)果 Li C et al. Nucleic Acids實(shí)驗(yàn)結(jié)果 Li C et al. Nucleic Acids Res. 201627在1號染色體上,221,009個(gè)同時(shí)被來自于兩個(gè)同源染色體的克隆所覆蓋的變異位點(diǎn)中有220,734 (99.9%)個(gè)被準(zhǔn)確的恢復(fù)。Table 2. The statistics of the assembled haplotypes for chromosome 1 準(zhǔn)確地識別變異位點(diǎn) 構(gòu)建的單倍體更長實(shí)驗(yàn)結(jié)果 Li C et al. Nucleic Acids實(shí)驗(yàn)結(jié)果The number of alleles in each reconstructed clone sequence that support each haplotype in the diploid individual. Li C et al. Nucleic Acids Res. 2016我們的方法 能夠準(zhǔn)確判定alleles的歸屬 沒有錯(cuò)誤切換28Alleles were
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司消防宣傳片策劃方案
- 公司新客戶展示活動方案
- 公司聯(lián)誼團(tuán)建策劃方案
- 公司消防大比拼活動方案
- 2025年卓越領(lǐng)導(dǎo)力與團(tuán)隊(duì)管理考試試題及答案
- 2025年信息安全技術(shù)考試試卷及答案
- 2025年文案策劃師職業(yè)資格考試試題及答案
- 中班健康飲食教育活動方案
- 客戶服務(wù)心態(tài)培訓(xùn)
- 醫(yī)院收費(fèi)全流程管理規(guī)范
- GB/T 15814.1-1995煙花爆竹藥劑成分定性測定
- 煤礦安全規(guī)程露天部分參考題庫(含答案)
- 紫銅材質(zhì)證明
- 新產(chǎn)品評審管理辦法
- (參考)菲達(dá)公司國內(nèi)電除塵器業(yè)績表
- 游泳池水質(zhì)檢測記錄表
- 大學(xué)生職業(yè)生涯規(guī)劃與就業(yè)指導(dǎo)教案第5講:興趣探索
- 門店電表記錄表
- 七年級勞技 花卉種植 花卉用途 PPT學(xué)習(xí)教案
- 隧道換拱專項(xiàng)施工方案
- 國際金融托馬斯普格爾復(fù)習(xí)資料整理
評論
0/150
提交評論