基因組測序的原理與方法_第1頁
基因組測序的原理與方法_第2頁
基因組測序的原理與方法_第3頁
基因組測序的原理與方法_第4頁
基因組測序的原理與方法_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、大規(guī)?;蚪M測序的原理與方法,元素周期表的發(fā)現(xiàn)奠定了二十世紀物理、化學研究和發(fā)展的基礎,元素周期表,“基因組序列圖”將奠定二十一世紀生命科學研究和生物產(chǎn)業(yè)發(fā)展的基礎!,“基因組”-生命科學的“元素周期表”,人體解剖圖奠定了現(xiàn),代醫(yī)學發(fā)展的基礎,生命的奧秘蘊藏于 “四字天書”之中,gcttcttcctcattttctcttgccgccaccatgccgccacca tcattttctcttgccgccaccatgcttcttcctcattttctct ccaccatgccgccaccacgccaccatgcttcttcctcatctc gctttcttgccgccaccatgccgccaccgc

2、ttcttccttctct,基因組學的基礎理論研究,基因組學是要揭示下述四種整合體系的相互關系: 基因組作為信息載體 (堿基對、重復序列的整體守恒與局部不平衡的關系)dna水平 基因組作為遺傳物質(zhì)的整合體 (基因作為功能和結(jié)構(gòu)單位與遺傳學機制的關系) rna水平 基因組作為生物化學分子的整合體 (基因產(chǎn)物作為功能分子與分子、細胞機制的關系)蛋白質(zhì)水平 物種進化的整合體 (物種在地理與大氣環(huán)境中的自然選擇),基因組學是一個大學科,“界門綱目科屬種”,地球上現(xiàn)存物種近億,所有生生滅滅的生物,無一例外,都有個基因組。 基因組作為信息載體,它所儲存的信息是最基本的生物學信息之一;既是生命本質(zhì)研究的出發(fā)

3、點之一,又是生物信息的歸宿。 基因組學研究包括對基因產(chǎn)物(轉(zhuǎn)錄子組和蛋白質(zhì)組)的系統(tǒng)生物學研究。 基因多態(tài)性的規(guī)?;芯烤褪腔蚪M多態(tài)性的研究。 基因組學的研究必然要上升到細胞機制、分子機制和系統(tǒng)生物學的水平。 基因組的起源與進化和物種的起源與進化一樣是一個新的科學領域。 基因組信息正在以天文數(shù)字計算,規(guī)?;胤e累,它的深入研究必將形成一個嶄新的學科。,基因組學是一門大科學,基因組的信息是用來發(fā)現(xiàn)和解釋具有普遍意義的生命現(xiàn)象和它們的變化、內(nèi)在規(guī)律、和相互關系。 基因組的信息含量高?;蚪M學的研究又在于基因組間的比較。 基因組學的復雜性必然導致多學科的引進和介入(各生物學科、醫(yī)學、藥學、計算機科

4、學、化學、數(shù)學、物理學、電子工程學、考古學等)。 基因組學研究的手段和技術(shù)已經(jīng)走在生命科學研究的最前沿。 基因組信息來自于高效率和規(guī)模化所產(chǎn)生的實驗數(shù)據(jù)。 人類基因組計劃證明了基因組研究的迫切性和可行性。,基因組與生命之謎,基因組的產(chǎn)生與進化。 基因組dna組分的變化、gc百分比、嘌呤:嘧啶守恒。 遺傳密碼的發(fā)生、發(fā)展和進化。 內(nèi)含子(尤其是大于100,000 核苷酸的大內(nèi)含子)剪出后的運輸和降解。 最小內(nèi)含子的生物學意義。 動物基因組與植物基因組在基因分布上的共性和個性。 物種衍變過程中基因組水平的變化。 基因組大小變化與遺傳、分子、細胞機制的關系。 “junk dna”的發(fā)生、分類、進化與

5、功能。,genbank 基因組數(shù)據(jù)的增長情況,數(shù)據(jù)來源:http:/,近30年及預測將來dna測序技術(shù)的發(fā)展,摘自stratton mr等,2009,目前市場主要的測序平臺比較,數(shù)據(jù)來源:http:/,每兆堿基對(mbp)序列測序所需成本圖,來源:/sequencingcosts/,大規(guī)?;蚪M測序的幾個支撐技術(shù),sanger雙脫氧末端終止法 pcr 技術(shù) dna 自動測序儀的發(fā)展 生物信息學分析軟硬件設施,“雙脫氧末端終止”的含義,pcr(聚合酶鏈式反應)原理,反應所需物質(zhì):dna模板、引物、dna聚合 酶、dntp、緩沖液 每個循環(huán)包括:變性(94或

6、95 )、退火(54 )、延伸(72 ) 退火的溫度是改變的,50-65之間。 延伸的時間不固定,,sanger 雙脫氧末端終止法測序原理,大 規(guī) ?;蚪M 測 序 的 兩 種 策 略,逐步克隆法 (clone by clone) 全基因組霰彈法 (whole genome shot-gun),atgccgtaggcctagc taggcctagctcgga,atgccgtaggcctagctcgga,基因組dna,bac文庫,根據(jù)物理圖譜正確定位的bac 或contig,用于霰彈法測序的候選克隆,用于霰彈法測序的亞克隆,測序并組裝,完整的基因組序列,逐步克隆法(clone by clone)

7、,全基因組霰彈法 (whole genome shot-gun),基因組dna,霰彈法克隆,測序并進行全基因組序列組裝,完整的基因組序列,兩種大規(guī)模基因組測序策略的比較,bac by bac,whole genome shotgun, the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue. maynard v. olson , the maps: clone

8、by clone by clone , nature 409, 816 - 818 (2001),“working draft” (90%; 4x),finished genome (99.99%; 8x),gap1,gap2,chromosome,工作草稿(框架圖)與完成圖,bac by bac,the sequence of the human genome c. venter et al. science 16 feb. 291: 1304 1351, 2001,人類基因組計劃研究的主要成果和進展表現(xiàn)在這“四張圖”上,遺傳圖譜 又稱為連鎖圖譜(linkage map),指基因或dna標志

9、在染色體上的相對位置與遺傳距離 物理圖譜 以定位的dna標記序列如sts作為路標,以dna實際長度即bp、kb、mb為圖距的基因組圖譜。 轉(zhuǎn)錄圖譜 利用est(expressed sequence tags 表達序列標簽)作為標記所構(gòu)建的分子遺傳圖譜 序列圖譜 通過基因組測序得到的,以a、t、g、c為標記單位的基因組dna序列,逐步克隆法(clone by clone),物理圖譜的構(gòu)建,大片段克隆的篩選,霰彈法測序與“工作框架圖”的構(gòu)建,序列的全組裝與“完成圖”構(gòu)建,物理圖譜的制作,物理圖譜的制作序列標簽位點(sts)作圖,物理圖譜是以特異的dna序列為標志所展示的染色體圖。標志之間的距離或圖

10、距以物理距離如堿基對(base pair;bp,kb , mb)表示。最精細的物理圖是核苷酸順序圖,最粗略的物理圖是染色體組型圖。 sts圖譜是最基本和最為有用的染色體物理圖譜之一,sts(sequence tagged site)本身是隨機地從人類基因組上選擇出來的長度在200300bp左右的特異性短序列(每個sts在基因組中是唯一的,sts圖譜就是以sts為路標(平均每100kb一個),將dna克隆片段有序地定位到基因組上。,sts的來源,隨機基因組序列 表達基因序列,如est 遺傳標記序列,如微衛(wèi)星標記,有關sts的信息可在基因組數(shù)據(jù)庫gdb中找到 http:/gdbwww. gdb.

11、org,物 理 圖 譜 構(gòu) 建 的 步 驟,確定各sts序列及其在基因組中的位置 大插入片段基因組文庫的構(gòu)建(bac文庫) 以特定sts為標記篩 選并定位克隆 含有sts的克隆在基因組中排序,基因組數(shù)據(jù)庫(gdb)中至少含有24568 個sts路標信息,關 于 文 庫,作為載體的基本要求,能在宿主細胞中進行獨立的復制 具有多克隆位點,可插入外源 dna片段 有合適的篩選標記,如抗藥性 大小合適,易于分離純化 拷貝數(shù)多,文庫的概念 含有某種生物體全部基因組的隨機片段的重組dna克隆群體,載體:能攜帶外源dna進入宿主細胞的工具,常用的載體有質(zhì)粒載體、噬菌體載體、細菌人工染色體等,宿主:能容納外源

12、dna片段的生物體,常用的有大腸桿菌、酵母等,bac文庫的構(gòu)建,noti、saci,脈沖場凝膠電泳得200kb左右的大片段dna,純化后與載體連接,電轉(zhuǎn)化,將連接產(chǎn)物導入大腸桿菌感受態(tài)細胞,插有外源dna片段的bac載體,在含有氯霉素的固體培養(yǎng)基中培養(yǎng),每一個菌落為帶有相同外源dna片段的單克隆,bac克隆的篩選,“sts-pcr反應池”方案篩選種子克隆,特定的sts標記,相互間具有重疊片段的bac克隆根據(jù)sts信息組裝成contig,并定位于基因組上,contig,每一個菌落為帶有相同外源dna片段的單克隆,regional mapping,regional mapping,minimal

13、tiling path selected for sequencing.,regional mapping,beijing map,共48個,每組 8 個,每8個96孔板組成1個superpool,384個96孔板組成48個superpools,48 superpools,column pools row pools,1 2 3 4 5 6 7 8 9 10 11 12,第八板,第二板,plate pools第一板,plate pools,row pools,column pools的構(gòu)成,“sts-pcr反應池”方案(pooling protocol),1 2 3 4 5 6 7 8 9 1

14、0 11 12,超級池(8個96孔板,共768個克?。?板池(96個克隆),行池(12個克?。?列池(8個克隆),大大減少篩選的工作量,降低成本,所得篩選結(jié)果準確可靠,28 vs 768,sheet of superpools, plate pools, row pools, column pools,一 bac screening 前48個樣品為引物ogg1.51對superpool(sp)的篩選結(jié)果 后48個樣品為引物ogg1.52對superpool(sp)的篩選結(jié)果,引物ogg1.52對應sp#27,34,45的plate,row,column pools的篩選結(jié)果,bac clone

15、 確定 (+為陽性克隆),引物ogg1.52的colony-pcr,延 伸 克 隆 的 篩 選,sts的密度尚未達到繪制高精度物理圖譜的要求,且在基因組中的分布不均勻,造成很多區(qū)域沒有陽性克隆覆蓋,形成空洞。因此需用指紋圖譜(fpc法)或末端序列(walking by end sequence)步移等手段對種子克隆進行延伸,形成連續(xù)克隆群。利用延伸方法篩選得到的克隆稱為延伸克隆。,contig 1,contig 2,重疊序列,重疊序列,延伸引物,篩選到的延伸克隆,molecular weight marker every 5th lane,bac clones 在96深孔 板中培養(yǎng) - hin

16、d iii 完全酶切 - 1% 瓊脂糖凝膠電泳,指 紋 圖 譜 法 (walking by fingerprinting database),挑取靠近空洞的種子克隆,酶切構(gòu)建其指紋圖譜,在fpc數(shù)據(jù)庫中進行比對,搜索含有此克隆的重疊克隆群信息,從中確定覆蓋空洞區(qū)域的克隆,達到延伸目的。,hind iii 完全酶切,hind iii 完全酶切,fpc數(shù)據(jù)庫中比對,clone a,clone b,clone c,c,a,b,contig搭建中克隆的錯位,末端序列步行法 (walking by end sequence) 挑取靠近空洞的種子克隆進行末端測序,然后在基因組數(shù)據(jù)庫中進行比對,確定專一性的

17、序列片段作為新的sts路標。最后設計新路標的pcr引物,按照stspcr“反應池”方案篩選新的克隆,達到延伸的目的 。,克隆350a18序列輸入 end sequence database的查詢結(jié)果,四、clone identification 1、sts-pcr 2、bac end sequencing 3、fingerprinting 4、fish,ck2,ck1,ck2,ck1,13f06,267l16,481o07 250a15,204c23,340j13,對15個克隆進行hindiii酶切后電泳結(jié)果,“工作框架圖”繪制,根據(jù)序列與sts database進行blastn比較結(jié)果,將克

18、隆定位末端序的比較, 判定延伸在contig外的一端序列。并可及時進行walking,篩選新的克隆,霰彈法測序組裝與finishing,工作流程圖,shotgun sequencing i :random phase,bac clone: 100-200 kb,sheared dna: 1.0-2.0 kb,sequencing templates:,random reads,shotgun sequencing ii:assembly,consensus,consensus,shotgun sequencing iii: finishing,consensus,shotgun sequenc

19、ing iii: finishing,consensus,shotgun sequencing iii: finishing,consensus,shotgun sequencing iii: finishing,shotgun sequencing iii: finishing,consed軟件顯示序列組裝結(jié)果界面,1、filling “intraclone gaps”,gap filling by end sequences,2、filling “interclone gaps”,the actual and predicted fingerprint of r-260j13 digest

20、ed with hindiii lane 1: marker, lane 2: r-260j13 digested with hindiii, 3 : the predicted,克隆211b19組裝后的序列的錯誤率為零,whole genome shotgun,this bacterium has a circular genome structure with 2,689,445 base pairs, the second largest one of thermophiles decoded completely to date.,circular representation of

21、the genome of t. tengcongensis,what is under heaven is for all. sun yat-sen, the father of modern china,天下為公,http:/ ddbj/embl/genbank:aaaa01000000,國際一流測序生產(chǎn)線 7萬克隆,3000萬堿基/天 高產(chǎn)出、低成本: $/bp¥/bp美分/bp分/bp,基因組學: 數(shù)據(jù)導向的大科學 有數(shù)據(jù)才是硬道理,世上無難事 只要肯登攀,contigs:127,550 (n50=6,688 bp),scaffolds: 102,444 (n50=11,764 bp)

22、,quality: 546 bp at q20,de novo sequencing the genome in big,hu songnian,beijing institute of genomics, chinese academy of sciences,next generation sequencing (ngs) technology,second generation sequencers,solexa,3,solid,5,de novo sequencing rna-seq, re-sequencing chip-seq, meth-seq,metagenomics de n

23、ovo sequencing rna-seq,re-sequencing chip-seq rna-seq,“known” genome,novel genome(s),both types,1x454 5xsolid4.0 2x5500 xl 3xsolexa 2xhiseq 2000 3x3730 xl 1xsequenom,1000 cpu cores,800 tb storage,數(shù)據(jù)中心,完善的試驗與測序體系和流程,強有力的計算、存儲及數(shù)據(jù)庫支持體系,成熟的生物信息數(shù)據(jù)處理和分析流程,2021/4/13,second generation sequencers in big,高通量測

24、序儀10臺,3730xl測序儀2臺,sequenom儀器1臺,高性能計算機刀片服務器100余臺,大內(nèi)存服務器4臺,存儲設備約800tb。,sequencing glossary,reads. a collection of clones that over-sample the target genome. pair-end reads. sequence reads derived from both ends of a sequencing-library clone. mate-pair reads. sequence reads derived from both ends of a

25、mate-pair library clone which insert size is usually 1kb. insert size. the size of the clone-insert from which a clone-end pair is taken. contig. the result of joining an overlapping collection of sequence reads. scaffold. the result of connecting non-overlapping contigs by using pair-end reads. n50

26、 size. as applied to contigs or scaffolds, that size above which 50% of the assembled sequence can be found.,genome assembly strategy,contig assembly,scafffolding,internal gap closing,http:/,recent whole genome sequencing projects,flowchart of the wgs de novo assembly,fill in intra-scaffold gaps and

27、 get the final scaffolds,solexa part,454 part,hybrid assembly and scffolding,454 reads process,assembly,hybrid scaffolding,solexa reads process,assembly,mapping to 454 contig,hybrid scaffolding,cov /comp,long reads,assembly,contigs,short reads,a +,c ,b ,scaffolding,a +,b ,c ,scaffolds,fix gap,hybrid

28、 assembly,est,unigene,scaf a,scaf c,scaf b,scaf d,new scaf,a,b,c,d,est based assembly in short reads of ngs: constructe biger scaffording,raw sequencing reads pre-processing i,significance and purpose,sequencing library quality control sequencing bias analysis inherited prosperities on certain secon

29、d generation sequencer genome sequencing black hole effect transcriptome sampling and quantification bias ready for mapping ready for de novo assembly,raw sequencing reads pre-processing ii,sequencing reads numbers duplicates detection, regional distribution analysis and trimming adapter detection a

30、nd trimming reads quality analysis and low quality reads filter average quality density distribution average quality positional distribution regional distribution f-r correlation gc content-quality correlation insert length distribution,pipeline,raw data pre-process,image analysis and basecalling,go

31、at pipeline (olb1.6), casava,quality control,gerald summary.htm,fastq and quality,solexa reads of the fastq format s_1_1_sequence.txt hwi-eas724_0001:8:32:374:374#0/1 gagctgtatatgaataatagttcgtttttcattatccaagatggatcggtataaagtctgctaaaataaaggtacaacg +hwi-eas724_0001:8:32:374:374#0/1 fcfcfggdfggggfggggc

32、ggggggggfgggggcgggfwgggggggggfgcggdgcgcggggfacbbbbgcgggggd s_1_2_sequence.txt hwi-eas724_0001:8:32:374:374#0/2 taccgttaatagcagtaatatcataatagtaatagcatcataacggtagtcccataaaagtgtgtcagtagtagtagta +hwi-eas724_0001:8:32:374:374#0/2 ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedbd_cyb,ill

33、umina 1.3 format encodes a phred quality score from 0 to 40 using ascii 64 to 104 error probability (p):,# for solexa: p = 0.01, q = 19; p = 0,05, q = 12.8, p = 0.10, q = 9.5; # for phred: p = 0.01, q = 20; p = 0,05, q = 13, p = 0.10, q = 10;,data assessment i read quality distribution,low quality h

34、igh quality,trim: 3 end trim if qn 30) 60 assessment: distance distrubition between two low quality (q20),454 dinucleotide proportion check,454 raw reads quality,data assessment ii library insert size,numbers of reads with non-insert dna (full length adapter) in different insert size libraries,data

35、assessment iii mapping rate,solexa sequencing data usage in 500bp library,data assessment iv duplication assessment,duplicates detection and filter,f,r,n,n,2n,qaverage 20 ?,lane data usage in different solexa library- fiter duplication reads,average reads per startpoint,read correctioncorrect illumi

36、na ga short reads,kmer = 17,genome size prediction: m = n * ( l-k+1)/l n = total length (bp) /genome size l= average rads length (bp),m,genome size estimation using kmer,before estimating the genome size, we set a hypothesis: the k-mer we picked out from the genome can ergodic the whole genome seque

37、nce.according to the lander waterman algorithm, the algorithm should be represented as: g= knum / kdepth here, g is the genome size, knum is the total number of k-mer and kdepth is the expected depth of the k-mer. if we obtain the expected depth of k-mer, we can calculate the genome size. because th

38、e distribution of k-mer frequency yields to poisson distribution, we can consider the peak of the k-mer distribution curve as the expected depth of k-mer and calculate the genome size.,note: a total of 15,437,084,746 kmers, the peak value on the right figure is 8, so the genome size is estimated as:

39、 15,437,084,746/8=1.93g,high quality read rate after preprocess,assembly: raw data vs preprocessed data ?,questions,genome size estimation methods (k-mer & cov) assembly optimization (parameters) assembly evaluation (454_solexa est) unmappable solexa reads reuse (filter-assemble) scaffolding comparison (abi & big & bambus & blat)solexa to solid feasible? assembly assessment (bac, 3730, necessary ?),sequencing strategy

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論