多序列比對與Clustal的使用以及各類常見的序列分析工具介紹.ppt_第1頁
多序列比對與Clustal的使用以及各類常見的序列分析工具介紹.ppt_第2頁
多序列比對與Clustal的使用以及各類常見的序列分析工具介紹.ppt_第3頁
多序列比對與Clustal的使用以及各類常見的序列分析工具介紹.ppt_第4頁
多序列比對與Clustal的使用以及各類常見的序列分析工具介紹.ppt_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多序列比對與Clustal的使用,以及各類常見的序列分析工具介紹,中山大學生科院 2004年10月,內(nèi)容提要,第一部分:多序列比對 意義、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw 第二部分:常見的序列分析軟件分類簡介,第一部分: 多序列比對及Clustal的使用,序列相似性比較和序列同源性分析,序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等; 序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;,多序列比對的意義,用于描述一組序列之間的相似性關系,以便了解一個基因家族的基本特征,尋找motif,保守區(qū)域等。 用于描述一個同源基因之間的親緣關系的遠近,應用到分子進化分析中。 其他應用,如構建profile,打分矩陣等。,同源性分析中常常要通過多序列比對來找出序列之間的相互關系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。這樣對于采用計算機程序的自動多序列比對是一個非常復雜且耗時的過程,特別是序列數(shù)目多,且序列長的情況下。,多序列比對的方法,多序列比對的方法,基本上多序列比對可以分為 1.手工比對(輔助編輯軟件如bioedit,seaview,Genedoc等) 通過輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來改變比對的狀態(tài)。 2.計算機程序自動比對 通過特定的算法(如同步法,漸進法等),由計算機程序自動搜索最佳的多序列比對狀態(tài)。,自動多序列比對的算法,1.同步法 將序列兩兩比對時的二維動態(tài)規(guī)劃矩陣擴展到三維矩陣。即用矩陣的維數(shù)來反映比對的序列數(shù)目。這種方法的計算量很大,對于計算機系統(tǒng)的資源要求比較高,一般只有在進行少數(shù)的較短的序列的比對的時候才會用到這個方法。,自動多序列比對的算法,2.步進法 最常見的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有進化相關性的這一假設。,Clustal的漸進比對過程,在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進行比對,計算相似性分值。根據(jù)相似性分值繼續(xù)分組比對,直到得到最終比對結(jié)果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠的序列添加在后面。,多序列比對工具 clustal,Clustal是一個單機版的基于漸進比對的多序列比對工具,由Higgins D.G. 等開發(fā)。有應用于多種操作系統(tǒng)平臺的版本,包括linux版,DOS版的clustlw,clustalx等。,Clustal簡介,CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構建距離矩陣,反應序列之間兩兩關系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關系密切的序列進行加權;然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構建比對,直到所有序列都被加入為止。,Clustalx的工作界面 (多序列比對模式),Clustalx的工作界面 (剖面(profile)比對模式),Clustal的工作原理,Clustal輸入多個序列,快速的序列兩兩比對,計算序列間的距離,獲得一個距離矩陣。,鄰接法(NJ)構建一個樹(引導樹),根據(jù)引導樹,漸進比對多個序列。,Clustal的應用,1.輸入輸出格式。 輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。,2.兩種工作模式。 a.多序列比對模式。 b.剖面(profile)比對模式。 3.一個實際的例子。,Clustal的應用,多序列比對實例,輸入文件的格式(fasta): KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSN HYKVGRRIGEGSFGVIFEGTNLLNN,第一步:輸入序列文件。,第二步:設定比對的一些參數(shù)。,參數(shù)設定窗口。,第三步:開始序列比對。,第四步:比對完成,選擇保存結(jié)果文件的格式,Clustalw的使用(一),Clustalw還提供了命令調(diào)用形式的使用方式,方便于批處理過程,下面是一個典型的執(zhí)行多序列比對的clustalw命令: $ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gcg -align,Clustalw的使用(二),在線的clustalw分析,EBI提供的在線clustalw服務 http:/www.ebi.ac.uk/clustalw/,EBI提供 的在線 Clustalw 服務,更為詳細的教程,可以在這里得到更多關于clustal的幫助: http:/www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html,實際操作(練習),使用clustalx程序,對給定的多序列,選擇合適的參數(shù),進行多序列比對,輸出結(jié)果文件維phylip格式。 相同的文件,使用ebi和我們提供的在線服務,進行多序列比對。 對上述計算機程序比對的結(jié)果進行手工改動(bioedit,seaview),使得多序列比對結(jié)果跟符合要求。,SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAIS AAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVC TIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW HELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIA AAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVC WIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW TELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVN AASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQ CzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSIS RAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVP ASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDW PELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPR QNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIY ENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVT AAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVL CIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASIS RAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFT TPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQ FHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQ TAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHH TTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTAS PAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL,練習序列,第二部分: 常見的序列分析軟件分類簡介,GCG EMBOSS(免費) Vector NTI DNAstar Bioedit(免費) 其他,1.綜合序列分析軟件包,GCG(商業(yè)軟件),GCG (Genetics Computer Group)是生物信息界最廣為人知的分子序列分析軟件包,最早是在美國的威斯康辛大學麥迪遜校區(qū)(University of Wisconsin-Madison)內(nèi)發(fā)展起來的,后來獨立成為一個商業(yè)公司,期間曾經(jīng)是Oxford Molecular 的分支機構,在2000 年又由Pharmacopeia 所并構。,GCG 軟件包包括了超過130個獨立的序列分析程序,大致上可以分成以下12個類別: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation,除了分析程序以外, GCG 同時也提供多種生物學數(shù)據(jù)庫。 核酸相關的: GenBank(/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白質(zhì)相關的: SWISS-PROT (http:/www.expasy.ch/sprot/) PIR (/pir/) SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以輸入自己實驗獲得的分子序列, 或者從這些數(shù)據(jù)庫中來獲取得到分子序列,再用到GCG的分析程序進行分析。,GCG的工作方式(S-C) 安裝在基于Unix系統(tǒng)的服務器上,目前可以安裝的平臺(platform)有SGI 的IRIX 操作系統(tǒng),SUN 的Solaris操作系統(tǒng),及Compaq 的Tru64操作系統(tǒng),用戶可以通過網(wǎng)絡連接的方法來使用GCG提供的分析程序以及數(shù)據(jù)庫。,1.傳統(tǒng)的命令行形式,這種情況要求用戶熟悉程序的命令。 2.借助SeqLab的用戶窗口界面,通過各類表單的操作來實現(xiàn)分析任務。 以上兩個執(zhí)行GCG的方法都是通過telnet來實現(xiàn)的。 3. 借助于WWW服務的SeqWeb,是最為簡單和方便的使用方式。 雖然命令行的操作需要一些操作,但是對于熟悉GCG的用戶來說,卻是最為快捷和有效的方法,此外這種方法還可以擴展到批處理中。,執(zhí)行GCG程序的方法,EMBOSS(免費軟件),EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商業(yè)軟件GCG的擴展),由于版權等原因,EGCG不再發(fā)行,開發(fā)人員在此基礎上開發(fā)出來公開源代碼的EMBOSS軟件包。 http:/www.sanger.ac.uk/Software/EMBOSS,Vector NTI,由Informax公司(現(xiàn)在已經(jīng)歸入Invitrogen公司旗下)開發(fā)的一種高度集成、功能齊全的分子生物學應用軟件,可以對DNA、蛋白質(zhì)分子進行大量分析和操作。,主要功能: 1.DNA序列的ORF、Motif、功能區(qū)搜索,限制酶圖譜,蛋白質(zhì)翻譯。 2.PCR引物、測序引物、雜交探針的設計和評價。 3.DNA測序片斷的拼接 4.同源比較和系統(tǒng)發(fā)育樹構建 5.蛋白質(zhì)結(jié)構預測:三維結(jié)構、化學鍵、翻譯后修飾位點、結(jié)構域等 6.模擬電泳:瓊脂糖、PAGE,DNAstar,DNASTAR有限公司開發(fā)了Lasergen程序組,可在計算機上進行DNA和蛋白分析。它們是易于使用且對用戶友好的軟件,可進行分子生物學中的小規(guī)模序列分析和多序列比較。Lasergen有PC Windows和Macintosh兩種版本。Lasergen的一個主要功能是它有針對不同應用的7種程序。用戶可根據(jù)自己需要選擇購買。,主要功能: 1. Editseq,可以從鍵盤、數(shù)據(jù)庫或數(shù)字序列輸入和編輯。 2. PrimerSelect,PCR引物和探針設計。 3. MapDraw,限制性位點分析和圖譜繪制。 4. MegAlign,多個和成對蛋白或DNA序列比對。 5. GeneMan,生物數(shù)據(jù)庫和數(shù)據(jù)庫檢索。 6. Protean,蛋白結(jié)構分析。 7. SeqMan,序列裝配和毗連(序列)群管理。,Bioedit,是一個性能優(yōu)良的免費的分子生物學應用軟件,可以對核酸序列和蛋白質(zhì)序列進行常規(guī)的分析操作,并提供了很多網(wǎng)絡程序的分析界面和接口。 /BioEdit/bioedit.html,2.快速同源性數(shù)據(jù)庫搜索工具,Blast Fasta HMMer,HMMER,HMMer 是一個采用隱馬可夫模型 HMMs(Hidden Markov Models)來識別不同基因之間的結(jié)構相似性程度的工具。可以快速的在數(shù)據(jù)庫中尋找與特定基因具有一定相似性的基因結(jié)構。 /,3.多序列比對工具,Clustal 基于漸進算法的多序列比對優(yōu)化算法,由Higgins D.G. 等開發(fā)。Clustlw,clustalx等。 其他:T_coffee,PHYLIP PAUP* 其他:Mega2,MrBayes,tree-puzzle PAML,treeview,4.分子進化分析工具,PHYLIP,Phylip是一個免費的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。 由華盛頓大學遺傳學系開發(fā),1980年首次公布,目前的版本是3.6。包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 http:/evolution.genetics,/phylip.html,PAUP*,最早是在蘋果機上開發(fā)的具有菜單界面的進化分析軟件,早先版本只有MP法,后續(xù)版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,該軟件不是免費軟件,使用者需要向開發(fā)者購買。,5.其他工具,模式識別:Meme,signalscan, domainFinder等 測序分析與序列拼接:Chromas, Phred+Phrap+cross_match+consed, contigExpress等 引物設計:Oligo,Primer3, Primer Premier5.0等 三維分子:PDBviewer,CN3D,RASMOL等,序列分析工具的網(wǎng)絡資源,生物軟件網(wǎng) NCBI Expasy /,生物軟件網(wǎng),由華北制藥集團的談杰創(chuàng)建,是一個具有豐富生物信息學資源的站點,提供了大量的生物信息學分析軟件下載。 ,NCBI,美國國立生物技術信息中心(NCBI) 成立于1988年11月4日。是在NIH的國立醫(yī)學圖書館(NLM)的一個分支。NLM是因為它在創(chuàng)立和維護生物信息學數(shù)據(jù)庫方面的經(jīng)驗被選擇的,而且這可以建立一個內(nèi)部的關于計算分子生物學的研究計劃。NCBI的任務是發(fā)展新的信息學技術來幫助對那些控制健康和疾病的基本分子和遺傳過程的理解。 主要資源包括:數(shù)據(jù)庫和軟件,以及相關的教育 和培訓資源,,Expasy,由位于瑞士日內(nèi)瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白質(zhì)數(shù)據(jù)庫之一 ,也是 GCG 最主要的蛋白質(zhì)序列來源。 Expasy的主 要 有蛋白質(zhì)序列、結(jié)構、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多個數(shù)據(jù)庫 ,還有大量的蛋白質(zhì)序列與結(jié)構分析工具以及FTP資源等。 蛋白質(zhì)分析工具主要有蛋白質(zhì)的功能預測,序列搜索與比對,二級、三級和四級結(jié)構的預測等等。 /,操作系統(tǒng) Unix(Linux),Windows, Macintosh 編程 語言:perl,C,php,VB 算法:動態(tài)規(guī)劃,啟發(fā)式,各類模型 數(shù)據(jù)結(jié)構:表,棧,樹,圖 數(shù)據(jù)庫 Mysql,Oracle,SQL server,Sybase 網(wǎng)絡 局域網(wǎng)構架與管理,并行化,網(wǎng)絡應用(http,ftp,telnet),計算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論