生物信息學(xué)復(fù)習(xí)題及答案

上傳人：石*** IP屬地：廣東上傳時間：2020-02-09 格式：DOC 頁數(shù)：11 大?。?7.50KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)復(fù)習(xí)題一、名詞解釋生物信息學(xué), 二級數(shù)據(jù)庫, FASTA序列格式, genbank序列格式, Entrez，BLAST，查詢序列（query），打分矩陣（scoring matrix），空位（gap），空位罰分，E值, 低復(fù)雜度區(qū)域，點矩陣（dot matrix），多序列比對，分子鐘，系統(tǒng)發(fā)育（phylogeny），進化樹的二歧分叉結(jié)構(gòu)，直系同源，旁系同源，外類群，有根樹，除權(quán)配對算法（UPGMA），鄰接法構(gòu)樹，最大簡約法構(gòu)樹，最大似然法構(gòu)樹，一致樹（consensus tree），bootstrap，開放閱讀框（ORF），密碼子偏性（codon bias），基因預(yù)測的從頭分析法，結(jié)構(gòu)域（domain），超家族，模體（motif），序列表譜（profile），PAM矩陣，BLOSUM，PSI-BLAST，RefSeq，PDB數(shù)據(jù)庫，GenPept，折疊子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表譜（profile）。二、問答題1）生物信息學(xué)與計算生物學(xué)有什么區(qū)別與聯(lián)系？2）試述生物信息學(xué)研究的基本方法。 3）試述生物學(xué)與生物信息學(xué)的相互關(guān)系。4）美國國家生物技術(shù)信息中心（NCBI）的主要工作是什么？請列舉3個以上NCBI維護的數(shù)據(jù)庫。5）序列的相似性與同源性有什么區(qū)別與聯(lián)系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）簡述BLAST搜索的算法。8）什么是物種的標(biāo)記序列？9）什么是多序列比對過程的三個步驟？10）簡述構(gòu)建進化樹的步驟。11）簡述除權(quán)配對法（UPGMA）的算法思想。12）簡述鄰接法（NJ）的算法思想。13）簡述最大簡約法（MP）的算法思想。14）簡述最大似然法（ML）的算法思想。15）UPGMA構(gòu)樹法不精確的原因是什么？16）在MEGA2軟件中，提供了多種堿基替換距離模型，試列舉其中2種，解釋其含義。17）試述DNA序列分析的流程及代表性分析工具。18）如何用BLAST發(fā)現(xiàn)新基因？19）試述SCOP蛋白質(zhì)分類方案。20）試述SWISS-PROT中的數(shù)據(jù)來源。1）21）TrEMBL哪兩個部分？22）試述PSI-BLAST 搜索的5個步驟。2）三、操作與計算題1）如何獲取訪問號為U49845的genbank文件？解釋如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-19992）利用Entrez檢索系統(tǒng)，對核酸數(shù)據(jù)搜索，輸入如下信息，將獲得什么結(jié)果：AF114696:AF114714ACCN。 3) 相比使用BLAST套件搜索數(shù)據(jù)庫，BLAST2工具在結(jié)果呈現(xiàn)上有什么優(yōu)點？4） MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE格式的多序列比對文件？5）什么簡約信息位點Pi？6）以下軟件的主要用途是什么？RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 7) 為下面的序列比對確定比對得分：匹配得分= +1，失配得分= 0，空位得分= -1。TGTACGGCTATA TC - -CGCCT TA 8) 用UPGMA重建系統(tǒng)發(fā)生樹，距離矩陣如下：物種ABCDB9C811D121510E15181359）畫出4個物種的3棵不同的無根樹.這4個物種在某位置上的核苷酸分別是T,T,C和C,為每個內(nèi)部節(jié)點推斷的祖先序列標(biāo)出最可能的候選核苷酸，3棵可能的無根樹中有幾棵是一樣簡約的(因為他們有最小替換數(shù))?有幾棵樹的替換樹是2?有大于2個替換的樹嗎?10）如何將所研究的蛋白質(zhì)與其他相關(guān)蛋白質(zhì)做結(jié)構(gòu)比對。答案部分一、名詞解釋：生物信息學(xué)：研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科，其特征是多學(xué)科交叉，以互聯(lián)網(wǎng)為媒介，數(shù)據(jù)庫為載體。利用數(shù)學(xué)知識建立各種數(shù)學(xué)模型; 利用計算機為工具對實驗所得大量生物學(xué)數(shù)據(jù)進行儲存、檢索、處理及分析，并以生物學(xué)知識對結(jié)果進行解釋。二級數(shù)據(jù)庫：在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定目標(biāo)衍生而來，是對生物學(xué)知識和信息的進一步的整理。P11，第2段。FASTA序列格式：是將DNA或者蛋白質(zhì)序列表示為一個帶有一些標(biāo)記的核苷酸或者氨基酸字符串，大于號（）表示一個新文件的開始，其他無特殊要求。genbank序列格式：是GenBank 數(shù)據(jù)庫的基本信息單位，是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個部分：第一部分包含整個記錄的信息（描述符）；第二部分包含注釋；第三部分是引文區(qū)，提供了這個記錄的科學(xué)依據(jù)；第四部分是核苷酸序列本身，以“/”結(jié)尾。P13，第2段。Entrez檢索系統(tǒng)：是NCBI開發(fā)的核心檢索系統(tǒng)，集成了NCBI的各種數(shù)據(jù)庫，具有鏈接的數(shù)據(jù)庫多，使用方便，能夠進行交叉索引等特點。P83-85。BLAST：基本局部比對搜索工具，用于相似性搜索的工具，對需要進行檢索的序列與數(shù)據(jù)庫中的每個序列做相似性比較。P94查詢序列（query sequence）：也稱被檢索序列，用來在數(shù)據(jù)庫中檢索并進行相似性比較的序列。P98，第1段。打分矩陣（scoring matrix）：在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論（如考慮核酸和氨基酸之間的類似性）和實際進化距離（如PAM）兩類方法。P29，第2段?？瘴唬╣ap）：在序列比對時，由于序列長度不同，需要插入一個或幾個位點以取得最佳比對結(jié)果，這樣在其中一序列上產(chǎn)生中斷現(xiàn)象，這些中斷的位點稱為空位。P29，第2段。空位罰分：空位罰分是為了補償插入和缺失對序列相似性的影響，序列中的空位的引入不代表真正的進化事件，所以要對其進行罰分，空位罰分的多少直接影響對比的結(jié)果。P37，倒數(shù)第2段。E值：衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列（query）相匹配的隨機或無關(guān)序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味著序列的相似性偶然發(fā)生的機會越小，也即相似性越能反映真實的生物學(xué)意義。P95低復(fù)雜度區(qū)域：BLAST搜索的過濾選項。指序列中包含的重復(fù)度高的區(qū)域，如poly（A）。P100，第一段。點矩陣（dot matrix）：構(gòu)建一個二維矩陣，其X軸是一條序列，Y軸是另一個序列，然后在2個序列相同堿基的對應(yīng)位置（x，y）加點，如果兩條序列完全相同則會形成一條主對角線，如果兩條序列相似則會出現(xiàn)一條或者幾條直線；如果完全沒有相似性則不能連成直線。P39-41。多序列比對：通過序列的相似性檢索得到許多相似性序列，將這些序列做一個總體的比對，以觀察它們在結(jié)構(gòu)上的異同，來回答大量的生物學(xué)問題。P48，需要概括。分子鐘：認(rèn)為分子進化速率是恒定的或者幾乎恒定的假說，從而可以通過分子進化推斷出物種起源的時間。P112-113系統(tǒng)發(fā)育分析：通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀，可以研究推斷不同物種或基因之間的進化關(guān)系。P112，第一段。進化樹的二歧分叉結(jié)構(gòu)：指在進化樹上任何一個分支節(jié)點，一個父分支都只能被分成兩個子分支。P113，最后一段。系統(tǒng)發(fā)育圖：P114直系同源：指由于物種形成事件來自一個共同祖先的不同物種中的同源序列，具有相似或不同的功能。P28，P146旁系（并系）同源：指同一個物種中具有共同祖先，通過基因重復(fù)產(chǎn)生的一組基因，這些基因在功能上的可能發(fā)生了改變。P28，P147外類群：是進化樹中處于一組被分析物種之外的，具有相近親緣關(guān)系的物種。P120有根樹：能夠確定所有分析物種的共同祖先的進化樹。P113除權(quán)配對算法（UPGMA）：最初，每個序列歸為一類，然后找到距離最近的兩類將其歸為一類，定義為一個節(jié)點，重復(fù)這個過程，直到所有的聚類被加入，最終產(chǎn)生樹根。P119鄰接法（neighbor-joining method）：是一種不僅僅計算兩兩比對距離，還對整個樹的長度進行最小化，從而對樹的拓?fù)浣Y(jié)構(gòu)進行限制，能夠克服UPGMA算法要求進化速率保持恒定的缺陷。P118。最大簡約法（MP）：在一系列能夠解釋序列差異的的進化樹中找到具有最少核酸或氨基酸替換的進化樹。P120最大似然法（ML）：它對每個可能的進化位點分配一個概率，然后綜合所有位點，找到概率最大的進化樹。最大似然法允許采用不同的進化模型對變異進行分析評估，并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。P122一致樹（consensus tree）：在同一算法中產(chǎn)生多個最優(yōu)樹，合并這些最優(yōu)樹得到的樹即一致樹。P121自舉法檢驗（Bootstrap）：放回式抽樣統(tǒng)計法。通過對數(shù)據(jù)集多次重復(fù)取樣，構(gòu)建多個進化樹，用來檢查給定樹的分枝可信度。P122開放閱讀框（ORF）：開放閱讀框是基因序列的一部分，包含一段可以編碼蛋白的堿基序列。P131密碼子偏好性（codon bias）：氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致，大多數(shù)高效表達的基因僅使用那些含量高的同功tRNA所對應(yīng)的密碼子，這種效應(yīng)稱為密碼子偏好性。P133基因預(yù)測的從頭分析：依據(jù)綜合利用基因的特征，如剪接位點，內(nèi)含子與外顯子邊界，調(diào)控區(qū)，預(yù)測基因組序列中包含的基因。P134-145簡約信息位點：指基于DNA或蛋白質(zhì)序列，利用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時，如果每個位點的狀態(tài)至少存在兩種，每種狀態(tài)至少出現(xiàn)兩次的位點。其它位點為都是非簡約性信息位點。P121,第2行結(jié)構(gòu)域（domain）：保守的結(jié)構(gòu)單元，包含獨特的二級結(jié)構(gòu)組合和疏水內(nèi)核，可能單獨存在，也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。P158模體（motif）：短的保守的多肽段，含有相同模體的蛋白質(zhì)不一定是同源的，一般10-20個殘基。P161,最后一行PAM矩陣：PAM指可接受突變百分率。一個氨基酸在進化中變成另一種氨基酸的可能性，通過這種可能性可以鑒定蛋白質(zhì)之間的相似性，并產(chǎn)生蛋白質(zhì)之間的比對。一個PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進化時間。P30-31BLOSUM矩陣：模塊替代矩陣。矩陣中的每個位點的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個矩陣適合特定的進化距離。例如，在BLOSUM62矩陣中，比對的分值來自不超過62%一致率的一組序列。P34折疊子（Fold）：在兩個或更多的蛋白質(zhì)中具有相似二級結(jié)構(gòu)的大區(qū)域，這些大區(qū)域具有特定的空間取向。P162TrEMBL：是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列，并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。P21PDB（Protein Data Bank）：PDB中收錄了大量通過實驗（X射線晶體衍射，核磁共振NMR）測定的生物大分子的三維結(jié)構(gòu)，記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號由一個數(shù)字和三個字母組成（如，4HHB），同時支持關(guān)鍵詞搜索，還可以FASTA程序進行搜索。P22MMDB(Molecular Modeling Database)：是（NCBI）所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個部分，數(shù)據(jù)庫的內(nèi)容包括來自于實驗的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比，對于數(shù)據(jù)庫中的每一個生物大分子結(jié)構(gòu)，MMDB具有許多附加的信息，如分子的生物學(xué)功能、產(chǎn)生功能的機制、分子的進化歷史等，還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。?SCOP數(shù)據(jù)庫：提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進化關(guān)系的詳細(xì)描述，包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進化關(guān)系信息外，對于每一個蛋白質(zhì)還包括下述信息：到PDB的連接，序列，參考文獻，結(jié)構(gòu)的圖像等?？梢园唇Y(jié)構(gòu)和進化關(guān)系對蛋白質(zhì)分類，分類結(jié)果是一個具有層次結(jié)構(gòu)的樹，其主要的層次依次是類（class）、折疊子（fold）、超家族（super family）、家族（family）、單個PDB蛋白結(jié)構(gòu)記錄。P23PROSITE：是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫，包含具有生物學(xué)意義的位點、模式、可幫助識別蛋白質(zhì)家族的統(tǒng)計特征。 PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；PROSITE還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計特征，能更敏感地發(fā)現(xiàn)一個序列是否具有相應(yīng)的特征。 P22RefSeq：給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼，對應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。?PSI-BLAST：位點特異性迭代比對。是一種專門化的的比對，通過調(diào)節(jié)序列打分矩陣（scoring matrix）探測遠(yuǎn)緣相關(guān)的蛋白。P97Gene Ontology 協(xié)會：編輯一組動態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會。從3個方面描述基因產(chǎn)物的性質(zhì)，即，分子功能，生物過程，細(xì)胞區(qū)室。表譜（PSSM）：指一張基于多序列比對的打分表，表示一個蛋白質(zhì)家族，可以用來搜索序列數(shù)據(jù)庫。P97比較基因組學(xué)：P148二、問答題1緒論1）生物信息學(xué)的發(fā)展經(jīng)歷了那幾個階段2）生物信息學(xué)步入后基因組時代后，其發(fā)展方向有哪幾個方面。1）請列舉3個以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。答：P83 2）序列的相似性與同源性有什么區(qū)別與聯(lián)系？答：相似性是指序列之間相關(guān)的一種量度，兩序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物種具有共同的祖先，強調(diào)進化上的親緣關(guān)系。P1473）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？答：blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進行比較；Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比較，可以尋找較遠(yuǎn)的關(guān)系；Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比對，對分析新序列和EST很有用；Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列（雙鏈）按不同的閱讀框進行比對，對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用；Tblastx只在特殊情況下使用，它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列，然后進行蛋白質(zhì)序列比對。P974）簡述BLAST搜索的算法思想。答：BLAST是一種局部最優(yōu)比對搜索算法，將所查詢的序列打斷成許多小序列片段，然后小序列逐步與數(shù)據(jù)庫中的序列進行比對，這些小片段被叫做字”word”；當(dāng)一定長度的的字（W）與檢索序列的比對達到一個指定的最低分（T）后，初始比對就結(jié)束了；一個序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定，獲得高分的序列叫做高分匹配片段（HSP），程序?qū)⒆詈玫腍SP雙向擴展進行比對，直到序列結(jié)束或者不再具有生物學(xué)顯著性，最后所得到的序列是那些在整體上具有最高分的序列，即，最高分匹配片段（MSP），這樣，BLAST既保持了整體的運算速度，也維持了比對的精度。P955）什么是物種的標(biāo)記序列？答：指物種特有的一段核苷酸序列?？梢酝ㄟ^相似性查詢，得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn)，且在其他物種中沒有的明顯相似的序列。6）什么是多序列全局比對的累進算法？答：第一，所有的序列之間逐一比對（雙重比對）；第二，生成一個系統(tǒng)樹圖，將序列按相似性大致分組；第三，使用系統(tǒng)樹圖作為引導(dǎo)，產(chǎn)生出最終的多序列比對結(jié)果。P527）簡述構(gòu)建進化樹的步驟，每一步列舉1-2種使用的軟件或統(tǒng)計學(xué)方法。答：（1）多序列比對：Clustal W （2）校對比對結(jié)果：BIOEDIT（3）建樹：MEGA（4）評估系統(tǒng)發(fā)育信號和進化樹的牢固度：自舉法（Bootstrap）P1148）簡述除權(quán)配對法（UPGMA）的算法思想。答：通過兩兩比對聚類的方法進行，在開始時，每個序列分為一類，分別作為一個樹枝的生長點，然后將最近的兩序列合并，從而定義出一個節(jié)點，將這個過程不斷的重復(fù)，直到所有的序列都被加入，最后得到一棵進化樹。P1199）簡述鄰接法（NJ）構(gòu)樹的算法思想。答：鄰接法的思想不僅僅計算最小兩兩比對距離，還對整個樹的長度進行最小化，從而對樹的拓?fù)浣Y(jié)構(gòu)進行限制。這種算法由一棵星狀樹開始，所有的物種都從一個中心節(jié)點出發(fā)，然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列，每一輪過程中考慮所有可能的序列對，把能使樹的整個分支長度最小的序列對一組，從而產(chǎn)生新的距離矩陣，直到尋找所有的近鄰序列。P11710）簡述最大簡約法（MP）的算法思想。P68答：是一種基于離散特征的進化樹算法。生物演化應(yīng)該遵循簡約性原則，所需變異次數(shù)最少（演化步數(shù)最少）的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中，分為非加權(quán)最大簡約分析（或稱為同等加權(quán)）和加權(quán)最大簡約分析，后者是根據(jù)性狀本身的演化規(guī)律（比如DNA不同位點進化速率不同）而對其進行不同的加權(quán)處理。P12011）簡述最大似然法（ML）的算法思想。P69答：是一種基于離散特征的進化樹算法。該法首先選擇一個合適的進化模型，然后對所有可能的進化樹進行評估，通過對每個進化位點的替代分配一個概率，最后找出概率最大的進化樹。P12212）UPGMA構(gòu)樹法不精確的原因是什么？P69答：由個于UPGMA假設(shè)在進化過程中所有核苷酸/氨基酸都有相同的變異率，也就是存在著一個分子鐘；這種算法當(dāng)所構(gòu)建的進化樹的序列進化速率明顯不一致時，得到的進化樹相對來說不準(zhǔn)確的。P119,倒數(shù)第2段，前4行。13) 在MEGA2軟件中，提供了哪些堿基替換距離模型，試列舉其中3種，解釋其含義。答：堿基替換模型包括，No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distance：表示有差異的核苷酸位點在序列中所占比例，將有差異的核苷酸位點數(shù)除已經(jīng)比對的總位點數(shù)就可以得到Jukes-Cantor：模型假設(shè) A T C G 的替換速率是一致的，然后給出兩個序列核苷酸替換數(shù)的最大似然估計Kimura 2-parameter：模型考慮到了轉(zhuǎn)換很顛換隊多重?fù)糁械挠绊?，但假設(shè)整個序列中4鐘核苷酸的頻率是相同哈德在不同位點上的堿基替換頻率是相同的14）列舉5項DNA序列分析的內(nèi)容及代表性分析工具。答：（1）尋找重復(fù)元件：RepeatMasker （2）同源性檢索確定是否存在已知基因：BLASTn （3）從頭開始方法預(yù)測基因：Genscan （4）分析各種調(diào)控序列：TRES/DRAGON PROMOTOR FINDER (5) CpG島：CpGPlot P130，表格15）如何獲取訪問號為U49845的genbank文件？解釋如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 答：（1）訪問NCBI的Entrez檢索系統(tǒng)，（2）選擇核酸數(shù)據(jù)庫，（3）輸入U49845序列訪問號開始檢索。第一項是LOCUS名稱，前三個字母代表物種名第二項是序列長度第三項是序列分子類型第四項是分子為線性的第五項是GenBank分類碼第六項是最后修訂日期 P1316）利用Entrez檢索系統(tǒng)對核酸數(shù)據(jù)搜索，輸入如下信息，將獲得什么結(jié)果：AF114696:AF114714ACCN。P35 答：獲得序列訪問號AF114696到AF114714之間的連續(xù)編號的序列。17）MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE格式的多序列比對文件？答：（1）選擇菜單file，（2）選擇Text File Editor and Format Coverter 工具，（3）調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式，（4）獲得轉(zhuǎn)換后的MEGA格式的文件并保存。18）為下面的序列比對確定比對得分：匹配得分= +1，失配得分= 0，空位得分= -1。TGTACGGCTATA TC - -CGCCT -TA 答：TT1GC0T-1A-1CC1GG1GC0CC1TT1A-1TT1AA1最后得分1+0+（-1）+（-1）+1+1+0+1+1+（-1）+1+1=419) 用UPGMA重建系統(tǒng)發(fā)生樹，距離矩陣如下：物種ABCDB9C811D121510E1518135答：用Newick格式表示的樹圖：（AC）B）（DE）。分析過程：（1）兩條序列間的最小距離是dDE,所以物種D和E聚到一組，如下圖。EDDE (2) 計算新的距離矩陣，其中復(fù)合物種（DE）替換D和E，如下表。其他物種與新物種組之間的距離由它們與組中兩個物種（D和E）之間距離的平均值決定,如，d（DE）A=1/2（dAD+dAE）=1/2(12+15)=13.5物種ABCB9C811DE13.516.511.5 第二次聚類在A和C之間，組成AC類。如下圖，CA ED(AC)(DE)(3) 將A和C合并，計算新的矩陣，如下表，最后一次聚類（AC）B）將物種B的分支點放在（AC）和（DE）的共同祖先之間。物種BACAC10DE16.512.5BCA ED(AC)B)(DE)20) 畫出4個物種的3棵不同的無根樹.這4個物種在某位置上的核苷酸分別是T,T,C和C,為每個內(nèi)部節(jié)點推斷的祖先序列, 標(biāo)出最可能的候選核苷酸. 3棵可能的無根樹中有幾棵是一樣簡約的(因為他們有最小替換數(shù))?有幾棵樹的替換樹是2?，有大于2個替換的樹嗎?答：2棵一樣簡約，替換樹為2；2棵；沒有。21) 以下軟件的主要用途是什么？RepeatMasker, CpGPlot, Spli

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息學(xué)復(fù)習(xí)題及答案

文檔簡介

溫馨提示

最新文檔

評論

生物信息學(xué)復(fù)習(xí)題及答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔