專家講解如何分析測序數(shù)據(jù)(下).doc_第1頁
專家講解如何分析測序數(shù)據(jù)(下).doc_第2頁
專家講解如何分析測序數(shù)據(jù)(下).doc_第3頁
專家講解如何分析測序數(shù)據(jù)(下).doc_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

專家講解如何分析測序數(shù)據(jù)(下)測序確實是越來越快,也越來越便宜了。隨著個人型測序儀的不斷上市,許多實驗室也躍躍欲試,準備開展這方面的研究。然而,前輩告訴我們,測序并不難,真正困難的工作是數(shù)據(jù)分析。目前有不少用于基因組裝配和比對的程序和算法,但是該選哪一個呢?許多序列分析的專家認為,這取決于基因組的大小、讀取有多長,以及采用的是哪種測序技術(shù)。通常,軟件還需要優(yōu)化,以滿足每個實驗室的獨特需求。為了讓大家更好地開展數(shù)據(jù)分析,Genome Technology雜志特邀了一些這方面的專家,與大家分享他們在數(shù)據(jù)分析方面的經(jīng)驗。通過他們的一問一答,希望您也能從中受益。Q1:您使用哪個基因組裝配或比對軟件,為什么?Q2:您采用哪種方法進行多個序列比對?詳見專家講解如何分析測序數(shù)據(jù)(上)Q3:您如何優(yōu)化原始數(shù)據(jù),以便獲得最佳的裝配或比對結(jié)果?Inna Dubchak(美國能源部聯(lián)合基因組研究所)我們的比對方法最適合裝配好的數(shù)據(jù)。原始數(shù)據(jù)最好由局部比對程序來處理。Li-jun Ma(馬薩諸塞大學(xué))質(zhì)量過濾是關(guān)鍵的一步。我們總是過濾原始讀取,除去低質(zhì)量的讀取,修剪接頭序列,并除去修剪后非常短的讀取。Bud Mishra(紐約大學(xué))TotalReCaller使用原始強度測序數(shù)據(jù)和參考序列來改善堿基檢出,并優(yōu)化比對結(jié)果。既然它使用參考序列,那么似乎不適合de novo序列裝配;然而,在近期Giuseppe Narzisi的博士論文中,作者表明通過boot-strap方法,TotalReCaller和SUTTA聯(lián)合可顯著改善裝配質(zhì)量。Mihai Pop(馬里蘭大學(xué))我主要依靠錯誤修剪工具,如fastx toolkit。有時我也使用錯誤糾正工具,但我擔心在某些情況下,這些工具可能引入錯誤。我個人傾向于拋棄可疑的序列,即便它們占據(jù)了相當?shù)谋壤?,而不是試圖糾正錯誤。例如,在16S研究中,我拋棄那些有一個含糊代碼或者太短的序列,通常我會拋棄25-30%的數(shù)據(jù)。測序成本正變得足夠低,且通量足夠高,我們可以承受這些浪費。Steven Salzberg(約翰霍普金斯大學(xué)醫(yī)學(xué)院)我們經(jīng)?;ㄙM大量精力來修剪載體和低質(zhì)量序列,這取決于任務(wù)。對于全基因組測序項目,我們運行錯誤糾正軟件(如Quake)來修復(fù)錯誤的堿基檢出。一些基因組裝配工具干得很好,自己能除去低質(zhì)量的數(shù)據(jù)或糾正錯誤,但另一些不行。如果讀取是配對的,且片段足夠短,配對讀取能夠重疊,那么我們運行另一個程序,在裝配之前將這些配對片段融合成更長的序列。Robert Settlage(弗吉尼亞生物信息學(xué)研究所)我們的首選方法是猛烈的修剪。如果它看似個接頭,去掉。如果它質(zhì)量有疑問,去掉。通常我們有足夠的讀取,因此最好猛烈一點。我們之后常將數(shù)據(jù)補回,看它是否分辨了一些模棱兩可。Q4:確認裝配或比對準確性的最佳方法是什么?Inna Dubchak(美國能源部聯(lián)合基因組研究所)這是個很難的問題。通常我們使用基因組覆蓋度統(tǒng)計數(shù)字,并與其他確立的比對方法比較。Jim Kent(加州大學(xué)圣克魯茲分校)對于裝配:與已知參考基因組比較(如果有的話),檢查mRNA/基因組比對,或檢查配對讀取相對基因組的比對。Ian Korf(加州大學(xué)戴維斯分校)這是個很難的問題。我們通常不知道正確的答案。對基因組的一部分測序可能非常有用。另一個有用的方法是尋找如高度保守的基因或長轉(zhuǎn)錄本。對于序列比對,它取決于你所作的搜索類型。主要有兩種搜索,我稱之為定位(mapping)和探索(exploring)。在定位序列時,一條序列與另一條序列是相同,或幾乎相同的。例如,開展ChIP-seq分析,你需要將讀取定位回參考序列。你希望比對是相同的,但如果它們有一些錯誤或多態(tài)性也能接受。如果有一些完美比對,你認為比對是準確的。在探索遠親關(guān)系時,比如尋找蛋白的同源物,錯配和缺口是意料之中的。如果你的序列是已知蛋白家族的一部分,你的確認策略應(yīng)當包括,比對與家族的其他成員相符合,也就是說,該家族的保守部分在兩兩比對中也同樣保守。Li-jun Ma(馬薩諸塞大學(xué))確認裝配準確性的方法包括:1)將裝配定位到染色體或連鎖圖上;2)將裝配與任何已知序列比較,如PCR產(chǎn)物、基因、粘粒、BAC或質(zhì)粒的序列;3)如有必要,PCR擴增你有疑問的基因組區(qū)域,以確認裝配的準確性。Bud Mishra(紐約大學(xué))由于SUTTA是為自我確認而設(shè)計的,它在裝配過程中不斷驗證。我們也開發(fā)了一種新的度量辦法,稱為Feature-Response Curve,它能捕獲contig覆蓋之間的交換,以及不同的準確性特征。最近,我們還設(shè)計了新的統(tǒng)計學(xué)分析工具,能更好地了解各個傳統(tǒng)特征之間的關(guān)系,并捕獲這些特征的核心結(jié)構(gòu)。Steven Salzberg(約翰霍普金斯大學(xué)醫(yī)學(xué)院)準確性有很多內(nèi)部和外部的測定。如果使用的話,外部測定非常有用,我指的是與真正的基因組比較。有時這不可能,但對于已知物種如人的重裝配,我們還是能夠檢查。內(nèi)部測定包括mate-pair距離、配對讀取的方向,和覆蓋深度。我們檢查這些參數(shù)。我的同事A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論