真菌基因組denovo結(jié)題報(bào)告_第1頁
真菌基因組denovo結(jié)題報(bào)告_第2頁
真菌基因組denovo結(jié)題報(bào)告_第3頁
真菌基因組denovo結(jié)題報(bào)告_第4頁
真菌基因組denovo結(jié)題報(bào)告_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

總體工作流程概 實(shí)驗(yàn)流 生物信息分析流 結(jié) 數(shù)據(jù)概 2組概 3組組 3.1成 重復(fù)序 非編碼 4功能分 分泌蛋 比較 物種進(jìn) 信息挖掘推 方 原始數(shù)據(jù)的質(zhì) 組 3組組 3.1成 重復(fù)序 4功能分 分泌蛋 比較 物種進(jìn) ............................................................................................................................分析結(jié)果文件列 常用數(shù)據(jù)格式介 BLAST 進(jìn)化分 8................................................................................................................................... 真菌組Denovo結(jié)題報(bào)概述:通過IlluminaHiseq2000平臺(tái),樣品1產(chǎn)出xxMb數(shù)據(jù)。基于數(shù)據(jù)組裝得到樣品1組大小為xxxMb,GC含量xx%,共xx個(gè)scaffold,xx個(gè)contig。組組分rRNAxx個(gè)??傮w工作流程概述1實(shí)驗(yàn)流程。DNA樣品被接收后,對(duì)樣品進(jìn)行檢測(cè);然后用檢測(cè)合格的樣品構(gòu)建文庫:首先采用超聲法Covaris或者Bioruptor將大片段DNA(如組DNA、BAC或長(zhǎng)片段PCR產(chǎn)物)隨機(jī)打斷并產(chǎn)生主帶小于800bp的一系DNA片段,然后用T4DNAPolymerase、KlenowDNAPolymeraseT4PNK將打斷形成的粘性末端修復(fù)成平末端,再通3'端加堿基“A”DNA3'端帶有“T”堿基的特殊接頭連接,用電泳法選擇需回收的目的片段連接產(chǎn)物,再使用PCR技術(shù)擴(kuò)增兩端帶有接頭的DNA片段;最后,用合格的文庫進(jìn)行cluster和。生物信息分析流程圖2信息分析流程圖。(1)數(shù)據(jù)過濾:對(duì)原始數(shù)據(jù)下機(jī)數(shù)據(jù)進(jìn)行過濾,獲得CleanData;(2)組裝:使用SOAPdenovo1.05軟件對(duì)CleanData進(jìn)行組裝;(3)組組分分析,包括(a)成分;(b)重復(fù)序列分析,包括RepeatMasker,RepeatProteinMasker,Denovo和TRF四種方法;(c)非編碼RNA分析:包括rRNA、tRNA,sRNA、snRNA和miRNA;(4)功能分析,包括(a)通用功能注釋:使用GO、KEGG和Swiss-Prot,以及NR和COG數(shù)據(jù)對(duì)的ORF進(jìn)行功能注釋:(b)病原真菌分析:包括CAZy、PHI、P450數(shù)據(jù)庫注釋;(c)分泌蛋白;(5)比較組學(xué)分析,包括(a)結(jié)構(gòu)變異(共線性);(b)共有和特有;(c)物種進(jìn)化,包結(jié) Mb數(shù)據(jù)

樣品樣品

Lowquality

說明:InsertSize,插入片段長(zhǎng)度;ReadsLength,reads長(zhǎng)度;RawData,原始數(shù)據(jù)大小;Adapter,接頭所占比例;Duplicaiton,相同reads所占比例;Totalreads,總的reads條數(shù);Filteredreads,過濾掉reads所占百分比;Lowqualityfilteredreads,低質(zhì)量reads所占百分比;CleanData,交付數(shù)據(jù)大小。結(jié)果:Samplename/1.Cleandata/2組概組裝前通過K-mer分析初步判斷樣品的組大(參考實(shí)際以組裝結(jié)果為準(zhǔn)雜合情況和重復(fù)序列信息,結(jié)果顯示:樣品1組大小約為xxxMb,詳細(xì)如下圖所示圖2- 布,而在實(shí)際數(shù)據(jù)中,由于錯(cuò)誤的存在會(huì)導(dǎo)致低深度的K-mer數(shù)目占非常大的比例,同時(shí),對(duì)于某些

%, 個(gè)表2-1樣品1組組裝結(jié)果統(tǒng) TotalNum(#)TotalLength(bp)N50(bp)N90MaxLength(bp)MinLength(bp)SequenceGCScaffold在N處打斷之后的Contig圖2- GC含量與深(Depth)關(guān)聯(lián)分析統(tǒng)計(jì)圖。橫坐標(biāo)是GC含量,縱坐標(biāo)是平均深度3組組 bpC 個(gè) 個(gè)組組分分析后發(fā)現(xiàn),樣品2的組含有xx個(gè),總長(zhǎng)度為xxbp,其中外顯總

bpCDS

tRNAxx個(gè),rRNAxx個(gè)。表3-1組組分結(jié)果統(tǒng) GenomeSize(Mb)GCContent(%)NumberofGeneExons(#)CDS(#) LengthofGeneCDS(bp)Intron(bp)AverageLengthofGeneCDS(bp)Intron(bp)TotalLengthofRepeatSize(bp)RepeatSize/Genome(%)tRNANumber(#)rRNANumber(#)sRNANumber(#)snRNANumbermiRNANumber3.1成表3-2樣品1預(yù)測(cè)統(tǒng)計(jì)Gene Exons CDS Introne說明:GeneStat:的總體情況;ExonsStat:外顯子的總體情況;CDSStat:CDS的總體情況;IntroneStat:內(nèi)

兩類,后者主要包括長(zhǎng)散在重復(fù)序列(LongInterspersedElements,LINE)和短散在重復(fù)序列(ShortInterspersedElementsSINE)兩類。我們使用四種方法對(duì)以上重復(fù)序列進(jìn)行預(yù)測(cè),結(jié)

bp3-31 Repeatsize %in說明:Type:預(yù)測(cè)重復(fù)序列的方法;RepeatSize:重復(fù)序列的總長(zhǎng);%inGenome重復(fù)序列占組的百分比。Total是三種方法找到的重復(fù)序列去冗余后的總的結(jié)果。

Length %in Length %in Length %in Length %in數(shù)據(jù)庫預(yù)測(cè)出的轉(zhuǎn)座子的結(jié)果統(tǒng)計(jì);ProteinMaskTEs:用RepeatProteinMasker的預(yù)測(cè)結(jié)果;Denovo:使用Denovo方法的預(yù)測(cè)結(jié)果;CombinedTEs:綜合兩種方法的去冗余后結(jié)果。Total是幾類轉(zhuǎn)座子去冗余后的綜非編碼sRNA、rRNA、tRNA、snRNAmiRNA等,其中:sRNA:sRNA在微生物三個(gè)生物界中在細(xì)菌中被發(fā)現(xiàn)的較長(zhǎng)度在5SrRNA四種;nt(ORF,snRNA(small(spilceosome)的主要成3-51RNA %ingenomerRNA(bydenovo說明:從左到右分別為ncRNA的類型、ncRNA的個(gè)數(shù)、ncRNA的平均長(zhǎng)度、ncRNA的總長(zhǎng)度、占組結(jié) :Sample 4功能分通用功能注釋GO數(shù)據(jù)庫注GO的全稱是GeneOntology,1988年由本體創(chuàng)立本體論數(shù)據(jù)庫,其分為ComponentFunctionProcess KEGG數(shù)據(jù)庫注KEGG全稱為KyotoEncyclopediaofGenesandGenomes1995年由KanehisaLaboratories數(shù)據(jù)庫將生物通路劃分為八大類,每一大類下還有細(xì)分,每一類均標(biāo)示上與之相關(guān)的, Swiss-Prot數(shù)據(jù)庫注釋COG數(shù)據(jù)庫注COG,全稱是ClusterofOrthologousGroupsofproteins,由NCBI創(chuàng)建并的蛋白數(shù)據(jù)庫,根據(jù)細(xì)菌、藻類和真核生物完整組的編碼蛋白系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。通過比對(duì)可以將某個(gè)蛋白序列注釋到某一個(gè)COG中,每一簇COG由直系同源序列構(gòu)成,從而可以推測(cè)該序列的功能。COG數(shù)據(jù)庫按照功能一共可以分為二十五類,其統(tǒng)計(jì)結(jié)果如下圖: 功能注釋COG功能分類NR數(shù)據(jù)庫注并,其特點(diǎn)在于內(nèi)容比較全面,同時(shí)注釋結(jié)果中會(huì)包含有物種信息,可作物種分類用。結(jié) 病原真菌致病性研究病原與宿主互作數(shù)據(jù)庫(PHI)注PHIPathogenHostInctions,病原與宿主互作數(shù)據(jù)庫,其內(nèi)容經(jīng)過實(shí)驗(yàn)驗(yàn)證,主碳水化合物相關(guān)酶(CAZy)數(shù)據(jù)庫注釋CAZyCarbohydrate-ActiveenZYmesDatabase,碳水化合物酶相關(guān)的專業(yè)數(shù)據(jù)庫,內(nèi)容包括能催化碳水化合物降解,修飾,以及生物合成的相關(guān)酶系。其包含四個(gè)主要分還包含與碳水化合物相關(guān)的modules(Carbohydrate-BindingModules,CBMs。4-1134細(xì)胞色素P450數(shù)據(jù)庫注釋真菌細(xì)胞色素P450數(shù)據(jù)庫,來源113個(gè)真菌以及卵菌,共8,731個(gè)P450,根據(jù)基InterPro數(shù)據(jù)庫中的位置,一共分為16tribe-MCL2,579類。結(jié) :Samplename/4.Genome_Function/Pathogen_Fungus_ 比較結(jié)構(gòu)變異(共線性夠顯示序列的插入、缺失等信息。通過該項(xiàng)析可以獲得菌株間組在進(jìn)化過程中所發(fā)生結(jié)構(gòu)性變異情況(重排等,比如具有類似功能的簇在不同菌株中位置的變化等。圖5-1樣品1與參考序列xx核酸線性共線性圖。圖中橫軸是所測(cè)組,縱軸是參考物種組。圖中顏色較淺的水平或垂直的直線表示各個(gè)scaffold之間的分割。紅色線條為比對(duì)結(jié)果最優(yōu)的序列在兩個(gè)組上結(jié) 共有和特有分析比較不同菌株(3-4個(gè))的序列,共同擁有的為共有(多數(shù)為菌株生表5-1CorePan結(jié)果統(tǒng)Core- Pan-#Gene #Gene Totalsize 圖5-2所有菌株稀釋曲圖5-3去除Core后的熱結(jié) (MP,(ML,TreeBeST,PHYLIP等,這里我們使用TreeBeST構(gòu)建系統(tǒng)發(fā)育樹。5-4結(jié) :Samplename/6.結(jié) :Samplename/6.信息挖掘推薦數(shù)據(jù)庫數(shù)據(jù)注釋結(jié)果的初級(jí)應(yīng)用GOInterproquickGO數(shù)據(jù)庫,因此,該數(shù)據(jù)庫結(jié)果產(chǎn)果以*.iprscan.go結(jié)尾,因?yàn)镚O數(shù)據(jù)庫三大類之間互有,所以對(duì)于同時(shí)注釋上多個(gè)GO ;DNAbinding;MolecularFunction ;DNABiologicalFunction學(xué)途徑(BiologicalProcess;分子功能上其與DNA結(jié)合有關(guān),而在生物學(xué)途徑上則與DNA甲基化有關(guān);由此說明,該與DNA甲基化過程中的DNA結(jié)合有關(guān)。KEGG數(shù)據(jù)我們關(guān)注丙氨酸代謝通路相關(guān),這時(shí)我們可以通過關(guān)鍵字在*.kegg.list.anno中尋找含有 4e-126tbi:Tbis_0822 K00259ald alaninedehydrogenase Metabolism;AminoAcidMetabolism;Alanine,aspartateandglutamatemetabolism[PATH:ko00250]Metabolism;MetabolismofOtherAminoAcids;Taurineandhypotaurinemetabolism[PATH:ko00430] mau:Micau_2216K00135E1.2.1.16,gabDsuccinate-semialdehydedehydrogenase(NADP+) Metabolism;CarbohydrateMetabolism;Butanoatemetabolism[PATH:ko00650]Metabolism;AminoAcidMetabolism;Alanine,aspartateandglutamatemetabolism[PATH:ko00250]Metabolism;AminoAcidMetabolism;Tyrosinemetabolism[PATH:ko00350]級(jí)來看,其屬于氨基酸代謝中的丙氨酸、天冬氨酸和谷氨酸代謝(Alanine,aspartateandglutamatemetabolism,因此,該通路即是我們所需要尋找的通路。之后我們查看*. Gene001368,K13821,1.5.99.81.5.1.12情況,可以打開KEGG_MAP 下的map00250.png文件即可。Swiss-Prot數(shù)據(jù)庫Swiss-Prot較其他庫的優(yōu)點(diǎn)在于其結(jié)果通過了人工驗(yàn)證,可信度較高。比如某GO,KEGG以及Swiss-Prot數(shù)據(jù)庫注釋結(jié)果如下: ;membrane;CellularSwiss-Prot:{Y6609_RHOSRUPF0060membraneproteinRHA1_ro06609OS=Rhodococcussp.(strainRHA1)GN=RHA1_ro06609PE=3SV=1}由上面可見,Swiss-Prot的注釋結(jié)果最為完整,不僅說明了該的功能,還說明了驗(yàn)name,GN1:Evidenceatproteinlevel2:Evidenceattranscriptlevel3:Inferredfromhomology4:5:COG數(shù)據(jù)GGGOCOGNR:{UspA-containingprotein[JonesiadenitrificansDSMCOG:{COG0589UniversalstressproteinUspAandrelatednucleotide-bindingproteinsTSignaltransductionmechanisms;}GO:IPR006016;由上面注釋結(jié)果可以看出,KEGG注釋結(jié)果缺失;COG注釋到了與應(yīng)激、核苷酸結(jié)合相關(guān)的蛋白,其屬于信號(hào)轉(zhuǎn)導(dǎo)機(jī)制中的一部分;Swiss-Prot結(jié)果也驗(yàn)證了該與應(yīng)激相COG功能分類有其自身特點(diǎn),能夠彌補(bǔ)其他兩個(gè)分類數(shù)據(jù)庫(KEGG,GO)注釋結(jié)果不確NR識(shí),因此需要結(jié)合其他數(shù)據(jù)注釋結(jié)果進(jìn)行確定。另外,NR庫因?yàn)樵诮⒅蹙桶形锓N依然用Swiss-Prot使用的舉例,其在NR庫注釋結(jié)果為:{hypotheticalproteinBcav_0666BeutenbergiacavernaeDSM12333]},在沒有其他數(shù)據(jù)庫參考下,僅知道其為假定中注釋到的物種不一致,因此NR庫的物種注釋結(jié)果也僅作為參考。PHI數(shù)據(jù)(PH:XXX(TX:XXXCAZy數(shù)據(jù)GH55分EC編碼,但是有部分酶類的功能來源于文獻(xiàn)描述,這時(shí)候注釋結(jié)果中就是顯示NCBI的PMID信息。不同類型真菌組分析推病原真菌致病性研究動(dòng)物病原真菌致病性研究易被清除,為致病提供前提條件。如Blastomycesdermatitidis的cellwalladhesionWI-1蛋白通過非共價(jià)鍵相互作用,調(diào)節(jié)真菌細(xì)胞壁與單核巨噬細(xì)胞的“complementtype3receptors”的綁滲透和散播階段:動(dòng)物病原真菌侵染后,通過鄰近組織連續(xù)或進(jìn)入血液進(jìn)行散播。植物病原真菌致病性研究effector蛋白(其氨基酸的長(zhǎng)度與其功能也有一定2個(gè)轉(zhuǎn)運(yùn)系統(tǒng)。工業(yè)酵母表型關(guān)聯(lián)分析不同的酵母菌株在同樣的培養(yǎng)條件下有不同的表型(比如高產(chǎn)、耐受乙醇、是否可以直接利用木質(zhì)維素水解發(fā)酵等型的差異。為了找到與表型相關(guān)的組改變,首先通過組獲得不同表型的酵母菌株通較全差NP和InDel合的排。參考文獻(xiàn):SwinnenS,SchaerlaekensK,PaisT,ClaesenJ,HubmannG,etal.(2012)Identificationofnovelcausativegenesdeterminingthecomplextraitofhighethanoltoleranceinyeastusingpooled-segregantwhole-genomesequenceysis.GenomeRes22:975-984.PartsL,CubillosFA,WarringerJ,JainK,SalinasF,etal.(2011)Revealingthegeneticstructureofatraitbysequencingapopulationunderselection.GenomeRes21:1131-1138.Greene,J.P.,F.Morandi,etal.(2012).Whatisyourdiagnosis?InfectionwithdimorphicBlastomycesdermatitidis.JAmVetMedAssoc240(8):945-946.Mayer,F.L.,D.Wilson,etal.(2013).Candidaalbicanspathogenicitymechanisms.Virulence4(2):119-128.Islam,M.S.,M.S.Haque,etal.(2012).Toolstokill:genomeofoneofthemostdestructiventpathogenicfungiMacrophominaphaseolina.BMCGenomics13:493.Pedersen,C.,E.V.vanThemaat,etal.(2012).Structureandevolutionofbarleypowderymildeweffectorcandidates.BMCGenomics13(1):694.Rafiqi,M.,J.G.Ellis,etal.(2012).Challengesandprogresstowardsunderstandingtheroleofeffectorsinnt-fungalin ctions.CurrOpin ntBiol15(4):477-482.方原始數(shù)據(jù)的質(zhì)控平臺(tái)上產(chǎn)生的原始數(shù)據(jù)(RawData)存在一定比例低質(zhì)量數(shù)據(jù),為了使得后續(xù)分析 read1

bp

去除質(zhì)量值連續(xù)≤2的堿基數(shù)達(dá)到一定程度的reads(默認(rèn)40%,設(shè)置為xx個(gè) 去除adapter污(默認(rèn)adapter序列與read序列有15bp的overlap,設(shè)置 去除duplication上述的處理方式均同時(shí)對(duì)read1read2操作。該處理一般情況下會(huì)去除10%~20%的數(shù)據(jù)(小片段文庫數(shù)據(jù)。大片段文庫數(shù)據(jù)由于duplication比較高,去除數(shù)據(jù)量會(huì)比較多,沒有處理后的數(shù)據(jù)稱為CleanData。組再根據(jù)readspaired-endoverlap關(guān)系,對(duì)組裝結(jié)果進(jìn)行局部組裝和優(yōu)化。軟件:SOAPdenovo;版相關(guān):常用參數(shù)設(shè)置:–k*p8FM2d1-Ru-k*-o參考文獻(xiàn):Lietal(2010).Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing.GenomeResvol.20(2).Lietal(2008).SOAP:shortoligonucleotidealignmentprogram.BioinformaticsVol.243組組3.1成Homology(同源預(yù)測(cè))是通過組序列和參考蛋白集進(jìn)行比對(duì)來確定位置的,預(yù)測(cè)的結(jié)果特點(diǎn)是數(shù)目少,但是準(zhǔn)確率很高。通過genewise軟件預(yù)測(cè),用此方法需要提軟件:genewise[1];版本-- SNAP也是通過隱模型工作的,自身是沒有現(xiàn)成的訓(xùn)練集的,需要參考物種進(jìn)行訓(xùn)練集的構(gòu)建。如果要使用這個(gè)兩個(gè)軟件,必須尋找一個(gè)參考物種,得到它的組序列和位置信息的gff文件,自己來構(gòu)建訓(xùn)練集來進(jìn)行預(yù)測(cè)。<genome.fa> -- gram.hmm--prefix Augustus運(yùn)用隱模型,隱馬模型abinitio預(yù)測(cè)?;疽匕▋蓚€(gè)狀態(tài)(觀察狀態(tài)、隱含狀態(tài))和三個(gè)概率(初始概率、轉(zhuǎn)移概率和兩態(tài)對(duì)應(yīng)概率DNA序列和置信息的gff文件,自己來構(gòu)建訓(xùn)練集來進(jìn)行預(yù)測(cè)軟件:Augustus[3];版 -- --GeneMarkes是通過隱馬模型工作的,但是它不需要參考物種,是自身訓(xùn)練的,不需要軟件:Genemarkes[4];版相關(guān): 參考文獻(xiàn):BirneyE,ClampM,DurbinR(2004).GeneWiseandGenomewise.GenomeMay;14(5):988-Johnson,A.D.,Handsaker,R.E.,etal(2008).SNAP:Aweb-basedtoolforidentificationandannotationof SNPsusingHapMap.Bioinformatics,24(24):2938-2939.OliverKeller,MartinKollmar,etal(2011).Anovelhybridgenepredictionmethodemployingproteinmultiplesequencealignments.Bioinformatics,:10.1093/bioinformatics/btr010.Ter-HovhannisyanV.,LomsadzeA.,etal(2008).Genepredictioninnovelfungalgenomesusinganabinitioalgorithmwithunsupervisedtraining.GenomeResearch,Dec18(12):1979-90.Denovo方法來查找轉(zhuǎn)座子序列。具體RepeatMasker軟件(Repbase數(shù)據(jù)庫、RepeatProteinMasker軟件(使用RepeatMasker自帶的轉(zhuǎn)座子蛋白庫)Denovo(buildXDFDatabase軟件以自身序列建軟件:Repeatmasker[1];版本:3-3-相關(guān): –liblib文相關(guān): 參考文獻(xiàn):SuryaSaha,SusanBridges,etal(2008).Empiricalcomparisonofabinitiorepeatfindingprograms.NucleicAcidsResearch,Feb.G.Benson(1999).Tandemrepeatsfinder:aprogramto yzeDNAsequences.NucleicAcidsResearch,Vol.27,No.2,pp.573-580.非編碼RNA預(yù)測(cè)tRNA區(qū)域和tRNA的二級(jí)結(jié)構(gòu);通過Infernal軟件,與Rfam[3]數(shù)據(jù)庫進(jìn)行比對(duì)得到sRNA*注:通過比對(duì)方法找到的rRNA較為準(zhǔn)確但是不夠全面,尤其是在缺少近緣物種rRNA作為參考序列的情況下,就只能使用rRNAmmer軟件進(jìn)行從頭預(yù)測(cè)。軟件:RNAmmer相關(guān)常用參數(shù)設(shè)置:–s –m –gff*. –f相關(guān) –o*.tRNA–f*相關(guān)常用參數(shù)設(shè)置:–p –W –e –v –b –m –i 參考文獻(xiàn):Lagesenk,HallinP.F,R?dlandE,etal(2007).RNAmmer:consistentandrapidannotationofribosomalRNAgenes.Nucl.AcidsRes,35(9):3100-3108.LoweT.M,EddyS.R(1997).tRNAscan-SE:AProgramforImprovedDetectionofTransferRNAGenesinGenomicSequence.Nucl.AcidsRes.25(5):0955-964.GardnerP.P,DaubJ,TateJ.G.,etal(2009).Rfam:updatestotheRNAfamiliesdatabase.Nucl.AcidsRes.37(suppl1):D136-D140.4功能分成,提供的BLAST結(jié)果為M8格式,同時(shí)還提供部分?jǐn)?shù)據(jù)庫的注釋結(jié)果匯總。KyotoEncyclopediaofGenesandGenomes(KEGG1][2][3];版本:59ClusterofOrthologousGroupsofproteins(COG4][5];版本:GeneOntologyGO7]PathogenHostIn ctionsPHI)[8];版本:3.2FungalCytochromeP450Database[9];版本:1.1(參考文獻(xiàn):KanehisaM,GotoS,KawashimaS,OkunoY,HattoriM(2004).TheKEGGresourcefordecipheringthegenome.NucleicAcidsRes32(Databaseissue):D277–80.KanehisaM(1997).Adatabaseforpost-genomeysis.TrendsGenet13(9):KanehisaM,GotoS,HattoriM,Aoki-KinoshitaKF,ItohM,KawashimaS,etal.(2006).Fromgenomicstochemicalgenomics:newdevelopmentsinKEGG.NucleicAcidsRes34(Databaseissue):TatusovRL,KooninEV,LipmanDJ(1997).Agenomiconproteinfamilies.Science.Oct24;278(5338):631-7.TatusovRL,FedorovaNDetal.(2003).TheCOGdatabase:anupdatedversionincludeseukaryotes.BMCBioinformatics.Sep11;4:41.Magrane,M.andUniProtConsortium(2011).UniProtKnowledgebase:ahubofintegratedproteindata.Database(Oxford),bar009.BardJ,WinterR(2000).GeneOntology:toolfortheunificationofbiology.NatGenet.25:25-nVargasWA,MartínJMetal(2012).tdefensemechanismsareactivatedduringbiotrophicandnecrotrophicdevelopmentofColletotricumgraminicolainmaize.ntPhysiol.2012n,M.,etal(2007).TheCytochromeP450EngineeringDatabase:anavigationandpredictiontoolforthecytochromeP450proteinfamily.Bioinformatics.23,2015-2017.CantarelBL,CoutinhoPM,RancurelC,BernardT,LombardV,HenrissatB(2009).TheCarbohydrate-ActiveEnZymesdatabase(CAZy):anexpertresourceforGlycogenomics.NucleicAcidsRes37:D233-238(cTPmTPSPother功能注釋。other(cTP參數(shù):Lscore>0,Lscore=-918.235-123.455*(MeanS 軟件:TMHMM,版本:2.0參考文獻(xiàn):Klee,E.W.andL.B.Ellis(2005).Evaluatingeukaryoticsecretedproteinprediction.BMCBioinformatics6:256.EmanuelssonO,BrunakS,etal(2007).LocatingproteinsinthecellusingTargetP,SignalPandrelatedtools.NatProtoc.2007;2(4):953-71.比較結(jié)構(gòu)變異(共線性P1P2P2P1BLASTp比對(duì),對(duì)庫中的每個(gè)蛋白選取最好的比對(duì)結(jié)果,得到蛋白對(duì)(besthit);最后兩次比對(duì)一致的蛋白對(duì)保留,該蛋白對(duì)的一致值為兩次比對(duì)一致值的均值。將2中得到的蛋白對(duì),根據(jù)其位置信息,按相同比例縮小后標(biāo)到圖上。常用參數(shù)設(shè)置設(shè)置:-b200c65extendl參考文獻(xiàn):[1]S.Kurtz,A.Phillippy,A.L.etal(2004).Versatileandopensoftwareforcomparinglargegenomes.GenomeBiology,5:R12.共有和特有首先取參考菌株的集為Reference集,選取剩余樣品中的一個(gè)樣品Query集與Reference集進(jìn)行BLAST比對(duì),根據(jù)比對(duì)的長(zhǎng)度與identity值過濾比對(duì)結(jié)果,然后如果在Reference與Query中的BCR值均小于設(shè)定的閾值,則認(rèn)為Reference與Query為非同源,將Query加入到Reference集中,構(gòu)成一個(gè)新的Reference集。依次取樣品,重復(fù)進(jìn)行上述步驟,最后得到多個(gè)樣品的非冗余的Reference集即為多個(gè)樣品的Pan集。Reference與Query的BCR值計(jì)算如下:注:其中Match為二者比對(duì)有效長(zhǎng)度Length(R)為Reference長(zhǎng)度Length(Q)為Query長(zhǎng)度將每個(gè)樣品的集與最終的Pan集進(jìn)行比對(duì),計(jì)算Pan集中每個(gè)在每個(gè)軟件:BLAST;版本常用參數(shù)設(shè)置設(shè)置:-pblastnm8FFa3e1e-5參考文獻(xiàn):[1]Qin,J.,R.Li,etal.(2010).Ahumangutmicrobialgenecatalogueestablishedbymetagenomicsequencing.Nature464(7285):59-65.SNP矩陣構(gòu)建系統(tǒng)進(jìn)化樹。對(duì)于每一株菌,按照相同順序?qū)NPfasta格式的序列(其中一個(gè)為參考序列,作為輸入文件。用TreeBeST[1]的PHYML(最大似然法)算法構(gòu)建系統(tǒng)進(jìn)化樹,bootstraps參數(shù)設(shè)置為1,000。軟件:TreeBeST,版本:treebest-常用參數(shù)設(shè)置:treebestphyml-b1000參考文獻(xiàn):[1]TannisthaNandi,CatherineOng,ArvindPratapSingh,etal(2010).AGenomicSurveyofPositiveSelectioninBurkholderiapseudomalleiProvidesInsightsintotheEvolutionofAccidentalVirulence.PLoSPathogens6:1-15.采用Muscle軟件[1][2]對(duì)聚類的進(jìn)行多序列比對(duì)后,將蛋白質(zhì)比對(duì)結(jié)果轉(zhuǎn)化為CDS區(qū)域的氨基酸多序列比對(duì)結(jié)果;使用TreeBeST軟件[3]對(duì)Muscle多序列比對(duì)結(jié)果采用NJ法進(jìn)行的建樹分軟件:Muscle 常用參數(shù)設(shè)置設(shè)置:-inoutmaxiters軟件:TreeBeST,版本:treebest-: -b參考文獻(xiàn):Edgar,R.C.(2004)MUSCLE:multiplesequencealignmentwithhighaccuracyandhighthroughput.NucleicAcidsRes.32(5):1792-1797Edgar,R.C.(2004)MUSCLE:amultiplesequencealignmentmethodwithreducedtimeandspacecomplexityBMCBioinformatics,(5)113.TannisthaNandi,CatherineOng,ArvindPratapSingh,etal(2010).AGenomicSurveyofPositiveSelectioninBurkholderiapseudomalleiProvidesInsightsintotheEvolutionofAccidentalVirulence.PLoSPathogens6:1-15.分析結(jié)果文件列表||--Sample|||--[過濾后的數(shù)據(jù)|| |--|| |--|| |--*.Rawdata.[處理前堿基分布圖|| |--[處理前堿基質(zhì)量分布圖|| [處理后堿基分布圖|| [處理后堿基質(zhì)量分布圖|| |--|||--[組組裝結(jié)果|| |--[組裝結(jié)scaffold文件|| |--[組裝結(jié)contig文件|| |--|| |--[組裝結(jié)果統(tǒng)計(jì)|| |--[kmer分析圖|| [GC與深度分布圖|| [組組分分析結(jié)果|| |-- [組組分統(tǒng)計(jì)|| |--[預(yù)測(cè)結(jié)果|| |--[預(yù)測(cè)的GFF3格式文件|||||--[預(yù)CDS序列|||||--[的蛋白序列|||||--[長(zhǎng)度分布圖|||||--[的結(jié)果統(tǒng)計(jì)||||-[重復(fù)序列分析結(jié)果|||||--|||||--|||||--[RepeatProteinMasker的初始結(jié)果|||||--|||||--|||||--|||||--[重復(fù)序列的統(tǒng)計(jì)結(jié)果|||||--[轉(zhuǎn)座子的統(tǒng)計(jì)結(jié)果|||||--[串聯(lián)重復(fù)序列的統(tǒng)計(jì)結(jié)果||||-|||||--|||||--|||||--|||||--|||||--|||||--|||||--|||||--|||--[注釋結(jié)果|| [功能注釋結(jié)果||| |--||| |--[與GO數(shù)據(jù)庫的對(duì)應(yīng)情況||| |--[與wego的對(duì)應(yīng)情況||| |--[與IPR的對(duì)應(yīng)情況||| |--[所對(duì)應(yīng)的GO的二級(jí)分類統(tǒng)計(jì)直方圖||| |--||| |--||| |--||| |--[KEGG代謝通路圖注釋上的信息||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--[整合所有注釋結(jié)果的表格文件|||[致病真菌分析||| |--|||||--|||||--|||||--|||||--|||||--|||||-- |--6. [比較組分析|||[共線性分析的結(jié)果|||||--[共線性圖|||||--[兩個(gè)物種蛋白集的比對(duì)結(jié)果列表|||||--[兩個(gè)物種蛋白集的比對(duì)結(jié)果統(tǒng)計(jì)||||--[構(gòu)建系統(tǒng)發(fā)育樹|||||--*.|||||--*.|||||--*[用SNP序列構(gòu)建的系統(tǒng)發(fā)育樹||||--[分析的結(jié)果|||||--[的聚類結(jié)果|||||--[聚類結(jié)果的統(tǒng)計(jì)||||[單拷貝列表||||[單拷貝的統(tǒng)計(jì)|||||--*[各內(nèi)兩兩間的Ka/Ks結(jié)果|||||--*[的序列、比對(duì)及系統(tǒng)發(fā)育樹等信息||||--[共有-特有分析的結(jié)果|||||--[共有序列文件|||||--[共有在每個(gè)樣品中分布矩陣|||||--[非共有序列文件|||||--[非共有在每個(gè)樣品中分布矩陣|||||--[所有非冗余序列文件|||||--[所有非冗余在每個(gè)樣品中分布矩陣|||||--[統(tǒng)計(jì)結(jié)果文件|||||--[非共有在每個(gè)樣品聚類分布熱圖|||||--[共有溶解曲線圖|||||--[所有溶解曲線圖|||||--[聚類|||||--[菌株特異統(tǒng)計(jì)文件|||||--[菌株特異分析結(jié)果|||||--*.core-[菌株共有-特異的常用數(shù)據(jù)格式介紹1read1fastq文件x1.fq中第一條reads:+abb_aab_aa`a^aba^D[`a_`aaaa`_a_`aread2fastq文件x2.fqreads:+行說1@Reads23ReadsID(ReadsID可省略42 C469_1 C483_1 scaffold5 scaffold5 scaffoldyespaired-列 說組成目標(biāo)序列的contig或gap序片段類型(W-contig或N-片段ID或gap片段起始位置或gap類片段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論