醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第1頁
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第2頁
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第3頁
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第4頁
醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析專家講座_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基因表示數(shù)據(jù)取得與分析徐娟Email:xujuan8475@163.com生物信息教研室分子學(xué)館106辦公室醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第1頁一、基因表示概念基因經(jīng)過轉(zhuǎn)錄、翻譯,產(chǎn)生含有特異生物學(xué)功效蛋白質(zhì)分子過程。*基因表示(geneexpression)基因表示是受調(diào)控!基因表示是指基因轉(zhuǎn)錄及翻譯過程。在該過程中,每一步都被嚴(yán)格調(diào)整和控制,這些調(diào)整控制作用包含控制基因表示開始、行進(jìn)和終止,也包含調(diào)整基因表示強(qiáng)弱及表示產(chǎn)物即蛋白質(zhì)合成多少等,產(chǎn)生含有特異生物學(xué)功效蛋白質(zhì)分子,從而賦予細(xì)胞或個(gè)體一定功效或形態(tài)表型。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第2頁(二)空間特異性在個(gè)體生長全過程,某種基因產(chǎn)物在個(gè)體按不一樣組織空間次序出現(xiàn),稱之為基因表示空間特異性(spatialspecificity),又稱細(xì)胞或組織特異性(cellortissuespecificity)

。二、基因表示含有時(shí)間及空間特異性(一)時(shí)間特異性按功效需要,某一特定基因表示嚴(yán)格按特定時(shí)間次序發(fā)生,稱之為基因表示時(shí)間特異性(temporalspecificity),又稱階段特異性(stagespecificity)

。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第3頁鼠和人基因組表示調(diào)控~80%基因是“完全一樣”共享~99%類似基因腦和肝表示調(diào)控基因完全相同正常肝醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第4頁中心法則基因組(genome):一個(gè)物種整套(單倍體)遺傳物質(zhì)總和稱為該物種基因組?;蚪M學(xué)(genomics)結(jié)構(gòu)基因組學(xué):以全基因組測序?yàn)槟繕?biāo)功效基因組學(xué):以基因功效判定為目標(biāo),又被稱為后基因組轉(zhuǎn)錄組(transcriptome):基因組表示最初產(chǎn)物,既是某種細(xì)胞在特定時(shí)間下,基因衍生而來RNA分子集合。轉(zhuǎn)錄組學(xué)(transcriptomics)蛋白質(zhì)組(proteome):RNA分子直接合成基因組表示終產(chǎn)物,即細(xì)胞內(nèi)全部蛋白質(zhì)總和。蛋白質(zhì)組學(xué)(proteomics)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第5頁轉(zhuǎn)錄組學(xué)轉(zhuǎn)錄組學(xué)(transcriptomics),是一門在整體水平上研究細(xì)胞中基因轉(zhuǎn)錄情況及轉(zhuǎn)錄調(diào)控規(guī)律學(xué)科。簡而言之,轉(zhuǎn)錄組學(xué)是從RNA層面研究基因表示情況。了解轉(zhuǎn)錄組是解讀基因組功效元件和揭示細(xì)胞及組織中分子組成所必需RNA信使RNA(mRNA)3%~4%核糖體RNA(rRNA)>70%轉(zhuǎn)運(yùn)RNA(tRNA)>15%microRNA(調(diào)控基因表示)………………DNA(Gene)Protein

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第6頁數(shù)據(jù)挖掘挑戰(zhàn)-----高維性醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第7頁數(shù)據(jù)挖掘挑戰(zhàn)-----高維性M個(gè)geneN1個(gè)疾病樣本、N2個(gè)正常樣本醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第8頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第9頁內(nèi)容安排基因表示數(shù)據(jù)取得與分析基因表示檢測方法表示數(shù)據(jù)取得、預(yù)處理基于表示數(shù)據(jù)發(fā)覺知識(廣義知識、關(guān)聯(lián)知識、分類知識、預(yù)測知識、偏差知識)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第10頁基因表示檢測方法基因芯片二代測序醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第11頁基因芯片發(fā)展歷史和趨勢基因芯片是上世紀(jì)九十年代,伴隨計(jì)算機(jī)技術(shù)和基因組測序技術(shù)發(fā)展而發(fā)展起來一個(gè)新型生物技術(shù),它能夠平行、高通量地監(jiān)測成千上萬基因轉(zhuǎn)錄本表示水平,從而為系統(tǒng)地監(jiān)測細(xì)胞內(nèi)mRNA分子表示狀態(tài)進(jìn)而推測細(xì)胞功效狀態(tài)提供了可能。1995年Schena(Science,1995)等人,把擬南芥45個(gè)基因固定在一張玻片上,并行檢測擬南芥45個(gè)基因表示情況,這是第一次結(jié)合了高精度機(jī)械手點(diǎn)樣系統(tǒng)、熒光標(biāo)識技術(shù)、雙通道熒光掃描技術(shù)和數(shù)據(jù)分析軟件,是第一次真正意義上用DNA芯片技術(shù)進(jìn)行基因表示分析應(yīng)用。部分基因組被測序微生物全基因DNA芯片問世,如:釀酒酵母,大腸桿菌。人類、小鼠和水稻等物種全基因組芯片。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第12頁近年Medline收錄發(fā)表“DNAmicroarray”相關(guān)論文基因芯片技術(shù)經(jīng)過十多年發(fā)展,已經(jīng)發(fā)展成為一個(gè)高通量,大規(guī)模和微量化分析伎倆,成為功效基因組研究中主要技術(shù)方法,得到了較為廣泛應(yīng)用和推廣。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第13頁DNA芯片技術(shù)芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第14頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第15頁DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第16頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第17頁什么是微陣列微陣列(microarray):是一個(gè)平面基質(zhì)載體,它上面規(guī)則、特異性地吸附著基因或基因產(chǎn)物(探針)。是一個(gè)小型分析裝置,能夠快速和準(zhǔn)確地碩士物基因組信息。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第18頁芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第19頁1.1芯片制備---芯片探針DNA探針:DNA探針是最慣用核酸探針,指長度在幾百堿基對以上雙鏈DNA或單鏈DNA探針。這類探針多為某一基因全部或部分序列,或某一非編碼序列。DNA探針取得有賴于分子克隆技術(shù)發(fā)展和應(yīng)用??稍谫|(zhì)粒載體中克隆,便于無限繁殖,制備簡便;不易降解(相對RNA而言)cDNA探針(complementaryDNA)是指互補(bǔ)于mRNADNA分子,是由逆轉(zhuǎn)錄酶催化而產(chǎn)生。該酶以RNA為模板,依據(jù)堿基配對標(biāo)準(zhǔn),按照RNA核苷酸次序合成DNA(其中U與A配對)。cDNA探針是當(dāng)前應(yīng)用最為廣泛一個(gè)探針。

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第20頁芯片探針特點(diǎn)互補(bǔ)性:即針對目標(biāo)基因保守區(qū)設(shè)計(jì)互補(bǔ)、完全配對(perfectmatch,PM)寡核苷酸探針特異性:即探針與目標(biāo)基因結(jié)合相對于家族其它組員含有高度特異性探針豐足:并非把相同探針片段固化在陣列中多處部位而是指針對靶基因序列設(shè)計(jì)多個(gè)(三個(gè)以上)寡核苷酸探針.這些寡核苷探針可與該基因不一樣部位特異結(jié)合、應(yīng)用多個(gè)不一樣序列探針檢測同一個(gè)分子可顯著提升信噪比,提升RNA定量準(zhǔn)確性醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第21頁原位合成芯片

(syntheticgenechip)芯片制備方式DNA微陣列(DNAmicroarray)原位合成芯片采取顯微光蝕刻(photolithography)等技術(shù),在芯片特定部位原位合成寡核苷酸而制成。探針較短采取常規(guī)分子生物學(xué)技術(shù)如PCR、分子克隆、DNA合成技術(shù)等,預(yù)先合成DNA或基因片段,然后以顯微打印方式,待這些基因片段有序地固化于支持物表面而制成

醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第22頁預(yù)先合成基因芯片探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第23頁原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第24頁原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第25頁原位合成探針醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第26頁

原位合成(InSituSynthesis)羥基化特制光刻掩膜醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第27頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第28頁1.2.芯片支持物類型實(shí)性材料膜性材料硅片玻片瓷片聚丙烯膜尼龍膜纖維素膜醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第29頁支持物預(yù)處理實(shí)性材料

通常在表面衍生出活性基團(tuán),如羥基或氨基載體活化膜性材料使其表面帶上正電荷以吸附帶負(fù)電荷DNA分子,通常以氨基硅烷或多聚賴氨酸等進(jìn)行包被需進(jìn)行預(yù)處理,使其表面衍生出羥基、氨基活性基團(tuán)。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第30頁1.3.芯片打印將預(yù)先制備好DNA探針以液滴形式有序排列在經(jīng)特殊處理支持物上過程.接觸式打印非接觸式打印醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第31頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第32頁1.4打印后處理1.首先需要把探針固定在玻璃表面2.另首先也要封閉玻片上未打印區(qū)域,以預(yù)防雜交時(shí)樣品DNA非特異性結(jié)合醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第33頁基因芯片是規(guī)則規(guī)則:微陣列上單元按照行和列方式進(jìn)行排列。基本標(biāo)準(zhǔn):成行、成列、大小均一、點(diǎn)間距相近、位置明確。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第34頁意義:能使微陣列制備、檢測和定量快速進(jìn)行。行和列是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第35頁均一大小和點(diǎn)間距意義:能使微陣列制備、檢測和定量快速進(jìn)行。同時(shí)均一化點(diǎn)滿足定量簡單化、分析準(zhǔn)確化需要。是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第36頁明確位置意義:能確保對信號強(qiáng)度準(zhǔn)確定量并能把信號值和對應(yīng)基因序列對應(yīng)起來。A1A2B1B2B3C1C2C3A3A1A2A3B1B2B3C3C2C1是!否!醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第37頁DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第38頁樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識標(biāo)識樣品純化醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第39頁組織、細(xì)胞中樣品核酸提取和純化反轉(zhuǎn)錄生成cDNA樣品核酸擴(kuò)增和熒光標(biāo)識擴(kuò)增:PCR,RT—PCR,固相PCR慣用標(biāo)識物為Cy3,Cy5(熒光標(biāo)識),生物素標(biāo)識,放射素末端標(biāo)識:在引物上標(biāo)識有熒光素,在DNA擴(kuò)增過程時(shí),使新形成DNA鏈末端帶有熒光素。標(biāo)識樣品純化樣品準(zhǔn)備醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第40頁DNA微陣列技術(shù)流程芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識標(biāo)識樣品純化雜交與雜交后清洗檢測與分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第41頁DNA芯片技術(shù)主要方法芯片制備樣品準(zhǔn)備分子雜交DNA芯片技術(shù)檢測分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第42頁基因芯片基因芯片原理-----molecularhybridization

指含有一定同源性兩條核酸單鏈(DNA或RNA),在一定條件下按堿基互補(bǔ)配對標(biāo)準(zhǔn)經(jīng)過退火處理,形成異質(zhì)雙鏈過程。利用這一原理,就能夠使用已知基因單鏈核酸片段作為探針,去查找各種不一樣起源基因組DNA分子中同源基因或同源序列。將一系列核酸片段固定在芯片載體上作為探針,待測核酸片段人工標(biāo)識上不一樣熒光、或同位素等作為靶片段(target),一定條件下二者雜交,依據(jù)雜交后不一樣信號即可取得靶片段信息,進(jìn)行計(jì)算機(jī)分析。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第43頁基因芯片原理醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第44頁基因芯片自動雜交儀分子雜交系統(tǒng)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第45頁檢測與分析1激光激發(fā)使含熒光標(biāo)識DNA片段發(fā)射熒光2激光掃描儀或激光共聚焦顯微鏡采集各雜交點(diǎn)信號3軟件進(jìn)行進(jìn)行圖象分析和數(shù)據(jù)處理DyePhotonsElectronsSignalLaserPMTA/DConvertorexcitationamplificationFilteringTime-spaceaveraging醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第46頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第47頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第48頁DNA微陣列技術(shù)流程芯片制作支持物預(yù)處理探針設(shè)計(jì)與制造芯片打印打印后處理DNA微陣列樣品準(zhǔn)備樣品核酸提取與純化擴(kuò)增與標(biāo)識標(biāo)識樣品純化雜交與雜交后清洗檢測與分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第49頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第50頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第51頁表示譜試驗(yàn)流程Fragment(heat,Mg2+)Hybridize(16hours)IVTBiotin-rNTPcDNATotalRNACellsScanBBBBBBBBWash&StainAAAAAAAAAAAA醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第52頁醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第53頁生物信息學(xué)在基因芯片中應(yīng)用表達(dá)在四個(gè)方面:芯片設(shè)計(jì)可靠性分析預(yù)處理數(shù)據(jù)分析醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第54頁基因芯片數(shù)據(jù)預(yù)處理數(shù)據(jù)提取對數(shù)化探針過濾補(bǔ)缺失值標(biāo)準(zhǔn)化探針注釋醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第55頁數(shù)據(jù)提取—表示值取得圖象預(yù)處理網(wǎng)格定位背景濾除熒光信號提取歸一化處理背景區(qū)域醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第56頁數(shù)據(jù)提取芯片熒光掃描圖像cDNA芯片Affymetrix寡核苷酸芯片醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第57頁數(shù)據(jù)提取---cDNA芯片芯片熒光掃描圖像CH1ICH1BCH2ICH2BRatio=(CH1I-CH1B)/(CH2I-CH2B)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第58頁數(shù)據(jù)提取---Affymetrix芯片熒光掃描圖像黑-藍(lán)黑-藍(lán)-高藍(lán)-綠-黃-橙-紅-白低高醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第59頁每個(gè)基因通常會設(shè)計(jì)16~20個(gè)探針對,組成探針集,共同決定某基因雜交信號PM(perfectmatch):與目標(biāo)樣本完美匹配探針MM(mismatch):在完美匹配探針序列中央發(fā)生一個(gè)堿基替換雜交信號:定性(P-Present/A-Absent/M-Marginal)定量(realsignal)數(shù)據(jù)提取醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第60頁數(shù)據(jù)提取芯片數(shù)據(jù)格式探針數(shù)遠(yuǎn)大于基因數(shù)HumanGenomeU133包含100萬不一樣寡核苷酸探針,33000個(gè)基因“.cel”文件醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第61頁數(shù)據(jù)提取芯片數(shù)據(jù)格式Matrixfile醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第62頁數(shù)據(jù)提取?醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第63頁基因芯片數(shù)據(jù)預(yù)處理數(shù)據(jù)提取對數(shù)化探針過濾補(bǔ)缺失值標(biāo)準(zhǔn)化探針注釋醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第64頁對數(shù)化原始數(shù)據(jù)呈偏態(tài)分布對數(shù)轉(zhuǎn)化后呈近似正態(tài)分布醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第65頁探針過濾去除表示水平是負(fù)值或很小數(shù)據(jù)或顯著噪音數(shù)據(jù)過閃耀現(xiàn)象物理原因造成信號污染(劃傷、指紋等)雜交效能低點(diǎn)樣問題……醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第66頁補(bǔ)缺失值數(shù)據(jù)缺失類型非隨機(jī)缺失(表示豐度過低或過高)隨機(jī)缺失(與表示水平高低無關(guān))雜交效能低物理刮傷指紋灰塵圖像污染……醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第67頁補(bǔ)缺失值刪除對應(yīng)行、列簡單補(bǔ)缺法無表示或無差異表示0或1均值樣本均值基因均值醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第68頁補(bǔ)缺失值回歸法醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第69頁補(bǔ)缺失值k近鄰法---KNN(K-Nearest

Neighbor)前提假設(shè):近鄰對象含有類似預(yù)測值。思想:在多維空間Rn中找到與未知樣本最近鄰k個(gè)點(diǎn),并依據(jù)這k個(gè)點(diǎn)類別來判斷未知樣本類這k個(gè)點(diǎn)就是未知樣本k-最近鄰。醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第70頁k近鄰法---KNN數(shù)學(xué)模型:離散目標(biāo)分類函數(shù)為f:Rn->V

設(shè)未知樣本特征向量X為訓(xùn)練數(shù)據(jù)集D={(Xi,Vi),1≤i≤N},其中Xi是第i個(gè)訓(xùn)練樣本特征向量,Vi是類別V是有限集合{v1,v2,…vs},即各不一樣分類集計(jì)算X和Xi之間距離d(Xi,X)按距離排序,得到d(X,Xi1)

≤d(X,Xi2)

≤…

≤d(X,XiN)選擇前K個(gè)樣本:S={(Xi1,Yi1)…(XiK,YiK)};

統(tǒng)計(jì)S中每個(gè)類別出現(xiàn)次數(shù),確定X類別Y醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第71頁補(bǔ)缺失值k近鄰法---KNN(K-Nearest

Neighbor)基因i在樣本j中表示水平缺失確定距離最近k個(gè)鄰居基因歐氏距離相關(guān)系數(shù)加權(quán)平均預(yù)計(jì)缺失值醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第72頁標(biāo)準(zhǔn)化基因芯片數(shù)據(jù)中存在變異感興趣變異真正生物學(xué)變異差異表示基因混雜變異試驗(yàn)過程中引入變異在樣本染色、芯片制作、芯片掃描過程中引入系統(tǒng)誤差醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第73頁CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化系統(tǒng)誤差起源染料物理屬性染料結(jié)合效率探針制備探針和樣本雜交過程數(shù)據(jù)搜集時(shí)掃描過程不一樣芯片間差異不一樣芯片雜交條件差異醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第74頁CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化過程參考物穩(wěn)定表示基因持家基因(housekeepinggenes)外源性或人工合成控制基因(controls)芯片上大部分穩(wěn)定表示基因(全部基因)相對穩(wěn)定基因子集(invariantset)醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第75頁CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化方法片內(nèi)標(biāo)化對數(shù)轉(zhuǎn)換log-Ratios全局標(biāo)化(globalnormalization)Cy3和Cy5不一樣染料熒光強(qiáng)度不一致糾正了染料偏倚(dyebias)全部基因log-Ratios中值或均值假設(shè):醫(yī)學(xué)數(shù)據(jù)挖掘基因表達(dá)數(shù)據(jù)的獲得與分析第76頁CDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化方法片內(nèi)標(biāo)化熒光強(qiáng)度依賴標(biāo)化(intensitydependentnormalization)方法:scatter-plots

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論