




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用 隨著醫(yī)學(xué)機構(gòu)積累的數(shù)據(jù)越來越多,促進(jìn)了醫(yī)學(xué)信息包括中醫(yī)藥信息的數(shù)字化;如何利用海量信息為防控疾病提供科學(xué)依據(jù),總結(jié)優(yōu)化各種診治方案,已引起業(yè)內(nèi)專家的高度關(guān)注。于是數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究被日益重視,它將有力促進(jìn)中醫(yī)藥的現(xiàn)代化進(jìn)程。1 數(shù)據(jù)挖掘的概念、步驟及常用方法 1.1 數(shù)據(jù)挖掘概念、步驟 數(shù)據(jù)挖掘(Data mining,DM)即數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大型數(shù)據(jù)庫的海
2、量數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱藏的、事先未知的、潛在有用的信息,挖掘的知識表現(xiàn)為概念、規(guī)則、規(guī)律、模式等形式1。數(shù)據(jù)挖掘的目的在于使用所發(fā)現(xiàn)的模式幫助解釋當(dāng)前的行為或預(yù)測未來的結(jié)果2。挖掘步驟大致有:問題定義、數(shù)據(jù)提取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識評估、結(jié)果應(yīng)用這六步。1.2 數(shù)據(jù)挖掘常用方法 描述統(tǒng)計 數(shù)據(jù)總結(jié)的目的是對數(shù)據(jù)進(jìn)行從低層次抽象、濃縮到高層次,得出它的緊湊描述。最簡單的數(shù)據(jù)總結(jié)方法是描述統(tǒng)計,它包括平均數(shù)、中位數(shù)、分位數(shù)等,它常和統(tǒng)計圖配合應(yīng)用。 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則從本質(zhì)上講是條件概率,即當(dāng)A發(fā)生時、B同時出現(xiàn)的概率有多大?只要B離50較遠(yuǎn)就有意義。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存
3、在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)包括簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時我們并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也不確定。因此關(guān)聯(lián)分析生 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用 成的規(guī)則帶有可信度。 分類和聚類 這是最常用的技術(shù)。分類方法主要有:回歸、決策樹、神經(jīng)網(wǎng)絡(luò)。分類分析在數(shù)據(jù)挖掘中是一項重要任務(wù)。分類器的構(gòu)造方法有統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。聚類是根據(jù)事物本身潛在的特性研究對象分類的方法。通過聚類把一個數(shù)據(jù)集合中的個體按照相似性歸成若干類別,使其“物以類聚”,將數(shù)據(jù)庫中的記錄劃分為
4、一系列有意義的子集。聚類要解決的就是實現(xiàn)滿足這種要求的類的聚合。在進(jìn)行聚類前,這些類別是潛在的,可分割的類的個數(shù)(聚類數(shù))也是未知的。聚類大致分為統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法等。 偏差檢測 數(shù)據(jù)庫中的數(shù)據(jù)可能有一些異常記錄,檢測這些偏差很有意義。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。2 中醫(yī)病歷中醫(yī)學(xué)數(shù)據(jù)挖掘的特點目前中醫(yī)病歷中采集的中醫(yī)學(xué)信息具有如下特點。2.1 癥狀的模糊性 中醫(yī)學(xué)對疾病的診斷是通過望、聞、問、切的四診合參,獲取有用信息,再結(jié)合醫(yī)生的經(jīng)驗,對疾病做出診斷。癥狀的模糊性不僅表現(xiàn)在獲得信息的形式多樣,而且因中醫(yī)癥狀存在著一癥多名,或
5、多癥一名的現(xiàn)象,因此不同醫(yī)生即使對同樣的癥狀,可能會用不同的文字加以描述,比如對“患者不欲進(jìn)食”的記錄,可能會有納差、食欲不振、納呆等的不同。這種模糊性模式加大了中醫(yī)學(xué)數(shù)據(jù)挖掘的難度。2.2 癥狀的不完整性 病例和病案的有限性使醫(yī)學(xué)數(shù)據(jù)庫不可能對任何一種疾病信息都能全面地反映出來,表現(xiàn)為醫(yī)學(xué)信息的不完全性。同時,許多醫(yī)學(xué)信息的表達(dá)、記錄本身就具有不確定和模糊性的特點3,這方面在中醫(yī)癥狀未做出標(biāo)準(zhǔn)量化方法并推行應(yīng)用之前,尤為突出。疾病信息體現(xiàn)的客觀不完整和描述疾病的主觀不確切,形成了中醫(yī)病歷中醫(yī)學(xué)信息的不完整性。2.3 證候的復(fù)雜性 著名的王永炎院士指出了證候具有動態(tài)時空、內(nèi)實外虛、多維界面的特
6、點,簡明扼要的描述了證候的復(fù)雜性。中醫(yī)證候的復(fù)雜性給數(shù)據(jù)挖掘增加了難度,但這也恰好是數(shù)據(jù)挖掘發(fā)揮效力的用武之地。2.4 治療信息的個體化特性 中醫(yī)治病之本是辨證論治,體現(xiàn)在“三因治宜”、“同病異治、異病同治”等方面。即使針對同一疾病相同的證,醫(yī)生的處方用藥也可能會有差異。這種個體化的治療,充分體現(xiàn)了中醫(yī)治病的精髓,而其中所蘊涵的深奧哲理和規(guī)律,用一般的研究方法難以全面發(fā)掘。數(shù)據(jù)挖掘在這方面很可能會有很高的應(yīng)用價值。2.5 挖掘過程的復(fù)雜性 中醫(yī)藥領(lǐng)域中的數(shù)據(jù)屬性有離散型的,也有連續(xù)型和混合型的,對這些數(shù)據(jù)的噪聲處理等預(yù)處理相當(dāng)復(fù)雜,挖掘過程還需要人機交互、多次反復(fù),其中任何一個環(huán)節(jié)都不能缺少專
7、業(yè)人員。只有靠中醫(yī)藥專家的引導(dǎo),針對具體問題,選擇合理的挖掘方法,才能挖掘出真正有價值的知識。在中醫(yī)學(xué)數(shù)據(jù)挖掘中,應(yīng)針對上述數(shù)據(jù)特點和挖掘目標(biāo),結(jié)合運用不同的挖掘方法,對非線性、不完全的信息進(jìn)行智能處理,發(fā)揮各自的技術(shù)及其整合優(yōu)勢。3 數(shù)據(jù)挖掘在中醫(yī)藥研究中的應(yīng)用近年來,數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中已得到應(yīng)用。有學(xué)者認(rèn)為中醫(yī)藥數(shù)據(jù)挖掘是中醫(yī)藥現(xiàn)代化研究的重要組成部分4。3.1 中醫(yī)藥信息化研究 姚氏等5綜合文獻(xiàn)指出對中醫(yī)藥理論和實踐進(jìn)行信息化、數(shù)字化、知識化,能夠克服中醫(yī)名詞術(shù)語過于繁雜造成的中醫(yī)發(fā)展障礙,對于中醫(yī)藥信息進(jìn)行文本數(shù)據(jù)挖掘是促進(jìn)中醫(yī)藥信息結(jié)構(gòu)化的途徑之一,該問題的解決,能極大促進(jìn)中
8、醫(yī)藥現(xiàn)代化發(fā)展的進(jìn)程。3.2 中藥研究 陳凱先等6認(rèn)為對大量中藥化學(xué)成分進(jìn)行藥效基團的建模研究,并對中藥化學(xué)成分?jǐn)?shù)據(jù)庫進(jìn)行柔性搜索,能夠為更充分利用中藥化學(xué)成分所含的化學(xué)信息提供技術(shù)支持。馮雪松等7對中藥指紋圖譜的特點及數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用做了綜述,指出中藥指紋圖譜由于反映了藥用植物的“共有特征”,又由于地域、生長環(huán)境、采收等多種因素影響,具有統(tǒng)計數(shù)學(xué)中多元隨機分布的“模糊性”,利用模糊數(shù)學(xué)、統(tǒng)計學(xué)、計算機技術(shù)等建立一種同時反應(yīng)這兩種特征數(shù)據(jù)庫,存儲中藥指紋圖譜信息,應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)和解析其中潛在的信息,以評價和控制中藥質(zhì)量及研提 (,。)究中藥定量組效關(guān)系。3.3 方劑研究 喬延江等
9、4綜述了KDD在中藥研究開發(fā)中的意義。喬氏等認(rèn)為中藥(復(fù)方)的KDD研究是在中醫(yī)理論指導(dǎo)下,以數(shù)據(jù)挖掘技術(shù)作為知識發(fā)現(xiàn)的主要環(huán)節(jié),對中藥研發(fā)、設(shè)計、中醫(yī)組方理論及規(guī)律、中藥作用機制、構(gòu)效關(guān)系、中藥藥效集團群的確認(rèn)、化學(xué)成分及藥理指標(biāo)的預(yù)測等進(jìn)行多方位、多學(xué)科、系統(tǒng)的現(xiàn)代化研究,是一個高度復(fù)雜的系統(tǒng)。其目的是建立傳統(tǒng)中醫(yī)理論同現(xiàn)代中藥的科學(xué)化、系統(tǒng)化、可描述化的關(guān)系,是中醫(yī)藥現(xiàn)代化的重要組成部分。楊林等8闡述了數(shù)據(jù)庫技術(shù)與Web結(jié)合實現(xiàn)網(wǎng)上中醫(yī)方劑的信息挖掘。將方劑文獻(xiàn)資料進(jìn)行全方位解析,設(shè)計內(nèi)容詳細(xì)的數(shù)據(jù)庫與Web技術(shù)結(jié)合,通過Internet開發(fā)了網(wǎng)上中醫(yī)方劑信息分析處理系統(tǒng),選擇支持Web
10、-DB的ORACLE數(shù)據(jù)庫管理系統(tǒng)作為系統(tǒng)開發(fā)和運行平臺。經(jīng)過數(shù)據(jù)預(yù)處理、選擇和篩選數(shù)據(jù)、確定分析目標(biāo)、信息挖掘結(jié)果顯示等階段,完成對一批方劑數(shù)據(jù)的信息挖掘。姚美村等9應(yīng)用數(shù)據(jù)挖掘技術(shù)對治療消渴病的中藥復(fù)方配伍的內(nèi)涵進(jìn)行探索性研究。以文獻(xiàn)收錄的106個治療消渴病的中藥復(fù)方為對象,經(jīng)解析后建立復(fù)方特征數(shù)據(jù)庫;以數(shù)據(jù)挖掘系統(tǒng)Enterprise Miner為平臺,在單味藥層次上進(jìn)行消渴病復(fù)方組成藥味之間的關(guān)聯(lián)規(guī)則分析研究,結(jié)果顯示單味藥、兩味藥組合、三味藥組合的應(yīng)用規(guī)律與歷代中醫(yī)在消渴病治療用藥方面的論述一致。挖掘結(jié)果的可信度可達(dá)到或接近中醫(yī)專家的分析能力。秦首科等10在構(gòu)建方劑、中藥和病癥數(shù)據(jù)倉
11、庫的基礎(chǔ)上,通過對數(shù)據(jù)倉庫內(nèi)部各種關(guān)聯(lián)和映射關(guān)系的定義,利用中藥和病癥數(shù)據(jù)倉庫的聯(lián)機分析功能,探討了方劑和其針對癥狀之間的聯(lián)系。蔣永光等11對從中醫(yī)大辭典·方劑分冊中篩選出1355首脾胃方中的414種藥物,經(jīng)用聚類分析、對應(yīng)分析和頻繁集方法,從功效、歸經(jīng)、藥性和藥味等方面進(jìn)行了分類特征分析,并就脾胃方的核心藥物、方 劑結(jié)構(gòu)、“藥對藥”組和“方藥證”的對應(yīng)關(guān)聯(lián)方面形成了有關(guān)技術(shù)規(guī)則和處理程序。3.4 中醫(yī)證候研究 張世筠等12應(yīng)用流行病學(xué)和變量聚類分析的數(shù)理統(tǒng)計方法,對2442例中醫(yī)肝證患者進(jìn)行了初步研究。由調(diào)查組采集核對中醫(yī)四診資料,
12、按肝證辨證記分標(biāo)準(zhǔn)記分,分為11個證型。經(jīng)過聚類分為實證、風(fēng)證、虛證3類,解決了中醫(yī)各肝證的歸屬問題,本研究還定量地闡明肝的實證、虛證、風(fēng)證的相互關(guān)系。白云靜等13在充分闡釋證候系統(tǒng)的非線性、復(fù)雜性特征的基礎(chǔ)上,探析了人工神經(jīng)網(wǎng)絡(luò)方法用于證候研究的可行性,并介紹了基于人工神經(jīng)網(wǎng)絡(luò)的證候研究方法。徐蕾等14采用boot strap方法對406例樣本進(jìn)行擴增以滿足數(shù)據(jù)挖掘?qū)颖玖康囊?,采用基于信息熵的決策樹C4.5算法建立中醫(yī)辨證模型。通過決策樹C4.5算法篩選出對辨證分型有意義的26個因素,按其重要程度排序;產(chǎn)生出清楚易懂可用于分類的決策規(guī)則,建立辨證模型,模型分類符合率為:訓(xùn)練集83.6%,
13、驗證集80.67%,測試集81.25%;模型區(qū)分各類證型的靈敏度和特異度也較高。認(rèn)為決策樹C4.5算法建立的模型效果較好,可用于慢性胃炎中醫(yī)證型的鑒別診斷。吳斌15等探討了腎陽虛證的辨證因子分布規(guī)律。以腎陽虛證量表為基礎(chǔ),從定性、定量角度收集資料。以定性評分計算各辨證因子的出現(xiàn)頻率,用定量評分進(jìn)行分層聚類分析。發(fā)現(xiàn):畏寒、肢冷、夜尿、腰背發(fā)冷等辨證因子出現(xiàn)頻率高,聚類分析提示腎陽虛主證、舌象、脈象分布較有規(guī)律。認(rèn)為根據(jù)數(shù)理統(tǒng)計結(jié)果對腎陽虛證的辨證因子進(jìn)行初篩,為腎陽虛證的 ( 數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用(3) 量化研究奠定了基礎(chǔ)。4 小結(jié)與展望利用數(shù)據(jù)挖掘技術(shù)探求中醫(yī)藥診治疾病的規(guī)律,形成用數(shù)字描述和表達(dá)的中醫(yī)藥內(nèi)容,能有力推動中醫(yī)藥研究的規(guī)范化進(jìn)程。但由于中醫(yī)藥信息的復(fù)雜性和特殊性,中醫(yī)藥數(shù)據(jù)挖掘在挖掘?qū)ο蟮膹V泛性、挖掘算法的高效性和魯棒性、提供知識或決策的準(zhǔn)確性方面有更高的要求。目前中醫(yī)藥數(shù)據(jù)庫資源已較豐富。數(shù)據(jù)挖掘技術(shù)將成為中醫(yī)藥現(xiàn)代化的重要組成部分。但從目前應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行的中醫(yī)藥研究來看,中醫(yī)數(shù)據(jù)挖掘尚處于起步階段,多數(shù)是對古文獻(xiàn)數(shù)據(jù)的整理挖掘,缺乏用于探求中醫(yī)診治疾病規(guī)律和復(fù)方用藥規(guī)律的研究。這可能與中醫(yī)數(shù)據(jù)的復(fù)雜性所致的數(shù)據(jù)預(yù)處理繁瑣有關(guān);如能通過建立結(jié)構(gòu)化數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機械工程制造工藝及裝備選擇知識要點
- DB4102-T 024-2021 海綿城市建設(shè)設(shè)施設(shè)計指南
- 《高中美術(shù)鑒賞古典繪畫教學(xué)教案》
- 2018不負(fù)過去不懼未來年終工作總結(jié)公司年度匯報述職報告模板
- 2025年煙花爆竹經(jīng)營單位主要負(fù)責(zé)人考試試卷及答案
- 音樂基礎(chǔ)知識(音基考試)
- 顧客忠誠度在新零售環(huán)境下的提升策略
- 項目經(jīng)理如何提升團隊執(zhí)行力及協(xié)作能力
- 項目管理方法論在數(shù)據(jù)分析中的應(yīng)用
- 項目化管理的數(shù)據(jù)安全保護措施
- 山東詠坤新材料科技有限公司年產(chǎn)4000噸鋰鈉電池負(fù)極材料生產(chǎn)項目報告書
- 2025年山東濟南先行投資集團有限責(zé)任公司招聘筆試參考題庫附帶答案詳解
- 業(yè)務(wù)結(jié)算補充合同標(biāo)準(zhǔn)文本
- 預(yù)防青少年藥物濫用-主題班會課件
- 招商崗位測試題及答案
- 2025年稅務(wù)師考試全面覆蓋試題及答案
- 百世物流抖音平臺運營策略研究
- 通信登高作業(yè)管理制度
- 小學(xué)科學(xué)教育與信息技術(shù)融合心得體會
- 軟件產(chǎn)品交付流程
- TCAWAORG 014-2024 老年綜合評估及干預(yù)技術(shù)應(yīng)用規(guī)范
評論
0/150
提交評論