



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、利用分類算法實現(xiàn)圖書分類管理 利用分類算法實現(xiàn)圖書分類管理2011-09-05 08:06 來源:未知 瀏覽次數(shù): 關(guān)鍵字: 分類算法 圖書分類管理利用分類算法實現(xiàn)圖書分類管理張超一背景知識介紹隨著計算機技術(shù)的快速發(fā)展,計算機在企業(yè)管理中的應(yīng)用普及,利用計算機實現(xiàn)圖書信息分類管理勢在必行。目前部分小型圖書館的借閱工作大部分還是手工管理,工作效率偏低,而且不能及時了解圖書的種類以及用戶們極力需求的圖書類型等,不能更好的適應(yīng)大多數(shù)用戶的借閱要求。計算機信息化管理有著儲存量大,查詢速度快等許多優(yōu)點,提供及時快捷的信息處理。因此,利用計算機提供給我們的信息
2、對學(xué)生們的借閱過程形成一整套動態(tài)的分類管理系統(tǒng)能夠極大地提高圖書管理的效率。將圖書分文別類地管理,不僅能夠提高管理員的工作效率,而且用戶可以快速地查詢到自己需要的類型的圖書,也提高了查詢的效率。二分類算法介紹涉及到圖書信息的分類,當(dāng)然要對分類算法做進一步的介紹。分類算法被用來預(yù)測數(shù)據(jù)對象的離散類別,其應(yīng)用非常普遍,對于圖書館管理系統(tǒng),要涉及到對圖書種類的分類,出版日期的分類以及不同作者的分類查詢等等。分類算法經(jīng)常表現(xiàn)為樹的表示和遍歷問題。那么,就涉及到以下6個問題:如果用數(shù)據(jù)庫中的一個表來表達樹型分類,應(yīng)該有幾個字段;如何快速地從這個表恢復(fù)出一棵樹; 如何判斷某個分類是否是另一個分類的子類;
3、如何查找某個分類的所有產(chǎn)品; 如何生成分類所在的路徑;如何新增分類。下面我們重點以決策樹算法為例來介紹圖書分類管理的基本核心思想。三決策樹分類算法核心思想介紹決策樹表示方法是應(yīng)用最廣泛的邏輯方法之一,具有分類的精度較高,成的模式相對簡單,對噪聲數(shù)據(jù)有相對較強的健壯性等優(yōu)點,因而是目前應(yīng)用比較廣泛的歸納推理算法之一,受到數(shù)據(jù)挖掘研究者的廣泛關(guān)注。決策樹歸納是經(jīng)典的分類算法。它采用自頂向下遞歸,各個擊破的方式構(gòu)造決策樹。樹的每一個結(jié)點使用信息增益度量來選擇測試邏輯判斷(即屬性)??梢詮纳傻臎Q策樹中提取規(guī)則。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果一般是一棵二叉樹或多叉樹。二叉樹的內(nèi)部
4、節(jié)點,即非葉子節(jié)點一般表示成為一個邏輯判斷,樹的邊是邏輯判斷的分支結(jié)果。多叉樹的內(nèi)部節(jié)點是屬性,邊是該屬性的所有取值,樹的葉子節(jié)點一般都定義為類別標(biāo)記。構(gòu)造決策樹的方法是采用自頂向下的遞歸方法,其思路是:以代表訓(xùn)練樣本的單個結(jié)點開始建樹。如果樣本都在同一個類,則該結(jié)點成為樹葉,并用該類標(biāo)記。否則,算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的邏輯判斷。該邏輯判斷稱為該結(jié)點的“測試”或“判定”屬性。值得注意的是,在這類算法中,所有的邏輯判斷都是取離散值的,連續(xù)值邏輯判斷必須離散化。對測試屬性的每個已知的值,創(chuàng)建一個分支,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸地形成每
5、個劃分上的樣本決策樹。一旦一個屬性出現(xiàn)在一個結(jié)點上,就不必考慮該結(jié)點的任何后代。遞歸劃分步驟,當(dāng)下列條件之一成立時停止:給定結(jié)點的所有樣本屬于同一類。沒有剩余屬性可以用來進一步劃分樣本。構(gòu)造好的決策樹關(guān)鍵就在于如何選擇最優(yōu)的邏輯判斷,對于同樣一組例子,猶豫選擇的邏輯判斷不同,可以生成很多不同的決策樹。下面利用ID3算法舉例說明如何構(gòu)建一棵決策樹來實現(xiàn)對圖書的分類管理。對于ID3算法,首先要考慮如何選取合適的邏輯判斷來產(chǎn)生分支,這就需要介紹信息論的一系列概念:假設(shè)屬于第i類的訓(xùn)練實例Ci,X中總的訓(xùn)練實例個數(shù)為|X|,若一個實例屬于第i類的概率為p(Ci),則:p(Ci)=|Ci|/|X|信息熵
6、H(X):用來度量整個信息源X整體的不確定性。H(X)=-p(ai)log(p(ai) (i=1,2,.n)條件熵H(X|Y):如果信息源X受隨機變量Y的約束,用條件熵H(X|Y)來表示在收到隨機變量Y之后,對隨機變量X的不確定性。H(X|Y)=-p(ai|bj)log(p(ai|bj) (i=1,2,.n, j=1,2,m)平均互信息量I(X|Y):用它來表示信號Y所能提供的關(guān)于X的信息量的大小,其中I(X|Y)=H(X)-H(X|Y)。建立決策樹的過程就是將不確定度逐漸減小的過程,利用I(X|Y)表示的信息增益量選擇信息增益最大的屬性進行優(yōu)先分類,下面舉例來說明如何利用決策樹分類算法實現(xiàn)圖書分類。表1給出了一個簡單的圖書樣本數(shù)據(jù)集,假設(shè)圖書的屬性有四個:種類,出版日期,出版社,作者。樣本數(shù)據(jù)集合被分為類別1和類別2,通過ID3算法構(gòu)造決策樹將數(shù)據(jù)進行分類。 通過對每個屬性的信息熵和條件熵的計算,得到H(X|種類) <H(X|出版日期)< H(X|出版社) <H(X|作者),所以I(X|種類) >I(X|出版日期)> I(X|出版社) >I(X|作者)??梢姂?yīng)該選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校樓層長管理制度
- 學(xué)校防恐怖管理制度
- 學(xué)生封閉化管理制度
- 學(xué)院服裝間管理制度
- 安全生產(chǎn)個管理制度
- 安委會工作管理制度
- 安裝部進度管理制度
- 完善請休假管理制度
- 實木床倉庫管理制度
- 客戶滿意度管理制度
- 《企業(yè)信息安全培訓(xùn)課件》
- 職業(yè)學(xué)院學(xué)生轉(zhuǎn)專業(yè)申請表
- 2025年全國安全生產(chǎn)月安全知識競賽題庫及答案(共280題)
- 一例前交通動脈瘤破裂伴蛛網(wǎng)膜下腔出血的護理查房
- 心衰病人的護理查房
- 乳腺癌患者靜脈管理
- 制造企業(yè)生產(chǎn)記錄檔案管理制度
- 急診科臨床診療指南-技術(shù)操作規(guī)范更新版
- 《接觸網(wǎng)施工》課件 4.8.1 交叉線岔安裝
- 藝術(shù)培訓(xùn)學(xué)校檔案管理制度(3篇)
- 住院時間超過30天的患者管理與評價登記本
評論
0/150
提交評論