SATI簡介.doc_第1頁
SATI簡介.doc_第2頁
SATI簡介.doc_第3頁
SATI簡介.doc_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

精品文檔SATI定義文獻題錄信息統(tǒng)計分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通過對期刊全文數(shù)據(jù)庫題錄信息的處理,利用一般計量分析、共現(xiàn)分析、聚類分析、多維尺度分析、社會網(wǎng)絡(luò)分析等數(shù)據(jù)分析方法,挖掘和呈現(xiàn)出美妙的可視化數(shù)據(jù)結(jié)果。通過免費、共享軟件功能及開源、增進代碼實現(xiàn),旨在為學(xué)術(shù)研究提供期刊文獻數(shù)據(jù)統(tǒng)計與分析的輔助工具。軟件界面如下圖1所示:圖1 SATI軟件主界面技術(shù)方法國外關(guān)于文獻信息統(tǒng)計分析的技術(shù)方法和應(yīng)用軟件相對較為成熟,已有社會網(wǎng)絡(luò)分析軟件Ucinet(嵌入開源軟件Pajek, Netdraw 和Mage)、科學(xué)計量學(xué)研究軟件Bibexcel、文獻可視化信息分析軟件Citespace等,但這些軟件都主要針對Web of Science (WoS)等國外數(shù)據(jù)庫平臺開發(fā),需要專門的數(shù)據(jù)輸入格式,對于國內(nèi)期刊全文數(shù)據(jù)庫題錄數(shù)據(jù)不能直接處理。為兼顧處理國內(nèi)期刊題錄數(shù)據(jù)和國際WoS題錄數(shù)據(jù),本文嘗試設(shè)計開發(fā)對國內(nèi)外期刊數(shù)據(jù)庫進行文獻題錄信息統(tǒng)計分析的統(tǒng)一軟件。技術(shù)方法的關(guān)鍵在于對國內(nèi)和國際期刊全文數(shù)據(jù)庫所導(dǎo)出題錄數(shù)據(jù)的兼顧處理,設(shè)計思路是先將不同來源的數(shù)據(jù)格式統(tǒng)一轉(zhuǎn)換為SATI處理的XML格式,抽取指定字段信息得出條目元素(即詞條,本文“詞條(Term)”指語句元素的最小單元,可以是字、詞或短語,包括關(guān)鍵詞、主題詞、文本預(yù)處理后的分詞等受限詞或自然詞)的頻次統(tǒng)計文檔,再分析知識單元間的共現(xiàn)關(guān)系和頻率分布,生成共現(xiàn)矩陣、分布矩陣和文檔詞條矩陣,繼而實現(xiàn)對海量文獻信息的定量分析和可視化呈現(xiàn)。按此思路,我們首先對國內(nèi)三大期刊全文數(shù)據(jù)庫知網(wǎng)、萬方和維普的題錄數(shù)據(jù)格式進行細致的分析,找出了三大主流輸出格式EndNote格式、NoteExpress格式和NoteFirst格式題錄數(shù)據(jù)的字段信息特征;然后分別提取用于區(qū)別不同字段的標識符和詞條的分隔符(如NoteExpress格式題錄數(shù)據(jù)中,關(guān)鍵詞字段的標識符是“Keywords:”,關(guān)鍵詞之間的分隔符是“;”或“;”,但不同數(shù)據(jù)庫平臺和期刊會稍有不同,需進行特殊處理),利用同樣的方法再同時對WoS導(dǎo)出的HTML格式題錄進行特征分析,通過編程實現(xiàn)抽取不同字段信息,轉(zhuǎn)換生成為SATI軟件專用的XML格式文件;在自動導(dǎo)入轉(zhuǎn)換后的XML文件后,基于抽取出的相應(yīng)字段信息,再利用頻次統(tǒng)計算法得出詞條頻次統(tǒng)計文檔;然后將頻次降序排列表中相應(yīng)數(shù)量的條目元素作為知識單元按照適當?shù)乃惴P蜆?gòu)建出共現(xiàn)矩陣、分布矩陣和文檔詞條矩陣。設(shè)計思路如圖2所示。圖2 SATI設(shè)計思路為便于后期數(shù)據(jù)的進一步處理和可視化呈現(xiàn)的需要,軟件可同時生成Excel格式矩陣和.txt文本格式全矩陣。只要將共現(xiàn)矩陣文檔導(dǎo)入相應(yīng)的數(shù)據(jù)分析軟件(如Ucinet、SPSS等),即可構(gòu)建出知識單元聚類圖、多維尺度分析圖、共現(xiàn)關(guān)系網(wǎng)絡(luò)知識圖譜和戰(zhàn)略坐標圖等。功能實現(xiàn)目前軟件主要實現(xiàn)了以下四大功能:1. 題錄格式轉(zhuǎn)換:支持輸入WoS數(shù)據(jù)庫平臺導(dǎo)出的HTML格式、國內(nèi)期刊全文數(shù)據(jù)庫導(dǎo)出的EndNote格式、NoteExpress格式和NoteFirst格式題錄數(shù)據(jù)。對英文題錄關(guān)鍵詞、主題詞、標題和摘要字段進行文本預(yù)處理(Tokenization, Stop Words & Stemming )操作,中文題錄標題、摘要進行中文分詞 和停用詞 處理后,將其自動轉(zhuǎn)化為XML格式SATI專用數(shù)據(jù)文件,以為后期題錄數(shù)據(jù)的存儲、交換和分析提供便利。SATI專用數(shù)據(jù)文件(XML格式)采用簡潔的三層樹狀結(jié)構(gòu),實例如圖2所示。用戶可將期刊全文數(shù)據(jù)庫導(dǎo)出的題錄文件導(dǎo)入SATI自動生成XML格式專用文件,或根據(jù)實際需要將相關(guān)數(shù)據(jù)文件自行轉(zhuǎn)換為SATI處理所需格式。圖3 SATI自動轉(zhuǎn)換生成的專用數(shù)據(jù)格式實例2. 字段信息抽取: 在“Options”面板可以選擇抽取標題、作者、第一作者、文獻來源、出版年、關(guān)鍵詞、主題詞、摘要、機構(gòu)、地址、文獻類型、引文、語種、DOI和URL等字段信息,并可保存為.txt文本文件。還可利用“Refine”面板按照出版年和文獻來源進行數(shù)據(jù)集合的限定,并在此基礎(chǔ)之上進行下一步的統(tǒng)計分析。3. 詞條頻次統(tǒng)計: 根據(jù)抽取到的字段信息對條目元素(包括:關(guān)鍵詞、主題詞、作者、引文、機構(gòu)、發(fā)表年、期刊、文獻類型等)的頻次進行統(tǒng)計和降序排列,同樣可以按照時間和期刊對數(shù)據(jù)進行限定,生成相應(yīng)頻次統(tǒng)計文檔,并可保存為.txt文本文件。4. 知識矩陣構(gòu)建: 軟件可生成三類共八種矩陣。o 詞條共現(xiàn)矩陣??勺孕性O(shè)定共現(xiàn)矩陣輸出行列數(shù),將頻次降序排列表中的相應(yīng)數(shù)量條目元素作為知識單元進行運算,以構(gòu)建知識單元共現(xiàn)關(guān)系矩陣(分相似矩陣、相異矩陣、多值矩陣和二值矩陣四種,包括關(guān)鍵詞共現(xiàn)矩陣、主題詞共現(xiàn)矩陣、引文共現(xiàn)矩陣、作者共現(xiàn)矩陣和機構(gòu)共現(xiàn)矩陣等);其中,為消除多值共現(xiàn)矩陣中頻次懸殊對統(tǒng)計結(jié)果造成的影響,軟件采用Equivalence系數(shù) (公式一所示)將多值矩陣轉(zhuǎn)化為 0,1區(qū)間取值的相似矩陣,在此基礎(chǔ)之上再生成二值矩陣和相異矩陣。相似矩陣中的數(shù)字代表矩陣元素間的相似性,數(shù)值越大關(guān)聯(lián)程度越強。又因相似矩陣中的0值過多,統(tǒng)計時容易造成誤差過大,軟件在此基礎(chǔ)之上自動生成相異矩陣,即相似矩陣值與-1的和為相異矩陣元素的值。o 頻率分布矩陣??勺孕性O(shè)定條目元素(詞條)數(shù),生成詞條的逐年分布矩陣(分頻次矩陣和頻率矩陣兩種)。分布矩陣的行與詞條元素對應(yīng),列與發(fā)表年相對應(yīng)。其中,頻次矩陣元素值為詞條在某年出現(xiàn)的頻次,頻率矩陣元素的值(公式二所示)為詞條在某年的頻次與當年所有詞條頻次總和的商);o 文檔詞條矩陣(Document-Term Matrix):依據(jù)文本預(yù)處理結(jié)果,生成文檔詞條矩陣(分多值矩陣和二值矩陣兩種,包括文檔標題詞矩陣、文檔關(guān)鍵詞矩陣、文檔主題詞矩陣和文檔摘要詞矩陣)。多值矩陣元素的值為詞條在文檔中出現(xiàn)的頻次,二值矩陣元素的值為其布爾值。文檔詞條矩陣的行與文檔ID相對應(yīng),列與詞條相對應(yīng),文檔詞條矩陣可用于文本向量的構(gòu)建,利用向量空間模型(VSM)做進一步數(shù)據(jù)挖掘。待生成Excel格式和.txt文本格式的知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論