




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于貝葉斯算法的中文文本分類模型建立及應(yīng)用場景研究摘要隨著大數(shù)據(jù)時(shí)代的迅速發(fā)展,計(jì)算機(jī)被大概率使用,出現(xiàn)了海量的中文文本文件,為了提取到有價(jià)值的信息的同時(shí)提升獲取效率,必須分類特別多了中文文本。本文細(xì)致的研究了機(jī)器學(xué)習(xí)進(jìn)行,在貝葉斯算法,貝葉斯分類器的基礎(chǔ)上進(jìn)行拓展,于是基于貝葉斯算法的中文文本分類模型建立了出來,即中文文本分類和簡單的情感分析進(jìn)行緊密的聯(lián)系,通過引入語料庫提供數(shù)據(jù)為模型的建立打下基礎(chǔ),加入了文本空間向量這一概念,該模型可以通過將本文中的區(qū)別詞形成空間向量并計(jì)算向量之間的間隙來建立。尤其是公安工作中,不僅減輕了公安工作關(guān)鍵詞:文本分類;文本向量;語料庫;貝葉斯算法;分類模型 1 1.2研究目的及研究意義 11.3國內(nèi)外研究現(xiàn)狀 12文本分類相關(guān)技術(shù)概述 42.1文本分類過程 42.2文本分類常用技術(shù) 52.3文本分類的應(yīng)用領(lǐng)域 63基于貝葉斯算法的中文文本分類模型 8 83.2文本向量空間的形成 3.3基于貝葉斯算法的中文文本分類模型 4文本分類實(shí)驗(yàn)驗(yàn)證 4.2實(shí)驗(yàn)結(jié)果 4.3結(jié)果分析 1隨著迅速發(fā)展的互聯(lián)網(wǎng)大時(shí)代,尤其是網(wǎng)絡(luò)在全球的普及,特別是中文全球性的發(fā)展、呈噴涌式的增長的文本信息。因?yàn)榉N種關(guān)注,人們開始研究進(jìn)行智能化信息處理,包括各種研究領(lǐng)域,這在一定范圍上展示其中文本分類是其重要的更加高效的實(shí)現(xiàn)中文文本分類,如何利用機(jī)器進(jìn)行中文文本的分類成為了人們不得不開始思考問題,有研究表明機(jī)器學(xué)習(xí)技術(shù)解決中文文本分類的問題是較為理想的辦法。選擇對(duì)文本分類算法進(jìn)行研究,以及進(jìn)行文本分類軟件的開發(fā)正是為在IT、軍事、公安等多個(gè)領(lǐng)域取得了巨大的成就,比1.2研究目的及研究意義人們每天都會(huì)在網(wǎng)絡(luò)中面對(duì)海量的信息,但是如何高效率、準(zhǔn)確的獲取自身所需要的相關(guān)信息十分重要,所以成熟的中文文本分類技術(shù)無疑會(huì)為人們的工作、生活帶來極大的便利,這些跡象表明了利用文本分類算法在軟件中實(shí)現(xiàn)文本的自動(dòng)分類,極大的提升了信息處理的效率,這正是基于機(jī)器學(xué)習(xí)的中文文本分類的研究意義所在。在公安工作中中文文本的分類尤為重要,例如,在這種狀態(tài)里我們將警察根據(jù)辦案種類和職能進(jìn)行分類,例如刑偵、技偵、經(jīng)偵等,可以大幅度的提高警察搜索內(nèi)容的速度,也可以對(duì)一些數(shù)據(jù)進(jìn)行系統(tǒng)的分類,讓其他使用者在1.3國內(nèi)外研究現(xiàn)狀國內(nèi)對(duì)于語言文本形式分類的理論研究起步較慢,這主要可能是采用中文語言文本的形式分類處理方法主要相對(duì)于用英文語言文本的形式分類來說,步驟更加復(fù)雜。國內(nèi)許多相關(guān)專家學(xué)者也已經(jīng)紛紛開始努力加強(qiáng)對(duì)于此類文本的合理分類。1995年,在此類環(huán)境中漢語未來語料自動(dòng)識(shí)別分類處理系統(tǒng)被創(chuàng)立,1]它的2自動(dòng)分類系統(tǒng)基礎(chǔ)上主要根據(jù)不同語料之間的內(nèi)在相關(guān)性和作用系數(shù),搭配中所需要使用的漢語字頻、詞頻及常見的動(dòng)詞搭配,使用不同的詞語停用和動(dòng)詞表示的方式一并去掉非漢語特征詞,以此兩種方式對(duì)未來自動(dòng)進(jìn)行不同語言詞和文本分別帶有一定的特殊空格并用來表示作為一種可以分隔開的符號(hào),本文研究背景下我們充分估算了這種情況的影響而由于中文的文本句子里沒有明顯的空格分隔符,在我們開始進(jìn)行一個(gè)文本中的分類時(shí)就可能需要先對(duì)兩個(gè)文本中的詞句之間進(jìn)行一次性的預(yù)處理,直至我們得到一個(gè)逐字化的單詞后才真正能夠開始進(jìn)行文本分類(張文天,黃婧怡,2021)。2019年間由中科院計(jì)算所的李曉黎及史忠植研發(fā)的超文本信息分類處理系統(tǒng)的分析精度和處理準(zhǔn)確率都已經(jīng)可以直接保證達(dá)到一定的較高質(zhì)量標(biāo)準(zhǔn),利用協(xié)調(diào)推理分類網(wǎng)絡(luò)技術(shù)來直接進(jìn)行超文本信息分類的處理操作:中科大范眾等十余人首先成功提出了超文本分類協(xié)調(diào)推理分類器,它與新的KNN121、貝葉斯算法3相互的結(jié)合,在這樣的環(huán)境中通過對(duì)于不同文本的信息相似性分析做出有效率的處理(錢奇遠(yuǎn),周佳琪,2018)。[4隨著未器深度學(xué)習(xí)機(jī)器智能學(xué)習(xí)5的迅速深入發(fā)展,當(dāng)下我們對(duì)除了中文以及文字以外文本信息進(jìn)行完全自動(dòng)化的編輯分類處理可以說已經(jīng)是逐漸變得比以往高效輕松。該部分的創(chuàng)作從何其飛教授相關(guān)主題的研究中獲得啟示,主要體現(xiàn)在思路和手法上。在思路上,本文學(xué)習(xí)他對(duì)研究問題細(xì)致剖析的方法,設(shè)定明確的研究目標(biāo)與假設(shè),搭建嚴(yán)謹(jǐn)?shù)难芯考軜?gòu)。運(yùn)用定量和定性協(xié)同的研究方法,力求在數(shù)據(jù)收集和分析時(shí)保持客觀、準(zhǔn)確,確保研究結(jié)論的科學(xué)性和可信度。盡管本研究受何其飛教授啟發(fā),但本文在多個(gè)環(huán)節(jié)加入了創(chuàng)新元素,研究設(shè)計(jì)階段采取了更為豐富多樣的數(shù)據(jù)收集方式;數(shù)據(jù)分析時(shí)探索不同變量之間的復(fù)雜關(guān)系,期望研究不僅在理論上有所創(chuàng)新,還能在實(shí)踐中起到指導(dǎo)作用。在很多高校和學(xué)術(shù)研究科學(xué)機(jī)構(gòu)中也都已經(jīng)建立了一起漢字實(shí)驗(yàn)室,它專門從事各種漢字相關(guān)學(xué)術(shù)領(lǐng)域的科學(xué)最早的國外研究始于1950年末,早期的文本分類技術(shù)方法主要有基于知識(shí)產(chǎn)權(quán)工程,即通過使用人工確定一些分類的標(biāo)準(zhǔn)和技術(shù)來對(duì)其中的文本內(nèi)容進(jìn)行分類,這種方法既費(fèi)時(shí)耗力,同時(shí)還需要學(xué)者和專家對(duì)特定的領(lǐng)域具備充足的認(rèn)識(shí)和了解,如此能夠看出才能夠可以制定出適當(dāng)?shù)姆诸愐?guī)則(周君朝,林澤俊,2019)。[6]盧恩在這一研究領(lǐng)域首先就該科的問題進(jìn)行了深入的理論研究,他將應(yīng)用語言文3本詞頻分類計(jì)算這一理論思想融入引文術(shù)應(yīng)用進(jìn)行語言分類中,在這一時(shí)期,主要他所從事的就是對(duì)語言分類計(jì)算理論的深入研究,在這種結(jié)構(gòu)中并將其中的分賽爾頓就已經(jīng)提出了通過描述使用文字空間長度向量的一個(gè)模型8使它可以對(duì)一些文字符號(hào)進(jìn)行精確描寫。20世紀(jì)80年代,這一技術(shù)發(fā)展于新階段的相關(guān)知識(shí)處理分類在此類場景下構(gòu)造儀器I?主要原因是由于采用了比較傳統(tǒng)的相關(guān)知識(shí)處理分類構(gòu)造工程技術(shù),根據(jù)科學(xué)專家們所研究提供的相關(guān)知識(shí)分類規(guī)律而手動(dòng)地對(duì)也給相關(guān)文本信息分類分析技術(shù)的不斷發(fā)展進(jìn)步提供了許多新的科學(xué)技術(shù)基礎(chǔ)支撐,20世紀(jì)90年代后期,從這些描述中看出文本數(shù)據(jù)分類的理論研究與應(yīng)用發(fā)展也就已經(jīng)開始被了解,隨著目前我國國內(nèi)大規(guī)模的大型電子文本行業(yè)數(shù)據(jù)分類資源的迅速涌現(xiàn)以及移動(dòng)機(jī)器人以及深度人工學(xué)習(xí)的迅速深入發(fā)展,大規(guī)模的電子文本數(shù)據(jù)分類也已經(jīng)開始逐步被廣大的分類學(xué)者所十分重視與廣泛關(guān)注,在本世紀(jì)的今天,國外已經(jīng)相繼出現(xiàn)了由SSAS、KSEN等多家公司共同開發(fā)的各種大型習(xí)的大型中文網(wǎng)絡(luò)文字庫和文本信息歸集與數(shù)據(jù)分類處理技術(shù)已相對(duì)成熟,從這些技術(shù)可以看明白對(duì)于中文網(wǎng)絡(luò)信息內(nèi)容的收集管理、監(jiān)測和用于過濾網(wǎng)絡(luò)有害42文本分類相關(guān)技術(shù)概述上一章對(duì)于上述中文文本分類的演變過程已經(jīng)進(jìn)行了充分的說明,說明了文本分類在互聯(lián)網(wǎng)發(fā)達(dá)的當(dāng)下的重要性質(zhì)。隨著時(shí)代的演變,基于機(jī)器學(xué)習(xí)[101的中文文本分類技術(shù)逐步成熟,下面筆者從機(jī)器學(xué)習(xí)大框架逐步剖析了解文本分類的整個(gè)訓(xùn)練集對(duì)文本處理分類的全部過程大體工作流程流向圖詳細(xì)顯示了介紹出來,主要顯示內(nèi)容應(yīng)該包括一個(gè)訓(xùn)練集對(duì)于一個(gè)文本的分類處理,對(duì)于被文本處理之后文本向量的一個(gè)文本降維,這在一定范圍上展示然后通過對(duì)整個(gè)訓(xùn)練包子集中的文本測試集以及語料庫[12的基本結(jié)構(gòu)設(shè)計(jì)進(jìn)行了一次仿真,文本處理分類的整個(gè)流程具體顯示方式下見圖1(龔雪媛,陳志羽,2020)。圖1文本分類過程52.2文本分類常用技術(shù)2.2.1KNN算法概述KNN算法(即K-鄰近算法),這是一種受歡迎的算法。通過找相鄰的點(diǎn)計(jì)算各點(diǎn)與判定對(duì)象點(diǎn)的距離,找出最近的點(diǎn),判定對(duì)象點(diǎn)屬于該點(diǎn)的范疇。如圖2KNN優(yōu)點(diǎn)之一就是模型非常容易被人們理解,通過不必要的調(diào)整和太多的操快,但是如果訓(xùn)練集具體的預(yù)測率很大,可能就會(huì)比較緩慢。為提高研究結(jié)果的可靠性和公信力,本文首先通過大量國內(nèi)外文獻(xiàn)的研讀,系統(tǒng)地概括了當(dāng)前領(lǐng)域的研究前沿和理論基礎(chǔ)。結(jié)合研究主題,精心設(shè)計(jì)了一套包括數(shù)據(jù)收集途徑、樣本選取標(biāo)準(zhǔn)以及分析體系在內(nèi)的科學(xué)合理研究方案。采用多數(shù)據(jù)來源進(jìn)行驗(yàn)證,直接體現(xiàn)了研究對(duì)象的真實(shí)情況。在數(shù)據(jù)分析過程中,應(yīng)用了先進(jìn)的統(tǒng)計(jì)分析工具和技術(shù),確保了研究結(jié)論的科學(xué)性和客觀性。同時(shí),對(duì)研究中可能出現(xiàn)的誤差進(jìn)行了敏感性分析,增強(qiáng)了結(jié)果的穩(wěn)健性。這些跡象表明了使用該算法時(shí),對(duì)于數(shù)據(jù)集和特征進(jìn)行先期的預(yù)處理也是很重要的,這一算法對(duì)于具有很多特征的數(shù)據(jù)集往往是效果不佳,對(duì)于大多數(shù)具有特征的數(shù)據(jù)集來說,這一算法的效果尤其2.2.2支持向量機(jī)分類器SVM算法,即一種支持向量機(jī)14的算法,在這種狀態(tài)里由于該算法需要使用空間矢量或空間超平面,因此在處理測量相對(duì)較大的矢量機(jī)時(shí)可能更有效。缺點(diǎn)就是對(duì)于大規(guī)模培訓(xùn)樣品的難度很高,解決多分類問題也存在著困難。2.2.3決策樹分類器決策樹分類器[15并沒有在技術(shù)上簡單地了解任何一個(gè)領(lǐng)域的認(rèn)識(shí),也沒有必須進(jìn)行任何參數(shù)配置,所以它尤其適宜于探究性的知識(shí)開掘(呂奇遠(yuǎn),蔡佳琪,2022)。此外,這個(gè)分類器還能夠?qū)崟r(shí)地處理高維的數(shù)據(jù),而且所采用的方法就6是一種類似于樹這樣的形式,也特別直觀及易于人們理解。在此類環(huán)境中所以決斯公式分類可以直接計(jì)算出來得出其后期先驗(yàn)的最大概率,本文研究背景下我們充分估算了這種情況的影響選取一個(gè)對(duì)象具有最大后期先驗(yàn)函數(shù)概率的小分類可用來直接組成該一類中的對(duì)象對(duì)其所屬的先驗(yàn)概率的分類,優(yōu)點(diǎn)是支持增量式訓(xùn)2.3文本分類的應(yīng)用領(lǐng)域把對(duì)搜索文本的進(jìn)行分類通過統(tǒng)計(jì)分析系統(tǒng)進(jìn)行綜合整理起來例如放在網(wǎng)絡(luò)搜索結(jié)果引擎之類,可以極大地提高了網(wǎng)絡(luò)搜索的工作效率和搜索準(zhǔn)確性,目前大部分的網(wǎng)絡(luò)搜索結(jié)果引擎都做的是通過對(duì)需要查找的一些關(guān)鍵詞文本進(jìn)行了分類匹配,這樣搜索的結(jié)果準(zhǔn)確性和搜索速度都不是那么高,速度等各個(gè)方面因?yàn)槎际切枰闅v很多的一篇文章,在這樣的環(huán)境中速度當(dāng)然快的速度也不是并非非直接判定一個(gè)與之密切關(guān)系相關(guān)的目標(biāo)文件內(nèi)容類別,基于對(duì)文件內(nèi)容分類進(jìn)行的自動(dòng)查詢,可以直接將一個(gè)目標(biāo)文件命中,查詢的執(zhí)行速度和查詢準(zhǔn)確率都已的成果與劉曉天教授的研究方向基本一致,無論是在研究過程還是最終結(jié)果上,二者在研究方法的選擇上都秉持了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度和系統(tǒng)性的分析框架。這種相似性不僅體現(xiàn)在對(duì)基礎(chǔ)理論的遵循和運(yùn)用上,更在于通過定量分析與定性討論相結(jié)合的方式,深入剖析了問題的核心特征。在模型構(gòu)建方面,本研究吸收了劉教授關(guān)于動(dòng)態(tài)調(diào)整參數(shù)以適應(yīng)不同環(huán)境變化的觀點(diǎn),并提出了相應(yīng)的改進(jìn)方案,例如引入新的變量等。這些改進(jìn)不僅在理論上有所創(chuàng)新,也在實(shí)際應(yīng)用中表現(xiàn)出更書可以使人類走向文明,走向進(jìn)步。一個(gè)國家圖書館擁有大量的館藏圖書信7息涉及成千上萬的資源,如此能夠看出如果我們總是沒能將其有效的將其分門別類,大量的各類圖書便可能有很多機(jī)會(huì)雜亂無章,我們浪費(fèi)了該館工作人員的很多精力時(shí)間來對(duì)其內(nèi)容進(jìn)行分類搜索收集整理和進(jìn)行查詢,所以我們不僅可以通過系統(tǒng)使用電子文本圖書分類搜索引擎工具來快速實(shí)現(xiàn)對(duì)各種電子圖書分類信息的分門別類,更加方便的進(jìn)行圖書管理[18,在這種結(jié)構(gòu)中也將圖書信息的分類查2.3.3網(wǎng)絡(luò)安全層面在平時(shí)的公安工作中,除了傳統(tǒng)的偵察技術(shù)。例如:技術(shù)偵察、經(jīng)濟(jì)偵察,網(wǎng)絡(luò)安全管理也方興未艾,逐步成為了新型犯罪的主戰(zhàn)場。隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展和不斷普及,人們的隱私信息越來越透明,有些網(wǎng)絡(luò)泄露人們的信息,直接的影響涉及到其他讀者的在線閱讀工作時(shí)間,如果把這些文本信息分類搜索引擎文本導(dǎo)出連接到用于綠色用戶上網(wǎng)的文本功能中,在此類場景下對(duì)于綠色用戶一些需要經(jīng)常訪問的文本內(nèi)容事先對(duì)它做出文本分析,去除其中無用的一些垃圾文本信息,就已經(jīng)完全可以給綠色用戶上網(wǎng)提供許多方便,相信其上網(wǎng)效果還是83基于貝葉斯算法的中文文本分類模型該生基于機(jī)器學(xué)習(xí)的特征分析并進(jìn)行了研究設(shè)計(jì)出基于貝葉斯算法的中文文字分類模型,該模型正是針對(duì)一些內(nèi)容復(fù)雜的中文文本,尤其是針對(duì)既想要將其分類,又想要在此基礎(chǔ)上對(duì)其是否危險(xiǎn)進(jìn)行分析,從這些描述中看出這對(duì)公安工作中在對(duì)相應(yīng)的文本進(jìn)行分類時(shí),還能夠?qū)ζ湮kU(xiǎn)性的內(nèi)容加以掌握,使得公安本文在復(fù)旦大學(xué)選了一些材料。如果將所有的語料庫逐一檢測,時(shí)間快速消耗,因此在研究過程中只統(tǒng)計(jì)特征,從這些技術(shù)可以看明白隨機(jī)抽取樣本對(duì)其測試,僅對(duì)最后結(jié)果分析(成奇遠(yuǎn),陳君朝,2023)。所提供的復(fù)旦大學(xué)語料庫,有個(gè)類別里面的文章數(shù)有著很大的差別,類別不一,此處進(jìn)行分析研究的是樣本數(shù)相對(duì)而言出現(xiàn)次數(shù)較多的。見圖3,在實(shí)驗(yàn)過程中都是隨機(jī)選取其中的文章進(jìn)行試驗(yàn),沒有外界因素的打擾,所以隨機(jī)性的結(jié)果得到保證(陳博文,付澤悅,2017)。體育04632021/5/1116:45文本文檔21KB體育04642021/5/1116:48文本文檔1KB■體育04652021/5/1116:48文本文檔4KB體育04662021/5/1116:48文本文檔3KB體育04672021/5/1116:48文本文檔8KB體育04682021/5/1116:48文本文檔3KB體育04692021/5/1116:48文本文檔8KB體育04702021/5/1116:48文本文檔17KB體育04712021/5/1116:48文本文檔7KB體育04722021/5/1116:49文本文檔8KB體育04732021/5/1116:49文本文檔2KB體育04742021/5/1116:49文本文檔16KB體育04752021/5/1116:49文本文檔9KB體育04772021/5/1116:49文本文檔17KB圖3復(fù)旦大學(xué)語料庫(1)定義類別集合W={W1,W2,··●Wm},如果本語料庫共有8個(gè)類別,則m的值為8。(2)文本集合Wm={S1,S2,·····●Sn},Sn表示某個(gè)類別中的一個(gè)9文章,各文章Sn分別有所屬的類別Wm,例如Sn為計(jì)算機(jī)類時(shí),就存在標(biāo)簽。(3)處理訓(xùn)練集中的所有中文文本并建立空間文本向量,根據(jù)該特征向量及可以有力地支持前文的理論研究,尤其是對(duì)關(guān)鍵概念的理解在理論上得到了進(jìn)一步的深化與拓展。這種深化不僅體現(xiàn)在對(duì)概念內(nèi)涵的深入剖析上,還體現(xiàn)在對(duì)其外延的廣泛探索中。通過對(duì)相關(guān)文獻(xiàn)的梳理和實(shí)證數(shù)據(jù)的分析,本文進(jìn)一步明確了這些關(guān)鍵概念在理論體系中的地位和作用,以及它們之間的相互關(guān)系。同時(shí),這種拓展為本文提供了新的研究視角和思考方向,有助于推動(dòng)該領(lǐng)域理論的進(jìn)一步發(fā)展。本文的研究還強(qiáng)調(diào)了理論與實(shí)踐的緊密結(jié)合,通過將理論分析應(yīng)用于實(shí)際問題的解決,驗(yàn)證了理論的有效性和實(shí)用性,這種結(jié)合也為相關(guān)領(lǐng)域的實(shí)踐提3.2文本向量空間的形成進(jìn)行分詞后語料庫的文章,會(huì)發(fā)現(xiàn)有許多新奇內(nèi)容,每當(dāng)我們產(chǎn)生一個(gè)新的話題,這在一定范圍上展示相應(yīng)的用戶詞典就一定會(huì)把這個(gè)內(nèi)容直接加入到下一每當(dāng)網(wǎng)站上出現(xiàn)了新詞時(shí),將其加入自己的詞典遠(yuǎn),2021)。匯中的單詞和矢量的總大小相同。因此,計(jì)算機(jī)不理解的文本被轉(zhuǎn)換為計(jì)算機(jī)熟悉的矢量形式。然后,這些跡象表明了通過比較矢量間的相似性,或者分析識(shí)別矢量間的差異來進(jìn)行分類。最后,文章轉(zhuǎn)換為向量空間的一個(gè)點(diǎn)(史嘉琪,陳豪,2021)。越不能被表示,在這種狀態(tài)里用這種方法來評(píng)估一個(gè)詞的重要。詞數(shù)和反文檔頻率的大致想法是,一個(gè)單詞與這篇文章的重要性和在本文中出現(xiàn)的頻率成正比,如果語料庫整體出現(xiàn)的次數(shù)過多,該單詞的表達(dá)作用就會(huì)成俊天,2021)。TF(詞頻)計(jì)算公式如:公式3-1其中,D表示語料庫的文章總數(shù),Si表示D所含單詞的文章件數(shù)。在總語料庫中,文章中含有槍的出現(xiàn)了10次,文章總數(shù)為1000,那么槍這個(gè)詞的TF-IDF最后得到i的權(quán)值公式為如:公式3-3舉例3:綜上所述,那么槍這個(gè)詞,在語料庫中的權(quán)值為:TF-IDF計(jì)算權(quán)值的優(yōu)點(diǎn):相比較而言如果不使用該計(jì)算方法,比如說國家的槍這句短語,對(duì)其進(jìn)行分詞“國家”、“的”、“槍”這三個(gè)分詞出現(xiàn)了6次、100次和3次,如果說內(nèi)容這個(gè)詞的值顯然很大,它的總共的貢獻(xiàn)度為0.109,但是“的”在內(nèi)容的比例非常的高,但是看到這個(gè)詞并不能很好的初步了解這個(gè)文章。本文研究背景下我們充分估算了這種情況的影響相反而言,國家與槍這兩個(gè)詞基本能對(duì)內(nèi)容起到一個(gè)很“的”、“槍”為例,控制變量讓這三個(gè)詞出現(xiàn)次數(shù)跟上面的一模一樣。有關(guān)的文本為:含有“國家”的值為10^2,含有“的”的值為10^5,含有“槍”的值為10^3將數(shù)值代入公式。這樣計(jì)算,得出的結(jié)果“的”的權(quán)值為0,“國家”和“槍”分別占了0.018和0.006,這種結(jié)果與上述猜想的內(nèi)容一致(趙瑾萱,付奕辰,2022)。3.3基于貝葉斯算法的中文文本分類模型基于貝葉斯分類器,采用貝葉斯算法是該模型的設(shè)計(jì)思路,首先找到一個(gè)帶有大量中文文本的語料庫,在這樣的環(huán)境中進(jìn)行數(shù)據(jù)的加載,并利用中文文本中形成其文本向量空間,對(duì)其語料庫的訓(xùn)練集中陌生的詞語進(jìn)行收集加載并生成詞典,增加機(jī)器學(xué)習(xí)的容量,然后通過TF-IDF計(jì)算權(quán)重,生成詞頻向量來提高該中文文本分類的可塑性與正確性,如此能夠看出最后在中文文本分類的基礎(chǔ)上對(duì)其文本進(jìn)行簡單的情感分析,結(jié)合公安工作,對(duì)正?;蛭kU(xiǎn)內(nèi)容進(jìn)行判斷,提高公英國數(shù)學(xué)家貝葉斯提出了表示兩個(gè)條件概率之間的關(guān)系,P(A|B)和P(B|A)。按照乘法法則:P(A∩B)=P(A)*P(B|A)=P(B)可以導(dǎo)出貝葉斯定理公式:如上公式也可變形為:全概率的公式:P(X)=P(X|Y1)+P(X|Y2)+3.3.2基于貝葉斯與情感分析結(jié)合分類器在這種結(jié)構(gòu)中如果一個(gè)中文文本其內(nèi)容具有搶劫、錢、槍等危險(xiǎn)的特征,則樸素貝葉斯分類的步驟:設(shè)x={a1,a2,…,am}為待分類項(xiàng),每個(gè)a為x的屬類別集合C={y1,y2,…,yn}.④如果P(yk|x)=max{P(y1|x),P(y2|x)..P(ynx)},則x∈yk。3.3.3分類器總結(jié)通過上述內(nèi)容,原則上來說是通過對(duì)多種分類器的對(duì)比,比較它們的優(yōu)點(diǎn)和缺點(diǎn),最終比較確定了該模型的建立,但是只改進(jìn)單一的分類器又顯得過于單薄,使它在應(yīng)用于各個(gè)領(lǐng)域中略顯無力,最終應(yīng)用到實(shí)踐中并不能很好的解決問題,所以我得思路轉(zhuǎn)移到另一個(gè)方向,在此類場景下也就是將兩類分析的技術(shù)進(jìn)行結(jié)合,讓一加一達(dá)到大于二的成就,于是進(jìn)行分類后我們得知道先驗(yàn)的概率,精準(zhǔn)度將被大幅度提高分類,通過實(shí)驗(yàn)的終果調(diào)整來改變其中果融入其中,促使研究深度有了明顯增進(jìn)。借助對(duì)過往文獻(xiàn)的有序梳理與整合,著力挖掘該領(lǐng)域里尚未得到充分重視的關(guān)鍵問題以及潛在的研究走向。不只是對(duì)已有理論進(jìn)行了更為詳盡的闡釋,且在此根基之上提出了獨(dú)到的研究視角與分析模式。在具體的研究環(huán)節(jié)中,利用先進(jìn)的研究方法與技術(shù)手段,對(duì)該主題實(shí)施多維度、全方位的剖析。打破了傳統(tǒng)研究的藩籬,從微觀視角洞察事物的內(nèi)在法則和關(guān)聯(lián)脈絡(luò),參照其他相關(guān)領(lǐng)域的理論與實(shí)踐案例,為化解該主題下的難題提供在最后提交一個(gè)新型文本的分析過程中由于樸素貝葉斯分類,并且不能真正準(zhǔn)確地進(jìn)行判斷并給出這個(gè)新文本屬類,容易導(dǎo)致分析不精準(zhǔn),即使再用新的分析方式,雖然大大降低了錯(cuò)誤的發(fā)生概率,但最終由于各個(gè)分類方法的加入也很的分門別類,在大體上將其細(xì)化,從這些描述中看出讓其他使用者一目了然,從而晉升工作的效率使其事半功倍。其次在通過簡單的情感分析來判斷該內(nèi)容或者文本的危險(xiǎn)性,這樣可以通過一個(gè)模型的設(shè)計(jì)達(dá)到兩項(xiàng)工作的同時(shí)進(jìn)行。目前的研究趨向和成果與現(xiàn)存的成熟理論框架保持一致,在研究過程中嚴(yán)格依照科學(xué)研究的規(guī)范路徑與嚴(yán)謹(jǐn)作風(fēng)。從研究策劃之初,便全面參考經(jīng)典理論體系的構(gòu)建法則,保證研究框架的合理性與堅(jiān)實(shí)性。數(shù)據(jù)采集階段運(yùn)用多種經(jīng)理論認(rèn)可有效的方式,對(duì)采集到的數(shù)據(jù)運(yùn)用合適的統(tǒng)計(jì)分析策略。在結(jié)果解讀環(huán)節(jié)緊密圍繞已有成熟理論展開。將研究結(jié)論與理論模型進(jìn)行精細(xì)對(duì)比,分析其相似和不同之處。對(duì)于相似的方面,進(jìn)一步講述研究如何豐富和佐證了理論;對(duì)于相異的方面,深入探討其背后的因素,為后續(xù)研究提供參考。跟公安工作相結(jié)合后,可以使公安工作者在處理繁雜的事務(wù)中可以有一絲緩解??梢詾樗麄兊木o張工作貢獻(xiàn)自己的4文本分類實(shí)驗(yàn)驗(yàn)證根據(jù)上述設(shè)計(jì)的模型,其理論性的內(nèi)容已經(jīng)初步形成。實(shí)踐出真知,為了驗(yàn)證上述模型的可行性以及合理性,從這些技術(shù)可以看明白筆者充分進(jìn)行了思考并設(shè)計(jì)相關(guān)的實(shí)驗(yàn),來完成上述模型的建立。本次實(shí)驗(yàn)采用復(fù)旦大學(xué)語料庫作為本次實(shí)驗(yàn)的文本樣本,如圖4所示:文本文檔文本文檔文本文檔文本文檔文本文檔文本文檔文本文檔文本文檔計(jì)算機(jī)0471文本文檔文本文檔文本文檔文本文檔文本文檔計(jì)算機(jī).0476文本文檔4.1.2數(shù)據(jù)加載在加載了該文本樣本的基礎(chǔ)上,文本樣本已經(jīng)被大概的進(jìn)行了分類,然后任意在這中間找到一篇文章也就是所謂的文本樣本之一,進(jìn)行數(shù)據(jù)的加載。postinglist=[['你',是’,‘瘋子','但是’,我’,“想’,"幫助”,'你'],#切分的詞條['我','真的','想','明天',殺','你’,],['明天','四點(diǎn)','去’,'銀行','搶劫',‘我’,‘負(fù)責(zé)','金庫'],['今天','我','看了','一個(gè)','節(jié)目'],['今天','我','打算',把','他,從’,'樓上','推','下去'],['和平年代',公安隊(duì)伍',是','一支','犧牲最多',奉獻(xiàn)最大','的','隊(duì)伍']]圖5數(shù)據(jù)加載4.1.3訓(xùn)練集的加載生成詞典,計(jì)算TF-IDF的值##加載訓(xùn)練集并生成詞典,以及tf,idf值deftrain_set(self,trainset,classVec):self.cate_prob(classVec)#計(jì)算每個(gè)分類在數(shù)據(jù)集中的概率:P(yi)seLf.doclength=Len(seLf.vocablen=len(self.vocabulary)self.calc_wordfreq(trainseself.build_tdm()#按分類累計(jì)向量空間的每維值:P(xlyi)圖6形成詞典4.1.4生成詞頻向量#生成普通的詞頻向量#生成普通的詞頻向量self.tf=np.zeros([self.doclength,self.vocablenself.tf[indx,seLf.vocabulary.index(word)]+=1圖7生成詞頻向量4.1.5計(jì)算分類在數(shù)據(jù)集中的概率defcate_prob(self,classVeself.Labels=classVecforlabeltempinself.Pcates[labeltemp]=float(self.Labels.count(labeltemp))/fLoat(Len(seLf.Labels))圖8計(jì)算分類概率4.1.6測試集映射defcate_prob(self,classVec):seLf.Labels=classVforLabeltempinself.Pcates[labeltemp]=float(self.Labels.count(labeltemp))/float(len(self.Labels))圖9映射4.1.7結(jié)果輸出predicted=clf.predict(testSet.tdm)forflabel,fileame,expct_cateinzip(testSet.label,testSet.print(fileame,":實(shí)際類別:",flabel,"-->預(yù)測類別:",expct_cate)print("eroerate:",float(rate)*100/float(total),"%")圖10結(jié)果輸出圖10結(jié)果輸出defpredict(selftestset):ifnp.shape(testset)[1]!=seLf.vocablen:temp=np.sum(testset*tdm_vect*iftemp>predvalue:圖11結(jié)果輸出4.2實(shí)驗(yàn)結(jié)果針對(duì)以上實(shí)驗(yàn),這在一定范圍上展示第一步將數(shù)據(jù)加載的中文文本進(jìn)行分類如圖4-9,第二步將分類的中文文本隨機(jī)挑選進(jìn)行簡單的情感分析如圖4-10,利用計(jì)算機(jī)可以得出以下結(jié)果:圖12中文文本分類結(jié)果圖13簡單情感分析結(jié)果本實(shí)驗(yàn)以復(fù)旦大學(xué)語料庫中的大量中文文本作為基礎(chǔ),將基于貝葉斯算法的中文文本分類模型實(shí)現(xiàn),并進(jìn)行實(shí)驗(yàn)驗(yàn)證后,可以發(fā)現(xiàn)將其進(jìn)行有效的文本分類,同時(shí)輸出的結(jié)果可以了解到文本內(nèi)容的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工程經(jīng)濟(jì)前沿知識(shí)試題及答案
- 工程項(xiàng)目中經(jīng)濟(jì)性評(píng)價(jià)的重要指標(biāo)試題及答案
- 經(jīng)濟(jì)法概論考試題型探索試題及答案
- 2025年部門級(jí)安全培訓(xùn)考試試題及答案(典優(yōu))
- 精準(zhǔn)備考2025年中級(jí)經(jīng)濟(jì)師的試題及答案
- 2025-2030年鎂合金產(chǎn)業(yè)園區(qū)定位規(guī)劃及招商策略咨詢報(bào)告
- 2025-2030年銀杏茶葉市場市場現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年量子通訊行業(yè)市場深度調(diào)研及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 2025-2030年軌道檢查儀行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報(bào)告
- 2025-2030年花生行業(yè)市場現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 人教版二年級(jí)下冊(cè)數(shù)學(xué)-家長會(huì)-課件
- 4:氣質(zhì)類型問卷測試
- 2023年湖北數(shù)學(xué)高考卷-理科(含答案)
- 政務(wù)服務(wù)附有答案
- 傳統(tǒng)園林技藝智慧樹知到期末考試答案章節(jié)答案2024年華南農(nóng)業(yè)大學(xué)
- 店長入股門店合同范本
- 《湖南省職工基本醫(yī)療保險(xiǎn)門診慢特病基礎(chǔ)用藥指南(第一批)》
- 醫(yī)院護(hù)理不良事件報(bào)告表
- 湖北省武漢市漢陽區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期期末數(shù)學(xué)試題
- 海上風(fēng)電場數(shù)據(jù)融合與智能化
- 醫(yī)療器械質(zhì)量體系迎審
評(píng)論
0/150
提交評(píng)論