




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
新知傳授任務(wù)實施課堂小結(jié)文本數(shù)據(jù)分析《海洋大數(shù)據(jù)分析與應(yīng)用》天津海運職業(yè)學(xué)院新課導(dǎo)入學(xué)習(xí)目標(biāo)課中講授實操演練課堂小結(jié)了解熟悉掌握掌握了解NLTK與jieba12掌握文本預(yù)處理,文本情感分析掌握文本相似度,文本分類34熟悉NLTK與jieba庫的安裝大國崛起,樹立民族自豪感和社會責(zé)任感手機芯片市場份額,華為麒麟芯片的自主研發(fā),將塑造大國信仰、科技獨立自主的傳承等案例融入(思政目標(biāo)),增強學(xué)生對專業(yè)的理解和認同,提升專業(yè)基礎(chǔ)知識和自主設(shè)計學(xué)習(xí)熱情(教學(xué)目標(biāo)),使學(xué)生理解電子科技對國家政治、經(jīng)濟中的重要性。01文本數(shù)據(jù)分析工具02文本預(yù)處理03文本情感分析新課導(dǎo)入學(xué)習(xí)目標(biāo)課中講授實操演練課堂小結(jié)自然語言處理(NLP)領(lǐng)域是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向,它主要研究實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授通過一張表來列舉NLTK中用于語言處理任務(wù)的一些常用模塊。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授NLTK中語言處理任務(wù)的常用模塊。(續(xù)表)新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授Jieba庫擁有以下一些特點:支持三種分詞模式支持繁體分詞支持自定義詞典新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授Jieba庫支持以下三種分詞模式:精確模式試圖將句子最精確地切開,適合文本分析。全模式把句子中所有可以成詞的詞語都掃描出來,速度非???,但是不能解決歧義。搜索引擎模式在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授大家可以參考/fxsjy/jieba網(wǎng)址進行全面學(xué)習(xí)。后期在使用到j(luò)ieba庫的某些功能時,會再另行單獨介紹。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授02文本預(yù)處理預(yù)處理的流程文本預(yù)處理一般包括分詞、詞形歸一化、刪除停用詞,具體流程如下所示:新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授根據(jù)中文的結(jié)構(gòu)特點,可以把分詞算法分為以下三類:基于規(guī)則的分詞方法按照一定的策略將待分析的中文句子與一個“充分大的”機器詞典中的詞條進行匹配。基于統(tǒng)計的分詞方法它的基本思想是常用的詞語是比較穩(wěn)定的組合?;诶斫獾姆衷~方法它的基本思想是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。凡是有度,過猶不及
語法規(guī)則強制類型轉(zhuǎn)換就好比將大瓶水倒入到小瓶中一樣,如果大瓶中的水的容量小于小瓶的大小,那么水是可以完全倒入的;否則多出來的水就會溢出。告知同學(xué)們水滿則溢,日滿則虧,人生的巧妙就在于做人有尺、做事有度,情感、情緒、理智處在平衡狀態(tài),不要過猶不及。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授要想使用NLTK對英文句子分詞,則可以調(diào)用word_tokenize()函數(shù)基于空格或標(biāo)點進行劃分,并返回單詞列表。sentence='Ilikebule.'#將句子切分為單詞words=nltk.word_tokenize(sentence)['I','like','bule','.']新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授要想使用jieba對中文句子分詞,則可以通過jieba.cut()
函數(shù)進行劃分,該函數(shù)接收如下三個參數(shù):
需要分詞的字符串。cut_all參數(shù)用來控制是否采用全模式。HMM參數(shù)用來控制是否使用HMM模型。新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授如果將cut_all參數(shù)設(shè)為True,則表示按照全模式進行分詞,示例如下:sentence='傳智專修學(xué)院推出顛覆式辦學(xué)模式'#全模式劃分中文句子terms_list=jieba.cut(sentence,cut_all=True)print('【全模式】:'+'/'.join(terms_list))【全模式】:傳/智/專修/修學(xué)/學(xué)院/推出/顛覆/式/辦學(xué)/模式新知講授課中講授實操演練課堂小結(jié)新課導(dǎo)入課中講授如果將cut_all參數(shù)設(shè)為False,則表示的是按照精確模式進行分詞,示例如下:sentence='傳智專修學(xué)院推出顛覆式辦學(xué)模式'#全模式劃分中文句子terms_list=jieba.cut(sentence,cut_all=False)print('【精確模式】:'+'/'.join(terms_list))【精確模式】:傳智/專修/學(xué)院/推出/顛覆/式/辦學(xué)/模式新知講授課堂小結(jié)新課導(dǎo)入課中講授課中講授實操演練案例—商品評價信息分析importpandasaspdfromnltkimportFreqDistimportjiebafile_path=open(r'C:\Users\admin\Desktop\商品評價信息.csv')file_data=pd.read_csv(file_path)file_data新知講授課堂小結(jié)新課導(dǎo)入課中講授課中講授實操演練案例—商品評價信息分析#加載停用詞表file_path=open(r'C:\Users\admin\Desktop\停用詞表.txt',encoding='utf-8')stop_words=file_path.read()#刪除停用詞#新建一個空列表,用于存儲刪除停用詞后的數(shù)據(jù)new_data=[]forwordincut_words:ifwordnotinstop_words:new_data.append(word)new_data新知講授課堂小結(jié)新課導(dǎo)入課中講授課中講授實操演練案例—商品評價信息分析#導(dǎo)入所需要使用的包frommatplotlibimportpyplotaspltfromwordcloudimportWordCloud#詞云顯示font=r'C:\Windows\Fonts\STXINGKA.TTF'#華文行楷wc=WordCloud(font_path=font,background_color='white',width=1000,height=800).generate("".join(new_data))plt.imshow(wc)#用plt顯示圖片plt.axis('off')#不顯示坐標(biāo)軸plt.show()#顯示圖片課堂小結(jié)新課導(dǎo)入課中講授課中講授實操演練課堂小結(jié)本章主要介紹了文本分析的相關(guān)知識,具體包括文本分析工具的安裝及基本使用、文本預(yù)處理和文本情感分析,最后結(jié)合所學(xué)的知識開發(fā)了一個商品評價分析的案例。希望大家通過對本章的學(xué)習(xí),可以理解文本數(shù)據(jù)分析的原理,以便后續(xù)能基于機器學(xué)習(xí)更深入地去探索。團
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)字孿生技術(shù)發(fā)展與市場前景洞察
- 考試準(zhǔn)備要點2025年中級經(jīng)濟師試題及答案
- 2025年航空航天零部件高精度加工技術(shù)高溫合金成形技術(shù)研究報告
- 2025年低碳城市規(guī)劃與城市綠色建筑市場前景分析報告
- 行政管理考試策略與試題及答案高分秘籍
- 2025年中級經(jīng)濟師知識總結(jié)與試題及答案
- 城市防洪工程建設(shè)2025年社會穩(wěn)定風(fēng)險評估與治理體系建設(shè)研究報告
- 2025年工業(yè)互聯(lián)網(wǎng)平臺TEE在工業(yè)數(shù)據(jù)安全存儲中的應(yīng)用策略報告
- 水利水電工程生態(tài)修復(fù)措施研究試題及答案
- 行政管理公文結(jié)構(gòu)的設(shè)計思路試題及答案
- 水稻工廠化育秧技術(shù)規(guī)程
- 污水處理設(shè)備運行記錄臺賬
- 2024年合肥市蜀山區(qū)中考二模英語試題含答案
- 抖音團購培訓(xùn)
- (古詩對比閱讀)《登幽州臺歌》與《登飛來峰》聯(lián)讀設(shè)計2022
- 影視特效與欄目包裝智慧樹知到期末考試答案2024年
- 如何有效地開展集體備課
- MOOC 工程經(jīng)濟學(xué)原理-東南大學(xué) 中國大學(xué)慕課答案
- 湖北省武漢市武昌區(qū)2022-2023學(xué)年六年級下學(xué)期期中數(shù)學(xué)試卷
- 經(jīng)濟博弈論(山東聯(lián)盟)智慧樹知到期末考試答案2024年
- 2024年廣東廣州交易集團有限公司招聘筆試參考題庫附帶答案詳解
評論
0/150
提交評論