




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
實(shí)訓(xùn)10美團(tuán)美食店鋪數(shù)據(jù)分析實(shí)訓(xùn)項(xiàng)目背景美團(tuán)網(wǎng)是一個(gè)以“吃”為核心,為用戶提供美食、酒店、電影、購(gòu)物等類型的團(tuán)購(gòu)網(wǎng)站。用戶在網(wǎng)站瀏覽美食信息的同時(shí)希望找到一家服務(wù)質(zhì)量高且價(jià)格實(shí)惠的商家,并且能從其他消費(fèi)者的評(píng)價(jià)中找到參考價(jià)值。本項(xiàng)目以美團(tuán)網(wǎng)美食店鋪為例,首先對(duì)美食商家數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),分析成都市各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)等基本情況,然后運(yùn)用聚類算法對(duì)商家進(jìn)行分類研究,針對(duì)不同類別的商家給出相應(yīng)的經(jīng)營(yíng)決策建議;最后,針對(duì)某熱門店鋪的評(píng)論數(shù)據(jù)進(jìn)行中文情感分析,幫助商家了解用戶對(duì)商品的關(guān)注點(diǎn)、需求點(diǎn),以及商品本身的不足點(diǎn)和店鋪服務(wù)相關(guān)的問題。實(shí)訓(xùn)任務(wù)分析成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況分析成都美食種類和受歡迎程度分析5分好評(píng)店鋪分布區(qū)域、評(píng)價(jià)次數(shù)、人均消費(fèi)情況利用K-Means算法對(duì)成都美食店鋪進(jìn)行分類,探索各類別店鋪特征分析某熱門店鋪的評(píng)論情感傾向,構(gòu)建中文情感分類模型數(shù)據(jù)準(zhǔn)備美食店鋪信息,采集字段包括店鋪名稱、地址、評(píng)分、評(píng)論數(shù)和人均消費(fèi);某店鋪用戶評(píng)論信息,包括用戶評(píng)論時(shí)間、評(píng)分和評(píng)論內(nèi)容;數(shù)據(jù)準(zhǔn)備美食店鋪信息,采集字段包括店鋪名稱、地址、評(píng)分、評(píng)論數(shù)和人均消費(fèi);數(shù)據(jù)準(zhǔn)備某店鋪用戶評(píng)論信息,包括用戶評(píng)論時(shí)間、評(píng)分和評(píng)論內(nèi)容;分析步驟知識(shí)儲(chǔ)備
聚類分析例如:有16張牌,如何將他們分為一組一組的牌?AKQJ知識(shí)儲(chǔ)備
聚類分析分成四組:每組里花色相同,組與組之間花色相異,花色相同的牌為一副。AKQJ知識(shí)儲(chǔ)備
聚類分析分成四組:符號(hào)相同的牌為一組AKQJ知識(shí)儲(chǔ)備
聚類分析聚類分析(clusteranalysis),簡(jiǎn)稱聚類(clustering),是指根據(jù)給定的樣本數(shù)據(jù)集的描述信息,發(fā)現(xiàn)由具有共同特性的對(duì)象構(gòu)成的子集的過程。每個(gè)子集是一個(gè)簇(cluster),聚類分析的過程遵循以下基本原則:屬于同一個(gè)簇的對(duì)象相似度很高,而屬于不同簇的對(duì)象相似度很低,即“高內(nèi)聚、低耦合”。簇內(nèi)相似度越高、簇間相似度越低,說明聚類效果越好。知識(shí)儲(chǔ)備
聚類方法1.層次化聚類算法(BIRCH、CURE)2.劃分式聚類算法(K-Means、K-Medoids)3.基于密度聚類算法(DBSCAN)4.基于模型聚類算法(EM、SOM)知識(shí)儲(chǔ)備K-Means聚類算法算法流程:1.隨機(jī)選取K個(gè)樣本作為類中心;2.計(jì)算各樣本與各類中心的距離;3.將各樣本歸于最近的類中心點(diǎn);4.求各類的樣本的均值,作為新的類中心;5.判定:若類中心不再發(fā)生變動(dòng)或達(dá)到迭代次數(shù),算法結(jié)束,否則回到第2步。知識(shí)儲(chǔ)備
文本挖掘文本挖掘是一個(gè)以半結(jié)構(gòu)(如WEB網(wǎng)頁)或者無結(jié)構(gòu)(如純文本)的自然語言文本為對(duì)象的數(shù)據(jù)挖掘,是從大規(guī)模文本數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、重要的、新穎的、潛在的有用的規(guī)律的過程。直觀的說,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過程就稱為文本挖掘。文本數(shù)據(jù)獲取文本預(yù)處理向量表示數(shù)據(jù)挖掘知識(shí)儲(chǔ)備
中文分詞1.機(jī)械分詞法(基于詞典):簡(jiǎn)單實(shí)用,但嚴(yán)重依賴于詞典,分詞效果得不到保障;2.基于語法和規(guī)則分詞法:尚無明確標(biāo)準(zhǔn)能很好分詞,還處在試驗(yàn)階段;3.基于統(tǒng)計(jì)的分詞法:機(jī)器學(xué)習(xí)算法。知識(shí)儲(chǔ)備
中文分詞結(jié)巴分詞(jieba):最好的Python中文分詞組件,可以對(duì)中文文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞抽取等功能,并且支持自定義詞典。
支持三種分詞模式:精確模式:將句子最精確的分開,適合文本分析全模式:句子中所有可以成詞的詞語都掃描出來,速度快,不能解決歧義搜索引擎模式:在精確的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回
支持繁體分詞
支持自定義詞典知識(shí)儲(chǔ)備
中文分詞三者區(qū)別:list(jieba.cut("我來到北京清華大學(xué)"))#['我','來到','北京','清華大學(xué)']list(jieba.cut("我來到北京清華大學(xué)",cut_all=True))#['我','來到','北京','清華','清華大學(xué)','華大','大學(xué)']list(jieba.cut_for_search("我來到北京清華大學(xué)"))#['我','來到','北京','清華','華大','大學(xué)','清華大學(xué)']知識(shí)儲(chǔ)備
文本向量化——詞袋法第一步,分詞(在中文里,“詞”和“詞組”邊界模糊)句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞
我,喜歡,看,電視,電影,不,也。第三步,計(jì)算詞頻。句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量。句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]知識(shí)儲(chǔ)備
文本向量化——TF-IDF假定現(xiàn)在有一篇長(zhǎng)文《中國(guó)的蜜蜂養(yǎng)殖》,我們準(zhǔn)備用計(jì)算機(jī)提取它的關(guān)鍵詞。我們可能發(fā)現(xiàn)"中國(guó)"、"蜜蜂"、"養(yǎng)殖"這三個(gè)詞的出現(xiàn)次數(shù)一樣多。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?詞頻(TF)表示詞條(關(guān)鍵字)在文本中出現(xiàn)的頻率。在詞頻的基礎(chǔ)上,要對(duì)每個(gè)詞分配一個(gè)"重要性"權(quán)重。最常見的詞("的"、"是"、"在")給予最小的權(quán)重,較常見的詞("中國(guó)")給予較小的權(quán)重,較少見的詞("蜜蜂"、"養(yǎng)殖")給予較大的權(quán)重。這個(gè)權(quán)重叫做"逆文檔頻率"(InverseDocumentFrequency,縮寫為IDF),它的大小與一個(gè)詞的常見程度成反比。知識(shí)儲(chǔ)備
文本向量化——TF-IDF知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。第一步:計(jì)算詞頻不同的文章總的字?jǐn)?shù)不一樣,為了便于比較,通常進(jìn)行一個(gè)“標(biāo)準(zhǔn)化”。知識(shí)儲(chǔ)備
文本向量化——TF-IDF第二步,計(jì)算逆文檔頻率。需要一個(gè)語料庫(kù)(corpus),用來模擬語言的使用環(huán)境。指經(jīng)科學(xué)取樣和加工的大規(guī)模電子文本庫(kù)。如果一個(gè)詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對(duì)得到的值取對(duì)數(shù)。知識(shí)儲(chǔ)備
文本向量化——TF-IDF第三步,計(jì)算TF-IDFTF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。知識(shí)儲(chǔ)備
文本向量化——TF-IDF以《中國(guó)的蜜蜂養(yǎng)殖》為例。假定該文長(zhǎng)度為1000個(gè)詞,"中國(guó)"、"蜜蜂"、"養(yǎng)殖"各出現(xiàn)20次,則這三個(gè)詞的"詞頻"(TF)都為0.02。然后,搜索發(fā)現(xiàn),包含“的”字的文檔共有250億張,假定這就是中文網(wǎng)頁(文檔)總數(shù)。包含"中國(guó)"的網(wǎng)頁共有62.3億張,包含"蜜蜂"的網(wǎng)頁為0.484億張,包含"養(yǎng)殖"的網(wǎng)頁為0.973億張。則它們的逆文檔頻率(IDF)和TF-IDF如下:知識(shí)儲(chǔ)備
中文情感分析情感分析(SentimentAnalysis)是自然語言處理領(lǐng)域的一個(gè)重要的研究方向。它的目的是挖掘文本要表達(dá)的情感觀點(diǎn),對(duì)文本按情感傾向進(jìn)行分類。情感分析在工業(yè)領(lǐng)域有著廣泛的應(yīng)用場(chǎng)景。例如,電商網(wǎng)站根據(jù)商品評(píng)論數(shù)據(jù)提取評(píng)論標(biāo)簽,調(diào)整評(píng)論顯示順序;影評(píng)網(wǎng)站根據(jù)電影評(píng)論來評(píng)估電影口碑,預(yù)測(cè)電影是否賣座;外賣網(wǎng)站根據(jù)菜品口味、送達(dá)時(shí)間、菜品豐富度等用戶情感指數(shù)來改進(jìn)外賣服務(wù)等。情感分析方法可以分為兩大類:一是基于情感詞典的方法,一是基于機(jī)器學(xué)習(xí)算法的方法。知識(shí)儲(chǔ)備
中文情感分析基于情感詞典的方法對(duì)輸入的句子進(jìn)行情感分析時(shí),首先對(duì)句子進(jìn)行分詞,然后獲取各個(gè)詞在情感詞典中的情感打分,最后將所有詞的情感打分加起來得到句子的情感分?,F(xiàn)有情感詞典大連理工大學(xué)中文情感詞典知網(wǎng)HowNet臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文情感詞典清華大學(xué)李軍中文褒貶義詞典BosonNLP微博情感詞典.....知識(shí)儲(chǔ)備
中文情感分析基于機(jī)器學(xué)習(xí)算法第三方工具庫(kù)項(xiàng)目中需要安裝的第三方工具庫(kù)如下:jieba:分詞庫(kù),pipinstalljiebacpca:中文地址處理庫(kù),pipinstallcpca項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況項(xiàng)目分析報(bào)告成都各區(qū)域店鋪數(shù)量、評(píng)分、人均消費(fèi)情況通過上述分析,可以知道各區(qū)店鋪數(shù)量差距較大,武侯區(qū)和錦江區(qū)的店鋪數(shù)位居前列,邛崍市和青白江區(qū)的店鋪數(shù)量較少。成都各區(qū)域店鋪評(píng)分總體差距不大,且多數(shù)在4分以上,說明顧客對(duì)商家的態(tài)度是積極的。各區(qū)最高消費(fèi)差異明顯,但人均消費(fèi)基本保持在50-80區(qū)間,說明顧客更喜歡中檔層次消費(fèi)。建議高消費(fèi)店鋪,適當(dāng)推出優(yōu)惠活動(dòng),促進(jìn)消費(fèi)。而中層消費(fèi),只需繼續(xù)保持口碑,持續(xù)發(fā)展即可。對(duì)于發(fā)展較好的城區(qū),重在保持客戶的發(fā)展,不讓客戶流失。店鋪較少的城區(qū),將口味做好,適當(dāng)宣傳,以此發(fā)展,吸引顧客。項(xiàng)目分析報(bào)告5分好評(píng)店鋪基本情況分析5分好評(píng)的店鋪,共計(jì)167家。根據(jù)用戶評(píng)價(jià)次數(shù)對(duì)店鋪降序排序,得到評(píng)價(jià)次數(shù)靠前的10家熱門店鋪。從圖中可看出,成都市5分好評(píng)且消費(fèi)人數(shù)最多的10家美食店,人均消費(fèi)都沒有超過100元,且火鍋在熱門商鋪中呼聲較高。而且用戶對(duì)于店鋪評(píng)價(jià)受價(jià)格的因素影響小,更追求店鋪本身的品質(zhì)。項(xiàng)目分析報(bào)告成都美食種類詞云圖展示通過對(duì)所有店鋪名稱進(jìn)行分詞,繪制詞云圖,分析成都美食種類以及受歡迎程度。由詞云圖中可以看出火鍋類店鋪數(shù)量居首位,在成都地區(qū)的餐飲行業(yè)中占據(jù)一定的市場(chǎng)規(guī)模且是更加符合成都人民的飲食喜好的,從其他詞匯也可看出火鍋形式的多樣化:如海鮮,魚頭,串串等。從詞云圖也可看出成都地區(qū)美食類型的多樣化,側(cè)面也表現(xiàn)出用戶對(duì)于各類美食的接受度較高及成都餐飲行業(yè)逐步朝向多元化,特色本土化發(fā)展。項(xiàng)目分析報(bào)告基于K-Means算法的店鋪分類根據(jù)K-Means聚類模型的結(jié)果,類別為0(店鋪群1)的店鋪評(píng)分偏低,評(píng)價(jià)數(shù)中等,人均消費(fèi)中等;類別為1(店鋪群2)的店鋪評(píng)分較高,評(píng)價(jià)數(shù)中等,人均消費(fèi)中等;類別為2(店鋪群3)的店鋪評(píng)分中等,評(píng)價(jià)數(shù)較高,人均消費(fèi)較高。綜合分析,第三類店鋪消費(fèi)次數(shù)多,人均消費(fèi)較其他兩類高,但評(píng)分不佳,屬于“網(wǎng)紅型”店鋪。第二類店鋪消費(fèi)次數(shù)一般,人均消費(fèi)適中,但其評(píng)分較高,屬于“口碑型”店鋪。第一類三個(gè)特征表現(xiàn)都一般,屬于“大眾型”店鋪。項(xiàng)目分析報(bào)告A店鋪的用戶評(píng)論情感傾向分析從正面和負(fù)面評(píng)論詞云圖中可以看出,A店鋪的菜品和味道是用戶提到最多的,說明用戶最關(guān)注的就是菜品和味道。但是從圖2中可知,“服
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理教學(xué)文獻(xiàn)核心要點(diǎn)解析
- 轉(zhuǎn)讓美團(tuán)店鋪協(xié)議書
- 食堂合作使用協(xié)議書
- 買賣二手機(jī)合同協(xié)議書
- 車險(xiǎn)事故雙方協(xié)議書
- 做生意租賃合同協(xié)議書
- 鎮(zhèn)區(qū)保潔垃圾協(xié)議書
- 項(xiàng)目出資合同協(xié)議書
- 門窗經(jīng)銷合伙協(xié)議書
- 鋼琴老師合伙協(xié)議書
- 23J916-1 住宅排氣道(一)
- 工程合同管理課程設(shè)計(jì)實(shí)踐報(bào)告
- 專題十五 民事權(quán)利與義務(wù)(考點(diǎn)講析+練習(xí))-2025年高考政治三輪沖刺過關(guān)(全國(guó)適用)
- 小學(xué)英語人教PEP版三至六年級(jí)全冊(cè)單詞詞匯默寫打印
- 2023-2024學(xué)年湖南省長(zhǎng)沙市長(zhǎng)沙縣八年級(jí)(下)月考數(shù)學(xué)試卷(6月份)(含答案)
- 2023年基金從業(yè)資格考試知識(shí)點(diǎn)、考點(diǎn)總結(jié)
- JGJ80-2016 建筑施工高處作業(yè)安全技術(shù)規(guī)范
- 2023年新疆烏魯木齊一中自主招生物理試卷試題(含答案)
- 國(guó)開(河北)2024年《中外政治思想史》形成性考核1-4答案
- 巴金名著導(dǎo)讀《激流三部曲》
- 吸煙與肺結(jié)核雙重危害的防范
評(píng)論
0/150
提交評(píng)論