




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 廣西大學數(shù)學與信息科學學院商務智能課程論文題目:商務智能在大眾點評中的應用 小組成員:1111200139 藍承妙 1111200202 劉金香 摘要:大眾點評是中國領先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站,它不僅為網(wǎng)友提供商戶信息、消費點評及消費優(yōu)惠等信息服務,同時亦提供團購及餐廳預訂等O2O(Online To Offline)交易服務。本文通過分類回歸樹和關聯(lián)規(guī)則挖掘出大眾點評數(shù)據(jù)中關于全國各地美食商家的可用信息。關鍵字:大眾點評 分類回歸樹 關聯(lián)規(guī)則 SPSS一、背景 隨著互聯(lián)網(wǎng)的出現(xiàn)與飛速發(fā)展,人們的生活方式一直在發(fā)生著巨大的變化。特別是交通、購物、飲
2、食、住宿、教育等各方面均受到來自互聯(lián)網(wǎng)的極大的影響。大眾點評便是一個影響人們?nèi)粘I?,方便人們娛樂、飲食的點評網(wǎng)站。大眾點評是中國領先的本地生活信息及交易平臺,也是全球最早建立的獨立第三方消費點評網(wǎng)站。大眾點評不僅為網(wǎng)友提供商戶信息、消費點評及消費優(yōu)惠等信息服務,同時亦提供團購、電子會員卡及餐廳預訂等O2O(Online To Offline)交易服務。大眾點評是國內(nèi)最早開發(fā)本地生活移動應用的企業(yè),已經(jīng)成長為一家移動互聯(lián)網(wǎng)公司,大眾點評移動客戶端已成為本地生活必備工具。本文使用的數(shù)據(jù)為大眾點評網(wǎng)在2014年4月份更新后的商家數(shù)據(jù),其中包含全國各地區(qū)1000家美食店相關數(shù)據(jù),包括商戶ID(sho
3、p_id)、商戶名稱(name)、所處省份(province)、城市(city)、區(qū)(area)、具體地址(address)、聯(lián)系電話(phone)、營業(yè)時間(hours)、平均物價(avg_price)、會員卡服務、大眾對其產(chǎn)品的各類評價等級、環(huán)境、服務等級等數(shù)據(jù)項。為了有效的使用該數(shù)據(jù),本文運用分類回歸樹、關聯(lián)規(guī)則兩種數(shù)據(jù)挖掘方法對該數(shù)據(jù)進行分析。二、分類回歸樹(C&RT) 2.1 C&R tree 分類回歸樹(C&R tree,全稱為the classification and regression tr
4、ee)是一種基于樹的分類和預測方法,模型使用簡單,易于理解(規(guī)則解釋起來更簡明易),該方法通過在每個步驟最大限度降低不純潔度,使用遞歸分區(qū)來將訓練記錄分割為組。 2.2 目的 通過分析數(shù)據(jù)中存在的預測因子變量,如店鋪的環(huán)境等級、產(chǎn)品等級和服務等級等預測并分類,為新用戶在選擇是否光顧某家店鋪提供決策依據(jù)。 2.3 數(shù)據(jù)整理原始數(shù)據(jù)中包含的內(nèi)容多而繁雜,為了方便研究,我們從中篩選了涉及店家評價的數(shù)據(jù)項avg_price、product_rating、environment_rating、service_rating、very_good_remarks、good_remarks、common_rem
5、arks、bad_remarks、very_bad_remarks進行整理,將very_good_remarks、good_remarks、common_remarks這三個字段處理為積極評價,字段jiji的值為這三個字段的總和,視為對該店家的積極評價,將bad_remarks、very_bad_remarks這二個字段處理為消極評價,字段xiaoji的值為這二個字段的總和,為該店家的消極評價。新增字段hh取值為0和1,判定該店鋪是否值得新客戶選擇,如果該店鋪消極評價(xiaoji)的值小于總評價(jiji+xiaoji)的10%,則認為該店鋪值得選擇,hh的值為1;反之,則為0,該店鋪不值得
6、選擇。整理后的數(shù)據(jù):avg_price、product_rating、environment_rating、service_rating、hh。 2.4 創(chuàng)建決策樹將整理后的數(shù)據(jù)添加到SPSS工作區(qū)域,再添加一個類型節(jié)點。在類型節(jié)點中,選擇Read Value來為指定的字段讀取數(shù)據(jù)。選擇hh字段,將其type設為Flag,Direction設為Out,如圖1所示。其余所有字段都作為預測因子變量,將Direction設為In。圖1 在類型節(jié)點中設置相關參數(shù) 在類型節(jié)點上連接一個C&RT節(jié)點,設置其參數(shù),選擇簡單模式(Simple Mode),如圖2所示。圖2 Simple標簽 運行C&a
7、mp;RT節(jié)點,出現(xiàn)交互式窗口,完全展開的決策樹如圖3所示。圖3 C&RT決策樹2.4 分析決策樹從圖3可以看到第一層的劃分是根據(jù)product_rating,第二層的劃分根據(jù)environment_rating,第三層service_rating。從節(jié)點1中,可以看出若大眾對某店家product的綜合評分在8.25分以上,那么該店家值得光顧;product的綜合評分在8.25分以下,則可以參考其環(huán)境評分,若environment_rating大于6.75分,說明其環(huán)境優(yōu)美,值得光顧;同理,若其環(huán)境評分低于6.75,則可參考其員工服務質量。從店鋪角度也能通過該決策樹以及其自身在大眾點評
8、網(wǎng)上的各項評分來做相應的調(diào)整,以提高自身的收益。2.5 評估模型根據(jù)創(chuàng)建當前決策樹生成評估模型(Generate Model)hh1,工作區(qū)中將hh1與類型節(jié)點連接起來,在模型設置標簽中選擇“Calculate confidence”和“Rule identifier”,如圖4所示。最后,連接一個數(shù)據(jù)表節(jié)點,并運行當前數(shù)據(jù)流,如圖5所示。圖4 計算置信度與規(guī)則識別圖5 數(shù)據(jù)流示意圖 運行后的數(shù)據(jù)表列出了那些有可能大眾點評中總評價好的美食店家記錄,如圖6所示。$R-hh列的值表明預測結果,若其值為1,預測該店家值得新用戶光顧。圖6 數(shù)據(jù)表 2.6 小結通過整理原始數(shù)據(jù)中大眾對1000家全國各地的
9、店家的積極、消極評價,分析預測因子變量,例如avg_price、product_rating、environment_rating、service_rating,可以預測并分類1000家店鋪是否值得光顧,并且能夠為提高店家自身評價、收益做出決策。三、關聯(lián)規(guī)則分析3.1 目的根據(jù)大眾點評網(wǎng)上提及的店鋪提供的美食分類來研究各省份受歡迎的美食,從而可以得出該省份的飲食習慣。3.2 數(shù)據(jù)整理 選取原始數(shù)據(jù)中的province、city、area、small_cate字段,進行篩選。記錄所有的small_cate,若某省某市某地區(qū)的店鋪提供該類食物,標記為1,否則為0。合成一個新的表格,將數(shù)據(jù)導入到SP
10、SS中,連接數(shù)據(jù)集,讀取字段名,然后連接一個類型節(jié)點,運行,顯示結果如圖7所示。圖7 整理后的數(shù)據(jù)(部分截圖) 用GRI算法生產(chǎn)關聯(lián)規(guī)則來了解各省的飲食習慣,選擇在建模過程中使用到的字段變量,將province與所有食物類別的Direction值設為Both編輯類型節(jié)點如圖8所示。圖8 在類型節(jié)點中設置字段的Direction值 添加一個GRI節(jié)點,編輯該節(jié)點,選擇“Only true values for flags”運行,瀏覽新生成的模型,查看它所包含的關聯(lián)規(guī)則。這些規(guī)則顯示了某省與某食物類型之間的關聯(lián)規(guī)則,選擇按照置信度排序方式,結果如圖9所示,例如北京與北京菜置信度為1,表明北京人喜歡
11、吃北京菜;廣州與茶餐廳置信度為1,表明廣州人喜歡喝早茶或下午茶等。圖9 使用GRI模型各個省份與食物分類之間的關聯(lián)關系四、總結我們合理利用現(xiàn)有的大眾點評網(wǎng)上全國1000家美食店鋪的相關信息,通過決策樹與關聯(lián)規(guī)則方法挖掘潛在的商業(yè)信息,為苦于尋找美食的廣大的“吃貨”們提供可參考的店鋪數(shù)據(jù),同時也為各個商家提高自身客戶源與收益做出決策。從顧客方面考慮,利用大眾點評網(wǎng)中大眾對美食店鋪的各項評價,通過數(shù)據(jù)收集、分類并存放到數(shù)據(jù)倉庫之后,建立模型,進行分析,運用決策樹方法,分別從食物等級、環(huán)境等級和員工服務等級方面判定該店鋪是否值得光顧,為顧客提供便利。 從商家方便考慮,零售企業(yè)管理中知識化的管理模式是企業(yè)獲得持續(xù)競爭優(yōu)勢的源泉,而數(shù)據(jù)挖掘技術是挖掘企業(yè)潛在的、有用的、有價值信息的有力工具,為從數(shù)據(jù)海洋中挖掘相關知識提供了技術保障。通過大眾點評網(wǎng)獲取的某美食店鋪累積的大量數(shù)據(jù),運用關聯(lián)規(guī)則方法,從而識別全國各地區(qū)的廣大群眾的口味,了解顧客消費行為,發(fā)現(xiàn)顧客選擇光顧店鋪模式和趨勢,可以提供各商家為滿足大眾需求的創(chuàng)業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年家具、建筑用金屬附件及架座投資申請報告代可行性研究報告
- 2023年高考全國甲卷數(shù)學(理)真題
- 長江大學c語言期末考試試題及答案
- 財務預算編制計劃
- 學生邏輯思維能力培養(yǎng)計劃
- 聚焦業(yè)績提升的年度行動計劃
- 秘書如何應對工作挑戰(zhàn)計劃
- 制定合理的班級作息時間計劃
- 影像科技術進步與應用總結計劃
- 開展班級交流活動的方案計劃
- 人口社會學(第二版) 課件 第9、10章 社會分層、人口貧困
- 電大《管理英語3》1-8單元試題附答案
- 帶狀皰疹性腦膜腦炎的治療及護理
- 2023年擴散膜行業(yè)市場需求分析報告及未來五至十年行業(yè)預測報告
- 老年患者預防燙傷
- 2024年江蘇綠色東海投資發(fā)展集團有限公司招聘筆試參考題庫附帶答案詳解
- GB/T 43564-2023中小學合成材料面層田徑場地
- 知行合一:王陽明傳
- 廣告宣傳欄及雕塑采購項目服務投標方案(技術標)
- 國開《Windows網(wǎng)絡操作系統(tǒng)管理》形考任務4-配置故障轉移群集服務實訓
- 波浪理論基礎圖解
評論
0/150
提交評論