數(shù)據(jù)挖掘電商情感分析_第1頁
數(shù)據(jù)挖掘電商情感分析_第2頁
數(shù)據(jù)挖掘電商情感分析_第3頁
數(shù)據(jù)挖掘電商情感分析_第4頁
數(shù)據(jù)挖掘電商情感分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告www ty drnorg第三屆“泰迪杯”全國大學生數(shù)據(jù)挖掘競賽優(yōu) 秀 作 品作品名稱:基于電商平臺家電設備的消費者評論數(shù)據(jù)挖掘分析 榮獲獎項:一等獎作品單位:華南師范大學作品成員:趙曉榮葉呈成黃佳鋒指導老師:耘基于深度學習的電熱水器評論數(shù)據(jù)挖掘分析摘要,近年來.隨著互聯(lián)網(wǎng)的廣泛應用和電子商務的迅速發(fā)展.網(wǎng)絡文本及 用戶評論分析意義日益凸顯因此網(wǎng)絡文本挖掘及網(wǎng)絡文本情感分析技術應運而 生.通過對文本或者用戶評論的情感分析,企業(yè)能夠進行更有效的管理等。本文 針對電商平臺的電熱水器的評論數(shù)據(jù).利用基干半監(jiān)替遞歸自編碼(RAE)的深 度學習模型進行評論的情感分析。為了

2、保證評論數(shù)據(jù)挖掘分析的質(zhì)量和全面性. 我們重新從京東和蘇寧易購平臺爬取了評論數(shù)據(jù)集對數(shù)據(jù)進行預處理評論 去空、去重=中文分詞、停用詞過濾等.再利用半監(jiān)督RAE深度學習模型對 這些評論進行情感分析。之后.本文主要進行兩個方面的數(shù)據(jù)挖掘分析工作:一 方面是根據(jù)不同品牌電熱水器的評論數(shù)據(jù)情感分析結果,提煉出各個品牌產(chǎn)品的 差異化賣點;另一方面是根據(jù)不同電商平臺的評論數(shù)據(jù)情感分析結果.進行不同 電商平臺的服務質(zhì)量比較.進而可以使電商平臺根據(jù)自身優(yōu)勢吸引消費者。關鍵詞,深度學習.情感分析,RAE差異化賣點第2貝泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告www ty drnorgData Mining on Com

3、ments of Electric water heaterBased on Deep LearningAbstract: Recently, with the wide application of Internet and the rapid development of electronic commerce、network text and user review analysis is of gieat significance, text mining ancl seiitiinent analysis of network text arise at the liistoric

4、moment, and the emotional analysis of the text or user conunents is more effective in enteiprise management and so on Elecbic business platform, tliis paper apply a deep leaiiiing method based on semisupeivised reclusive encoding (RAE) on tmnlysis of the einution of conunents whiuli users delivered

5、about electric waler heater, hi order to ensine the quality of the data milling analysis, we crawled the relevant comments data sets fiom Jingdong and Suniiig platform Tlien we preprocessed comments data on wiping "empty and heavy" out, Cliinese word segmentation, filtering stop words, wor

6、d fiequency statistics, etc. Next we analyze sentiineiit on these comments using a method based on semisq)ervised RAE Later, tliis paper analyzed mainly conunents in two aspects of data milling work: on the one hand, according to sentiment analysis result of the conunents of different brand electiic

7、 water heater, extiacting differentiation of various brand products selling point: On the otlier hand, according to the conunents of different electiic business platform data sentiment analysis results, and con甲are different electric business platform of service quality; and electric business platfo

8、rm can take measmes to attiact coiisumers according to their own advantages Key words: deep learning; sentiment analysis; RAE; differentiation of selling point目錄1挖掘目標12. 分析方法與過程12.1. 總體流程12.2. 具體步驟22.3. 結果分析183. 結論20參考文獻21第2貝泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtqjdmorg1. 挖掘目標本次建模針對電商平臺上關于電熱水器的評論數(shù)據(jù).釆用基于半監(jiān)督RAE深度學習模型的數(shù)

9、據(jù)挖掘方法.達到以下兩個目標:1)利用半監(jiān)督RAE模型對同一品牌電熱水器的評論進行情感分析.根據(jù)分析 結果得到用戶針對各屬性的滿意度.從而提煉出該產(chǎn)品的優(yōu)勢和劣勢。分析 不同品牌電熱水器的評論數(shù)據(jù).提煉出其差異化賣點。2)對不同電商平臺對應相同電熱水器的評論數(shù)據(jù)進行情感分析.根據(jù)分析結果 得出各個電商平臺服務的優(yōu)勢與劣勢。2. 分析方法與過程21 總體流程評論文本預處理圖1總體流程圖 第1頁泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtq)cimorg本用例主要包括以下幾個步驟:步驟一:爬取網(wǎng)絡評論數(shù)據(jù).評論數(shù)據(jù)的獲取是本次數(shù)據(jù)挖掘分析的第一步。本 文中利用火車頭數(shù)據(jù)采集器,對評論文本進行抽取最后將

10、評論文本批量存進txt 文件中,得到實驗數(shù)據(jù)。步驟二:數(shù)據(jù)預處理.直接從網(wǎng)上爬啟的評論數(shù)據(jù)中往往不能直接分析需要進行 數(shù)據(jù)預處理。第一步要“去空、去重”;第二步對評論數(shù)據(jù)進行中文分詞,將一句 評論分成多個詞語進一步分析;第三步進行停用詞過濾.去除掉評論中與情感判 定不相關的詞。步驟三:文本矩陣轉(zhuǎn)化.使用基于半監(jiān)督RAE深度學習模型進行情感分析.需 要將文本詞語全部轉(zhuǎn)換為詞向量.本論文中構建了一個詞表和詞向量表.詞表中 為全部文本詞語和詞語的編號,詞向量表中為全部詞語的詞向量。步驟四:情感分析.構建基于半監(jiān)督RAE的深度學習模型.利用選岀的積極、 消極評論各占一半左右的數(shù)據(jù)集訓練情感分析模型.并

11、進行測試.得到符合要求 的模型。利用構建的模型分析得出評論數(shù)據(jù)的情感傾向。步驟五:屬性提取并統(tǒng)計.將所有提及到電熱水器的某些屬性的評論數(shù)據(jù)從實騎 數(shù)據(jù)集中篩選出來,統(tǒng)計各個屬性相關評論數(shù)據(jù)的積極評論和消極評論占該產(chǎn)品 的積極評論和消極評論的百分比。步驟六:結果分析.根據(jù)分析結果提取產(chǎn)品的差異化賣點或者每個電商平臺的競 爭優(yōu)勢和劣勢.進而制定合適的營銷策略.22 具體步驟步驟一,爬取網(wǎng)絡評論數(shù)據(jù)隨著電子商務的迅速發(fā)展.網(wǎng)購的消費者越來越多.他們不再只是被動的獲 取網(wǎng)絡知識,而是可以通過網(wǎng)絡發(fā)表產(chǎn)品評論來分享自己的用戶體驗,而評論中 所包含的豐富信息,對企業(yè)管理具有重要的價值。通過數(shù)據(jù)挖掘等技術手

12、段實現(xiàn) 對客戶評論的智能分析.商家可以獲得客戶對產(chǎn)品的意見和態(tài)度獲取網(wǎng)絡評論 數(shù)據(jù)中的有價值的信息.做出相應的營銷策略和產(chǎn)品改進方案等。而網(wǎng)絡數(shù)據(jù)挖 掘分析的第一步就是爬取網(wǎng)絡評論數(shù)據(jù)。本次論文中采用火車頭數(shù)據(jù)采集器爬取網(wǎng)上評論數(shù)據(jù).將批量的URL存放進采集隊列中.設置采集內(nèi)容的規(guī)則.從評論網(wǎng)頁上爬取實驗需要的評論文本數(shù) 據(jù).詳細步驟如下:1) 采集網(wǎng)址規(guī)則93%好訐 g% 中丹(4%>1愛評(E|我們首先采集美的F50-21W6的評論數(shù)據(jù).打開它的評論頁面我們要采集的 評論共有6065條.分203頁顯示.如圖2所示:乂M創(chuàng) *9 iBJXFHH 口 不0上門*他'<fl;

13、a r出広矽農(nóng)髙八切全 MWACGOCS) 好耿5657) VR241) *VFU67)20102014 08r 宀 熱水HIP if 加終速廈快 很齊用 眼務不錨遏丨美的京東Bi號擰靈慎,這左崗朝製給方,肩電-M ®:21W6*列 I 漫揑) 版 本 期 RXBM: 201&6»16TT(O)回負(0)【鮮昭訃尬】1237| 203 J下艮圖2美的F50-21W6評論頁面為采集該商品的所有評論數(shù)據(jù).這里采用批量網(wǎng)址采集.將203個網(wǎng)址導入進行數(shù)據(jù)采集.如圖3所示:第3頁泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtydmorg添力吠始采#«扯石|可a|I單粲網(wǎng)

14、址批量/多頁|文本導入|Rss地如其它網(wǎng)址格珂地址格式:http:club. jd coa/review/858469-0- (*)-0. html (*)9尊差數(shù)2首項.項數(shù)!03公差1n補零倒斤v苓比數(shù)2笞項項數(shù)i公比2補零倒序V©字母變化u 到z (區(qū)分大小互 倒序添加3jhttp:/club. Jd. coB/review/858469-0-3-0. htali5http:/club. jd. coa/review/858469-0-4-0. htul http:/cJ.ub. Jd. con/review/858469-0-5-0. htul http:/club. jd.

15、 cob/review/858469-0-6-0. html=http:/club. jd. con/review/858469-0-7-0. htmlhttp:/cli】b. jd.色皆/858469-O203-0. him】V全部地址(從上面多種方式添加,一次怦加入起始地址,編輯請融益http:/club. jd. co»/revie»/858469-0-<0,1, 203,1, False, False>-0. i圖3批量網(wǎng)址采集規(guī)則設置2) 設置采集內(nèi)容規(guī)則為了抽取出網(wǎng)頁中有用的網(wǎng)絡商業(yè)評論信息還需要對采集內(nèi)容規(guī)則進行設 置。首先在京東網(wǎng)上打開美的F50

16、-21W6的評論頁面.可以看到在京東網(wǎng)上評論 的標簽為“心得”.接下來打開該頁面的源代碼.搜索到“心得”部分.可以發(fā)現(xiàn)它 的結構如下:<dl><爐心 得:</dt>vdd>不錯!性價比非常高! v/dd></dl>其中的“不錯!性價比非常高! ”就是我們想要的網(wǎng)絡商業(yè)評論文本。最后. 根據(jù)評論在HTML文檔中的結構分布,設置采集內(nèi)容規(guī)則,如圖4所示標簽鐮鐳標簽名:內(nèi)容y該標簽循環(huán)匹配該標筌在分頁中區(qū) 從網(wǎng)址中采童9文件下栽選項將相對地址補全為絕對地也下殺圖片探測文件頁冥地址但不下裁探測文件井下錢)誦討采集得到數(shù)抿©自定義回定格式的

17、數(shù)據(jù)提取數(shù)據(jù)萬式、。前后截匸正剛提耳可視化提;正文提取標簽纟E合所屋多丙默認頁 Q<dl><dt>心得:</dt>幕宇符</dl>(*)確定取消圖4釆集內(nèi)容規(guī)則設置3)結果發(fā)布為了后續(xù)研究工作的方便本文選擇將采集到的網(wǎng)絡商業(yè)評論存儲在同一個 txt文件中,文件編碼為,TUTF-8".最終得到一個存儲全部評論文本的txt文件。 美的F50-21W6的評論示例如下:美的電熱水器質(zhì)量不錯.價格比店里要便宜。物流給力機子不錯很好很好看也很實用.配送很快.安裝師傅人也很好的。頭天下單.第二天就到貨安裝好了.非常滿意本文實驗中:從京東上選擇了三個品

18、牌的電熱水器的評論數(shù)據(jù)進行抓取 美的F50-21W6.海爾EC5OO2-D、格蘭仕G50E302T.用于提煉不同品牌產(chǎn)品的 差異化賣點;從蘇寧易購上爬取了美的F50-21W6電熱水器的評論數(shù)據(jù).用于比 較和京東電商平臺的服務特點。本次實驗數(shù)據(jù)見附件。步驟二,數(shù)據(jù)預處理與數(shù)據(jù)庫中的結構化數(shù)據(jù)相比.從網(wǎng)頁上爬取的數(shù)據(jù)屬于半結構化或者非結 構化數(shù)據(jù).即具有有限的結構.或者根本就沒有結構,即使具有一些結構,也是 著重于格式,而非文檔內(nèi)容,不同類型文檔的結構也不一致。此外.網(wǎng)頁數(shù)據(jù)缺 乏機器可理解的語義.而數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結構化數(shù)據(jù).并利用 關系表格等存儲結構來發(fā)現(xiàn)有價值的信息,因此有些數(shù)

19、據(jù)挖掘技術并不適用于網(wǎng) 絡文本挖掘.即使可用也需要建立在對網(wǎng)絡文本數(shù)據(jù)進行預處理的基礎之上。如 果要對網(wǎng)絡評論數(shù)據(jù)進行情感分析.就必須先將文本數(shù)據(jù)進行預處理,轉(zhuǎn)化為結 構化的數(shù)據(jù)。該步驟中,從以下幾個方面對步驟一中從網(wǎng)頁上爬取的評論數(shù)據(jù)進 行預處理。1)法重”、“去空”對于存儲了全部網(wǎng)絡商業(yè)評論的txt文件.每行代表了一個評論文本但是難 免會岀現(xiàn)兩個完全一樣的文本和一些空行。所以本文首先進行了 “去重”、“去 空”的預處理工作。在導入評論文本時.同時進行了是否為空的判斷.只導入不為空的文本.從 而過濾掉了空白文本,“去空”的程序段如圖5所示:StreamReader sr = new Stre

20、amRcader("C:/Users/IBl/Desktopq 熱水劈故據(jù)丿 京東 /F50-21W6.txtf Encoding.UTFS);String line:while (line = snReadLineO) != null)if Hine ToStringQ != ,M,) 去擅空文本CommentsLi3t.Add<line.loStringO)J:丿圖5詵空”程序段將非空的評論文本導進List后,再進行去除重復處理.過濾掉重復的評論文本“去重啲程序段如圖6所示:第7頁泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtqjdmorg2)中文分詞中文分詞(Chinese W

21、ord Segmentation)也可稱為中文切詞?指的是通過某種 特定的規(guī)則.將中文文本切分成一個一個單獨的詞本文使用NLPIR漢語分詞 系統(tǒng)(又名ICTCLAS 2015 )進行分詞它是中科院張華平博士主持開發(fā)的中文 漢語分詞工具.主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功 能;支持GBK編碼、U1F8編碼、BIG5編碼。新增微博分詞、新詞發(fā)現(xiàn)與關鍵 詞提取功能。本文用到了在NLPIR官網(wǎng)上下載到的NLPntdll程序包.在 Microsoft Msual Studio 2012編程壞境中用C#高級語言程序?qū)LPIRdll C卄程序 包進行調(diào)用.實現(xiàn)對網(wǎng)絡商業(yè)評論文本進行批

22、量分詞處理和詞性標注。主要程序 段如圖7所示:(!NLPIR_InitCT: 1CTCLAS2015", 05 "")System.Console.WriteLmeCInitICTCLAS failed!"); return;elseSYStem.Console.WiiieLiiieCIniiICTCLAS success!h);Console .WriteLineO:System. Console. WriteLme("分詞處理中一");for (int i = 0; i < content.Count; i+*)zIntPt

23、r intPtr* XITIR_ParagraphPr ocess(coiitenti):String str = Marshal.PtrToStringAnsi(intPti);content_seg.Add(str)因7批量中文分詞程序段分詞結果示例:分詞前:物流快!服務好!物品嘉!分詞后:物流/n快/a ! Avt服務/v好/a ! /wt物品/n嘉/b ! /wt從上述結果可以看岀.本文己經(jīng)將網(wǎng)絡商業(yè)評論文本切分成一個個的詞語. “/”后面是對應詞語的詞性標注(如:代表動詞,可對照中科院計算所漢語 詞性標記集).3)停用詞過濾評論文本在經(jīng)過去重、去空、中文分詞后.并非所有的剩下的詞語都

24、可以作 為特征詞.里面還有一些包含的信息量很低甚至沒有信息量的詞語.需要將它們 過濾掉,否則將會影響下文的分析的正確率。在信息檢索中.為節(jié)省存儲空間和 提高搜索效率.在處理自然語言之前會自動過濾掉某些字或詞,這些字或詞即被 稱為Stop Words (停用詞)。本文采用了“詞性+停用詞表”的過濾方法。在上文己經(jīng)提到了中文分詞后的 詞語還帶有詞性的標注.所以本文根據(jù)中科院(計算所漢語詞性標記集將上述 停用詞詞性都寫進StopworclPropsList里面.如圖8所示.然后對每個分詞后的 文本進行遍歷掃描,把對應詞性的詞語全部過濾掉。S topwordPropsLi s t.Add(!Tplf)

25、;StopwordPropsLi s t. Add(fFpba,!): L 把S topwordPropsLi 51. Add( ,fpbci11);亦初八連詞StopwordPropsList. Add(rcB);StopwordPropsList. Add(wCw);廠并列連詞<J圖8停用詞詞性列表(部分)為了把評論文本中包含的停用詞過濾干凈本文還利用了哈工大停用詞表 進行輔助過濾.在詞性過濾后再把文本中存在亍停用詞表的詞語過濾掉,進一步 過濾掉評論文本中的停用詞。停用詞過濾結果示例:分詞后:第一/m次/qv在/p蘇寧/nz易/ad購/vg購買/v/wd購買/v和/cc 售/v后/f

26、都/d很/d滿意/v/wd兀僅/c優(yōu)惠/vn事/n/wd卜次/t 繼續(xù)/v合/v又/c省/n作/v停用詞過濾后:第一蘇寧易購購買購買售后都很滿意優(yōu)惠事 下次繼續(xù)合省作經(jīng)過上述步驟的數(shù)據(jù)預處理后.實驗數(shù)據(jù)的數(shù)量如下表1所示:表1預處理后的評論數(shù)據(jù)數(shù)量京東美的京東海爾京東格蘭仕蘇寧美的F50-21W6EC5002-DG50E302TF50-21W61381129316362775步驟三,文本矩陣轉(zhuǎn)化目前.在文本情感分析中,主要的研究方法還是基于機器學習的方法。如果 想利用機器學習的方法進行情感分析第一步就是要找一種方法將文本數(shù)據(jù)特征 符號數(shù)學化,將文本數(shù)據(jù)轉(zhuǎn)化為計算機可以識別的數(shù)字信息。最初的學者

27、利用傳 統(tǒng)的One-hot Representation的方式實現(xiàn)文本矩陣轉(zhuǎn)化.建立一個詞庫向最維度 等于詞表大小,某句文本評論中出現(xiàn)某個詞語,該詞語對應的維度的值為1不 出現(xiàn)則為0用這種方法建立的文本矩陣是一個維數(shù)較大且稀疏的向量矩陣.使 后面情感分析的計算量大大增加.且準確率不高。本文中是將詞語用一個口維實 數(shù)向量去表示,其基本的思想是通過訓練將語料中的詞語映射到n維實數(shù)向量. 這種詞語的表示方式優(yōu)于Onehot Representation方法.11維向最不但包含了詞 語間的潛藏語義關系同時也避免了維數(shù)災難。Rona 11 Collobei t和Jason We ston 于2008年推

28、出SENNA系統(tǒng),使用詞向量方法去完成自然語言處理中的各種 任務.例如.詞性標注、命名實體識別、短語識別、語義角色標注等。本文中也 利用詞向量的方法將文本數(shù)據(jù)轉(zhuǎn)化為結構化的向量矩陣,進一步進行情感分析。 1)向量化概述文本矩陣轉(zhuǎn)化的第一步就是詞向量化,顧名思義.詞向量化即用空間向量模 型表示各個詞語,進而提高計算機對自然語言的處理能力.詞向量具有良好的語 義特性.是表示詞語特征的常用方式。情感分析中把對文本內(nèi)容的處理簡化成對 一定長度的向量的處理時.通常使用較低維度的空間向量來表示詞語的特征,避 免數(shù)據(jù)維數(shù)災難。詞向量中每一維的值代表一個具有一定的語義和語法上解釋的 特征。詞向量化后便可以將評

29、論的文本數(shù)據(jù)轉(zhuǎn)化向量矩陣了。通常情況下,我們將 詞語w映射到I】維空間向量,即wcRn, 一個文本或者句子中含有m個詞語,把 這m個1】維空間向量堆放在一起.就得到整個文本或句子的空間向量模型一 個詞向量矩陣LeRw例如給定句子c含有m個詞語,lVi Sn,、苦為句子C的空 間向星矩陣L中的第$列.即可肝四疋口除了第K個分量為其余分星均為0.將一個文本或者一句評論映射成一個詞向量矩陣后.即將中文文本數(shù)據(jù)轉(zhuǎn)化 成計算機可以識別的信息格式繼而利用基于遞歸自編碼的深度學習方法進行情感分析。2)文本矩陣轉(zhuǎn)化過程通過編寫程序產(chǎn)生隨機的向量詞表,每個詞對應一個唯一的詞標識號和詞向量.如圖9和圖10所示.例

30、如人識”的詞標號為3.在詞向量表中.列號為3 對應的列向量便是標識“學會”的詞向量。詞向量表生成后,通過掃描,將每句評論轉(zhuǎn)化成一個詞向量矩陣將中文文本數(shù)據(jù)轉(zhuǎn)化成數(shù)字數(shù)據(jù)計算機可以識別 的數(shù)據(jù)信息.進而進行文本情感分析。此步驟的詳細實現(xiàn)程序見附件。ocabubry.txt記棗本文件(卜)編輯化)怡式(O)色看(V)轄助(H)1(0) 要 退貨(3)認識(4)書寫(5)影子(6)明確(7)容量(8)大空 (11)大走(12)女喜(13)好事(14)螺紋(15)敬請(16)端端正正(17)正大自 (21)3 (22)540(23)2(24)1(25)0(26)7 (27)6(28) M 總賬 (29

31、)5(3(31)9(32)上崗(33)保證(34)8(35)549(36)愛理不理(37)=(38)1S18(41)觀(42)見(43)工人(44)筆記本(45)0 (46) J )覺(48)相交(生 (51)免得(52) Q (53)角(54) limes (55)不少(56) S (57)50L(58)裂開(61)公寓(62)大大(63)兩頭(64)觸(65)送貨(66)解(67)條例(68) j (71)w (72)欣喜(73)52.(74)501(75)如下(76) s (77)情愿(78)發(fā)音(121) 10-500(122)1800(123)180.(124)之潔(125)講解(1

32、31)不安(132)追蹤(133)譏荒(134)購物券(135)追問 (14DA字(142)術語(143)有時候(144)好使(145)計費 (151)掛鉤(152)柜收(153)故事(154)轉(zhuǎn)嫁(155)老年人 (161)最少(162)小姨子(163)金友(164)原則(165)掉價)地段(82)z (83)當年(84) x (85)不對(86)沖動(87)獨一無二(88): (91)GHF (92)18.5 (93)耐心 (94)長此以往(95)580 (96)萬歲(97)055338; (101)不容(102)敲詐(103)鉆空子(】04)昱苗(105)® 價(106)0.2

33、m (107: 仃11)心肛(112)信誓旦旦(113)習慣性(114)明示(115)測試(116)二十 (126)好久(127: (136)西(137)6 (146)疑蚩(147: (156)加熱(157: (166)被(167)彷(171)不起狼(172)外層(173)勇氣(174) ok (17!(181)車子(182)清清楚楚(183)無話可說(遷4)省事(185)9. 21(186)9. 22(201)訂購(202)形容(203)強悍(204)預先(205)天天(206)凌亂(207)(191)東大(192)超長(193)近乎(194)廠商(195)裸(196)農(nóng)(197)反饋IH因

34、9詞表第11頁泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtydmorg凸 Variable Editor - We2gFile Edit View Graphics Debug Desktop Window HelpX2八1n Stack: Base 國 No valid plots for . 田 CD 日(?!3B We2 <50x7651 double1234567891011-0.0472(0.02550.0059-0.04980.0498-0.01970.03270.0401-0.0401-0.00480J >20.03210.02740.04410.01910.02040.

35、02640.0470-0.01400.02030020330.01070.0132-0.04550.02340.02460.0429-0.0216-0.04060.01923.4490e.-o.C40.00650.00880.00920.0173-13339.0.03100.01930.02060.01320.0060o.<5-0.00780.0068-0.01640.02990.0144-0.03610.02000.00630.03580.0149-9.2660.02520.01050.00530.0448-0.0413-0.0121-0.01880.01320.0365-0.0209

36、-0.(70.03020.00650.00970.0462-0.02940.00910.03740.03260.03440.0497O.<8-0.00630.02050.04630.02180.02830.01730.00300.04370.03710.0223O.<1 9-0.0410-0.02160.03160.0331-0.01050.00760.0247-0.04910.0131-0.0101O.<in0.04970.04860.00500.01130.01450.0296001760.01850.02420.0476O.<n 0.01720.03820.003

37、60.01070.02730.04670.01470.02000.00150.03190.(1 ?0 09194 l-0 01490.0900OOAQQ.n.niQ?q.OXQn.ei"omr-n.n?7Qomz-6.(圖10詞向最表步驟四,情感分析情感分析自從2002年由BoPang提出之后,獲得了很大程度的關注,特別是 在在線評論的情感傾向性分析上獲得了很大的發(fā)展文本情感分類在情感分析研 究中占有舉足輕重的地位,在信息爆炸的21世紀.海量數(shù)據(jù)的情感分類研究吸 引了很多的研究者,如何深入學習文本的語義信息.準確表達語義特征.提高情 感分類的準確性是研究的目標。目前,情感分析的主要研

38、究方法還是一些基于機器學習的傳統(tǒng)算法,例如.SVM、信息炳、CRF等.機器學習的第一次浪潮是淺層學習.深度學習則是機 器學習的第二次發(fā)展浪潮。以往的情感分析主要是采用淺層學習.但是無法學習 文本語義信息.隨著技術的發(fā)展和科技的進步,人們的要求也隨之越來越髙。在 大數(shù)據(jù)的分析和處理上淺層學習存在的弊端導致情感分析遇到了瓶頸因此人們 將焦點轉(zhuǎn)移到了可以改善這一弊端的深度學習的研究。2003年Bengio等人提出 用神經(jīng)網(wǎng)絡構建二元語言模型的方法;2006年.機器學習領域的泰斗,加拿大 多倫多大學教授Geoffrey Hinton和他的學生Riislan Salakhiitdinov在科學 上發(fā)表文

39、章,從此開啟了在學術界和工業(yè)界對深度學習的研究浪潮,他們提岀來 兩個觀點:其一.多隱層的人工神經(jīng)網(wǎng)絡具備著優(yōu)異的學習特征的能力.它學習 到的特征對樣本數(shù)擁有著更加本質(zhì)的刻畫使其更加有利于圖像可視化或者文本 等的分類任務;其二.深度神經(jīng)網(wǎng)絡在訓練的時候存在一定的難度.這些可通過 噫層初始化M (layer-wise pre-tiaiiiing)的方法來有效的克服掉.在文章中是采用 無監(jiān)督學習來完成逐層初始化的工作的。2006年.Hinton等人基于深信度網(wǎng)絡 (DBN Deep Behef Nets)提出了非監(jiān)督學習的貪心逐層訓練算法,給解決深層 結構中相關的優(yōu)化難題帶來了希望.之后提出了多層自

40、動編碼器的深層結構。后 來.Lecun等人采用的是卷積神經(jīng)網(wǎng)絡(CNNs ConvolutionalNeiiral Networks) 這是第一個真正具有多層結構的學習算法,它使用空間的相對關系來減少參數(shù)數(shù) 冃進而提高BP訓練性能。2011年.Socher提出基于遞歸自編碼器(Recursive AiitoEncoder, RAE)的樹回歸模型用來分析句子的情感傾向性.本文引用Socher 提岀的半監(jiān)督RAE的深度學習模型進行情感分析。1)半監(jiān)督RAE的情感分析模型概述a. 傳統(tǒng)的遞歸自編碼(簡稱RAE)傳統(tǒng)的遞歸自編碼(簡稱RAE)是自編碼方法的一個變種.它屬于深度學習 一種方法.近年來被S

41、ocher等人應用于情感分析領域.這種深度學習的方法是 多隱層的神經(jīng)網(wǎng)絡結構.可以逐層分析,優(yōu)化每一層學習得到的特征向量表示. 因此它抽取的文本特征向量可以更準確的表達語義信息.提高分類結果。自編碼的作用是學習輸入數(shù)據(jù)隱含的特定結構,傳統(tǒng)的自編碼會對輸入給定 一個樹結構.圖11表示的就是一個給定的遞歸自編碼的樹狀結構.此時假設我 們給出一個句子的詞向量的列表一(加),錯誤!未找到引用源上 一層節(jié)點以及二叉樹結構的輸入用一個包含一個父節(jié)點和兩個子節(jié)點的三元組 表示PF")。每個子節(jié)點可以是一個輸入字向量比或者是樹中的非終端節(jié)點。 以圖11為例.我們有以下三元組:(&T嚀4),&

42、#174;Ty円),(y3Ty2xJ).其中隱層 表示必須與詞向量入的維度相同。(0000) (oooojV2=f(W(,)x2;yi + b)CoooHoooo(wf)y3=f(W(1,x1;y2 + b)XX2OGOOyi=f(W(:,x3;x4 + b)X3 X4圖11遞歸白編碼的樹結構從這種樹狀圖中.我們可以計算父節(jié)點的表示。這第一個父節(jié)點向量人通 過子節(jié)點(22)"対4):(1)其中.丿帳於是參數(shù)矩陣是偏差.n為空間向量的維度。我們乘以J)詞+瀘)兩個并置子節(jié)點參數(shù)矩陣J 亡心錯誤!未找到引用源加入偏差項之后. 我們把每個結果帶入函數(shù)中如雙曲正弦中去評估所得到的向量.此外,

43、通過增加 重構層(因中空心部分)垂構該父節(jié)點的子節(jié)點的方式判斷得到的父親節(jié)點是否 能夠很好的表示子節(jié)點信息評估的方法之一就是如何更好的用n維向最表示為 了重構在重構層的子節(jié)點。= w(2)p + b(2)訓練過程中.目標是最小化重構子節(jié)點與原來的子節(jié)點之間的誤差.即重構 誤差。圖中矩形框中的部分是RAE方法中的一次迭代計算.在每次迭代中.采 用歐氏距離衡量衡量重構誤差.如公式所示1Erec%c"-2(3)至此.一個三元組的向量表示確定.而樹形結構中的其他三元組的計算也采第15貝泰迪杯大學牛.數(shù)據(jù)挖掘競賽論文報告wwwtqjdmorg用相同的計算方法,實質(zhì)上,就是重復上述動作直至重構誤

44、差達到設定的閾值。b. 基于半監(jiān)督RAE的深度學習模型傳統(tǒng)的RAE遞推自編碼是完全無監(jiān)督和一般情況下多字詞組的語義捕捉, 他的一個缺點就是詞與詞之間沒有建立聯(lián)系。我們擴大傳統(tǒng)無監(jiān)督RAE的應用 范圍到半監(jiān)督RAE引入半監(jiān)督RAE的機制.預測句子或者短語的情感分布。它的核心思想在于計算文章中的交叉墻誤差(cross-entropy eiTor)和重構誤差(reconstruction eiror) 在半監(jiān)督RAE中.在每一個父節(jié)點上增加一個簡單的softinax層.輔助預測類分布:rd(p; 6) - soft max(wlabelP)(4)第#貝泰迪杯大學牛.數(shù)據(jù)挖掘競賽論文報告wwwtqjd

45、morg假設有K個情感標簽.是K維向量分布而且(如果只有兩類情 感分布:積極和消極,此時便是2位向量分布0,1或者1, 0)。圖12表示的-gjk 嗨 dk(p;&)就是一個半監(jiān)督RAE過程,讓如成為多項指標標簽t中的第k個元素項.這 softmax層的輸出作為條件概率P(klh,c的表示,因此,交叉爛誤差是(5)Reconstruction error Cross-entropy error圖12半監(jiān)督RAE的非終端樹節(jié)點半監(jiān)督的RAE最終用下式表示語料庫中的每對(句子標簽):1XN (x,t)2E(x, t; 0) + 0(6)每個實體的誤差由貪婪RAE方法構造的二叉樹上的所有節(jié)點

46、的誤差的總和構成:sgT(RAE&(X)E(ci;C2s,Ps,t,&)每個非終端節(jié)點的誤差由它的重建誤差和交叉嫡誤差構成:E(k;CqL, Ps,t,"=應e&q;c2s;)+(l- «)EcE(Ps,t;0)(g)上式中的°為超參數(shù),表示節(jié)點的重構誤差在總誤差中所占權重。使用這個模型時預測句子的情感分布時,利用樹的的頂節(jié)點的向量表示,并 訓練簡單的邏輯回歸分類器。2)情感分析過程a.構建半監(jiān)督RAE的模型通過人工標記,得到積極、消極評論各占一半左右的數(shù)據(jù)集用于模型的構建. 將經(jīng)過預處理和文本矩陣轉(zhuǎn)化的數(shù)據(jù)集作為輸入.通過以下步驟構建半監(jiān)

47、督 RAE深度學習模型(本實驗中的訓練集和測試集是在模型訓練過程中按照分別 占60%和40%隨機分配的)。訓練模型:訓練數(shù)據(jù)集作為輸入.利用L-BFGs算法訓練模型.實現(xiàn)程序見 附件;么乙評價模型:將隨機生成的測試集用來測試上一步中構建的半監(jiān)替RAE模型 并進行評價在情感分析研究中.常用的評價指標有準確率.召回率F值等.本文中采用的是準確率。本次建模的測試結果如圖13所示,用測試集測試 模型.達到了 85.13%的準確率;圖13模型測試結果情感分析:利用上一步中構建的半監(jiān)督RAE深度學習模型.分析本次實驗 的實驗數(shù)據(jù).分析得到每句評論的情感傾向性.結果如圖14所示:第k列 的情感標簽表示相應停

48、用詞過濾后的評論數(shù)據(jù)中第k行的評論的情感傾向 性,0表示消極1表示積極。京東美的F50-21W6、京東海爾EC5002-D、 京東格蘭仕G50E302T、蘇寧美的F50-21W6的評論情感分析結果分別存在圖14情感分析結果步驟五,屬性提取并統(tǒng)計本步驟主要是結合步驟三得到詞表和步驟四得到的情感分析結果.進行統(tǒng) 計.得到包含某屬性的評論數(shù)據(jù)中積極、消極評論所占的百分比。繼而分析用戶 對產(chǎn)品的某個屬性或者電商平臺的服務的滿意程度。1)根據(jù)步驟三中生成的詞表提取岀屬性相關詞并分類.結果如圖15所示.每 個屬性對應的是步驟三中的詞表中屬性相關詞的編號。前面11個是電熱水第19貝泰迪杯大學生數(shù)據(jù)挖掘競賽論

49、文報告wwwtq)cimorg器的屬性.后3個是電商平臺的服務質(zhì)量的屬性。莊性及狽號.txt記審衣6 203 6 034733 10796 -22008853 S310?33399 5 501 3416417557444 保 格后耗熱流全肌料裝稅能全逹后 L 一昨S水蓋材安外性疾旳*2689 2458 2427 3972 39923288 2859 2192 2226 21313148 4259 5060 5654 61326531 4281 4531 4261 44664866 7399 6541 4360 45315654 5727 6850 4114453 4529 75854337 5

50、936 5921 7637 25754012 4283 4391 4399 4398 6399 6518 6: 4133 4393 4490 4549 4715 4730 4912 54(6539 74724520 4S37 5496 646945312867 4042 1088 4460 4597 4659 4051 4516152 41796007 6517 1867 437743432939 3854 4556 45654228 5093 5206 56914393 4549 4715 473071614645 5347 49124985 5146 5971 6503 73816277

51、6748 6748 76405467 3306 5519 5554 6468 6518文件(F)云58(E) Tfi式(O) SS(V) fffRtJ(H)第18貝泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtq)cimorg第18貝泰迪杯大學生數(shù)據(jù)挖掘競賽論文報告wwwtq)cimorg圖15屬性相關詞提取結果2)利用程序遍歷.統(tǒng)計分析得出包含某個屬性相關詞的評論數(shù)據(jù)中的積極評論 與消極評論的數(shù)量.和各自占該商品的與該屬性相關的所有評論數(shù)量的比 重。具體實現(xiàn)程序見附件。23 結果分析將上述步驟五得到的結果進行以下幾個方面的詳細分析:1)同一電商平臺銷售的同一產(chǎn)品的不同屬性分析.提煉該商品的競爭優(yōu)勢

52、與劣 勢,并提出產(chǎn)品改進方案。a.京東美的F50-21W6的各個屬性的積極百分比值比較結果如圖16所示,該電 熱水器最大的特點就是能耗較低.而對于美的公司來說.電熱水器的加熱和 控制方面需要進一步的技術改進.以更好的吸引消費者。第18貝泰迪杯大學牛.數(shù)據(jù)挖掘競賽論文報告wwwtqjdmorg圖16京東美的F50-21W6的各個屬性的積極百分比值b.京東海爾EC5OO2-D的各個屬性的積極百分比值比較結果如圖17所示海爾 的這款電熱水器能耗、價格、加熱等方面較有優(yōu)勢,為了提高該產(chǎn)品的銷售 額.吸引更多消費者.海爾公司應該在產(chǎn)品的外觀和使用控制方面進一步的 改進。京東海 爾EC5002-D圖17京東海爾EC5OO2-D的各個屬性的積極百分比值c. 京東格蘭仕G50E302T的不同屬性的積極百分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論