




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Spark應(yīng)用開發(fā)技術(shù)本章主要講述SparkSQL的使用。本章主要講述SparkDataFrame基礎(chǔ)操作。通過學(xué)習(xí)本節(jié)將能夠?qū)W習(xí)SparkSQL、SparkDataFrame基礎(chǔ)操作。通過本節(jié)學(xué)習(xí)可以:理解SparkSQL的基本概念。掌握SparkSQL與Shell交互。掌握創(chuàng)建DataFrame對象的方法。掌握DataFrame查看數(shù)據(jù)的方法。掌握DataFrame的查詢及輸出操作。認識SparkSQLSpark
SQL簡介Spark
SQLCLI配置SparkSQL與Shell交互掌握DataFrame基礎(chǔ)操作創(chuàng)建DataFrame對象DataFrame查看數(shù)據(jù)DataFrame查詢操作DataFrame輸出操作探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)、網(wǎng)頁類型分析、點擊次數(shù)分析、網(wǎng)頁排名分析背景某家電子商務(wù)類的大型法律資訊網(wǎng)站,致力于為用戶提供豐富的法律信息與專業(yè)咨詢服務(wù),并為律師與律師事務(wù)所提供卓有成效的互聯(lián)網(wǎng)整合營銷解決方案,隨著其網(wǎng)站訪問量增大,數(shù)據(jù)信息量也在大幅度增長。用戶在面對大量信息時無法及時從中獲得自己需要的信息,對信息的使用效率越來越低。這種瀏覽大量無關(guān)信息的過程,使用戶需要花費大量的時間才能找到自己需要的信息,從而使得用戶不斷流失,給企業(yè)造成巨大的損失。為了能夠更好地滿足用戶需求,依據(jù)其網(wǎng)站海量的數(shù)據(jù),研究用戶的興趣偏好,分析用戶的需求和行為,發(fā)現(xiàn)用戶的興趣點,從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。為用戶提供個性化的服務(wù),并且建立網(wǎng)站與用戶之間的密切關(guān)系,讓用戶對推薦系統(tǒng)產(chǎn)生依賴,從而建立穩(wěn)定的企業(yè)忠實客戶群,實現(xiàn)客戶鏈式反應(yīng)增值,提高消費者滿意度。通過提高服務(wù)效率幫助消費者節(jié)約交易成本等,制定有針對性的營銷戰(zhàn)略方針,促進企業(yè)長期穩(wěn)定高速發(fā)展。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)背景當(dāng)用戶訪問網(wǎng)站頁面時,系統(tǒng)會記錄用戶訪問網(wǎng)站的日志,其中記錄了用戶IP、用戶訪問的時間、訪問內(nèi)容等多項屬性的信息,各個屬性的說明如表所示探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)背景探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)獲取數(shù)據(jù)在Hive中創(chuàng)建數(shù)據(jù)庫law在law數(shù)據(jù)庫下創(chuàng)建law表將數(shù)據(jù)導(dǎo)入到law表探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁類型分析探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁類型統(tǒng)計從中發(fā)現(xiàn)點擊與咨詢相關(guān)的網(wǎng)頁(網(wǎng)頁類型為101,http://www.*.cn/ask/)的記錄占比為49.16%,其次是其他類型網(wǎng)頁(網(wǎng)頁類型為199)占比24.05%,然后是知識相關(guān)網(wǎng)頁(網(wǎng)頁類型為107,http://www.*.com/info)占21.84%。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)通過觀察類別為199的網(wǎng)頁,發(fā)現(xiàn)其頁面信息多數(shù)與法律法規(guī)相關(guān),所以統(tǒng)計類別為199,并且包含法律法規(guī)的記錄個數(shù)可以得到類別為199并且包含法律法規(guī)記錄個數(shù)為47407。綜合可得199的記錄數(shù)應(yīng)該為153992,而301的記錄數(shù)應(yīng)該為65837。因此可以得到用戶點擊頁面類型的排行榜為:咨詢相關(guān)、知識相關(guān)、其他方面的網(wǎng)頁、法規(guī)(類型為301)、律師相關(guān)(類型為102)。可以初步得出:相對于長篇的知識,用戶更加偏向于查看咨詢或者進行咨詢。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)咨詢類別內(nèi)部統(tǒng)計進一步針對咨詢類別內(nèi)部進行統(tǒng)計分析,統(tǒng)計內(nèi)容為101網(wǎng)頁類型的子類型、記錄數(shù)及其所占101網(wǎng)頁類型總記錄百分比探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)咨詢類別內(nèi)部統(tǒng)計瀏覽咨詢內(nèi)容頁(101003)記錄最多,其次是咨詢列表頁(101002)和咨詢首頁(101001)。結(jié)合上述初步結(jié)論,可以得出用戶都喜歡通過瀏覽問題的方式找到自己需要的信息,而不是以提問的方式或者查看長篇知識的方式。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁中帶有“?”記錄統(tǒng)計統(tǒng)計所有訪問網(wǎng)頁中帶有“?”的總記錄數(shù)。統(tǒng)計分析訪問網(wǎng)頁中帶有“?”的所有記錄中,各網(wǎng)頁類型、記錄數(shù)、占訪問網(wǎng)頁中帶有“?”的記錄數(shù)的百分比探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁中帶有“?”記錄統(tǒng)計包含“?”總記錄數(shù)為65477,特別在其他網(wǎng)頁這一類型中占了98%左右,比重較大,因此需要進一步分析該類型網(wǎng)頁的內(nèi)部規(guī)律,但在知識相關(guān)與法規(guī)專題中的占比僅為1%左右。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)進行數(shù)據(jù)查看后,發(fā)現(xiàn)大部分網(wǎng)址以如下形式存在http://www.XXX.cn/guangzhou/p2lawfirm地區(qū)律師事務(wù)所http://www.XXX.cn/guangzhou地區(qū)網(wǎng)址http://www.XXX.cn/ask/ask.php咨詢網(wǎng)頁http://www.XXX.cn/ask/midques_10549897.html中間類型網(wǎng)頁http://www.XXX.cn/ask/exp/4317.html咨詢經(jīng)驗http://www.XXX.cn/ask/online/138.html在線咨詢頁探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計分析其他類型網(wǎng)頁的內(nèi)部規(guī)律探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計分析其他類型網(wǎng)頁的內(nèi)部規(guī)律探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)在1999001類型中,標題為法律快車-律師助手的這類信息占比77%,通過對業(yè)務(wù)了解,這是律師的一個登錄頁面。標題為咨詢發(fā)布成功頁面時自動跳轉(zhuǎn)頁面。帶有“?”的頁面記錄,如“http://www.XXX.cn/ask/question_9152354.html?&from=androidqq”,代表該網(wǎng)頁曾被分享過,因此可以通過截取“?”前面的網(wǎng)址對其進行處理,還原其原類型。統(tǒng)計“瞎逛用戶”點擊的網(wǎng)頁類型在查看數(shù)據(jù)的過程中,發(fā)現(xiàn)存在一部分這樣的用戶,他們沒有點擊具體的網(wǎng)頁(以.html后綴結(jié)尾),他們點擊的大部分是目錄網(wǎng)頁,這樣的用戶可定義為“瞎逛用戶”,統(tǒng)計“瞎逛用戶”點擊的網(wǎng)頁類型探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計“瞎逛用戶”點擊的網(wǎng)頁類型探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)從統(tǒng)計結(jié)果中看出,小部分是與知識、咨詢相關(guān),大部分是與地區(qū)、律師和事務(wù)所相關(guān)的。這部分用戶有可能是找律師服務(wù)的,或者是瞎逛的。通過上述網(wǎng)址類型分布分析,可以發(fā)現(xiàn)與分析目標無關(guān)的數(shù)據(jù)清洗規(guī)則無點擊.html行為及URL中的用戶記錄。中間類型網(wǎng)頁(帶有midques_關(guān)鍵字)。網(wǎng)址中帶有“?”類型,無法還原其本身類型的快搜頁面與發(fā)布咨詢網(wǎng)頁。法律快車-律師助手記錄,頁面標題包含“法律快車-律師助手”關(guān)鍵字。篩選模型所需記錄(咨詢、知識、法規(guī)專題頁面數(shù)據(jù))。重復(fù)數(shù)據(jù)(同一時間同一用戶,訪問相同網(wǎng)頁)。記錄這些規(guī)則,有利于在數(shù)據(jù)清洗階段對數(shù)據(jù)進行清洗操作。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)點擊次數(shù)分析統(tǒng)計分析原始數(shù)據(jù)用戶瀏覽網(wǎng)頁次數(shù)的情況,統(tǒng)計內(nèi)容為點擊次數(shù)、用戶數(shù)、用戶百分比、記錄百分比探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)點擊次數(shù)分析探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)從統(tǒng)計結(jié)果中發(fā)現(xiàn)用戶總數(shù)為350090,總記錄數(shù)為837450。可以發(fā)現(xiàn)瀏覽一次的用戶占66%左右,大約84%的用戶只提供了約42%的瀏覽頁,即瀏覽網(wǎng)頁1~2次的用戶占了大部分。瀏覽一次用戶行為分析針對瀏覽次數(shù)為一次的用戶進行統(tǒng)計分析,統(tǒng)計內(nèi)容為網(wǎng)頁類型、記錄個數(shù)、記錄占瀏覽一次的的用戶百分比探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)瀏覽一次用戶行為分析探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計結(jié)果如表所說,問題咨詢頁占比為75%左右,知識頁占比為16%左右,而且這些訪問基本上都是通過搜索引擎進入。針對瀏覽次數(shù)為一次的用戶分析結(jié)果,可以對該類用戶情況做出兩種猜測。用戶為流失用戶,在問題咨詢與知識頁面上沒有找到相關(guān)的信息。用戶找到其需要的信息,因此直接退出。綜合這些情況,可將這些點擊一次的用戶行為定義為網(wǎng)頁的跳出行為,用于計算網(wǎng)頁跳出率。統(tǒng)計點擊一次用戶訪問URL排名為了降低網(wǎng)頁的跳出率,需要對這些網(wǎng)頁進行針對用戶的個性化推薦,幫助用戶發(fā)現(xiàn)其感興趣或者需要的網(wǎng)頁。針對點擊一次的用戶瀏覽的網(wǎng)頁進行統(tǒng)計分析探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計點擊一次用戶訪問URL排名統(tǒng)計結(jié)果如表所示,可以看出排名靠前的頁面均為知識與咨詢頁面,因此可以猜測大量用戶的關(guān)注點為法律知識或咨詢。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁排名分析個性化推薦主要針對.html后綴的網(wǎng)頁。從原始數(shù)據(jù)中統(tǒng)計.html后綴的網(wǎng)頁的點擊率探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁排名分析探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)網(wǎng)頁排名分析點擊率排名結(jié)果如上表所示,從中可以看出,點擊次數(shù)排名前10名的項目中,法規(guī)專題占了大部分,其次是知識。但是從前面分析的結(jié)果中可知,原始數(shù)據(jù)中與咨詢主題相關(guān)的記錄占了大部分,但是在其.html后綴的網(wǎng)頁排名中,專題與知識的占了大部分。通過業(yè)務(wù)了解,專題是屬于知識大類里的一個小類。在統(tǒng)計.html后綴的網(wǎng)頁點擊排名時出現(xiàn)這種現(xiàn)象的原因是知識頁面相比咨詢的頁面要少很多,當(dāng)大量的用戶在瀏覽咨詢頁面時,呈現(xiàn)一種比較分散的瀏覽次數(shù),即其各個頁面點擊率不高,但是其總的瀏覽量高于知識類,所以造成網(wǎng)頁排名中咨詢方面的排名比較低。探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計翻頁的網(wǎng)頁從原始html的點擊率排行榜中可以發(fā)現(xiàn)如下情況,排行榜中存在這樣兩種類似的網(wǎng)址:"http://www.XXX.cn/info/hunyin/lhlawlhxy/20110707137693.html”和“http://www.XXX.cn/info/hunyin/lhlawlhxy/20110707137693_2.html”。通過簡單訪問網(wǎng)址,發(fā)現(xiàn)其本身屬于同一網(wǎng)頁,但由于系統(tǒng)在記錄用戶訪問網(wǎng)址的信息時會同時記錄翻頁信息,因此在用戶訪問網(wǎng)址的數(shù)據(jù)中存在翻頁的情況。針對這些翻頁的網(wǎng)頁進行統(tǒng)計探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)統(tǒng)計翻頁的網(wǎng)頁探索分析法律服務(wù)網(wǎng)站數(shù)據(jù)通過業(yè)務(wù)了解,登錄次數(shù)最多的頁面基本為可從外部搜索引擎直接搜索到的頁面。對其中瀏覽翻頁的情況進行分析,平均60%~80%的人會選擇看下一頁,基本每一頁都會丟失20%~40%的點擊率,點擊率會出現(xiàn)衰減的情況。同時對知識類網(wǎng)頁進行檢查,可以發(fā)現(xiàn)頁面上并無全頁顯示功能,但是知識頁面中大部分都存在翻頁的情況。這樣就造成了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 音樂說課課件資源獲取
- 油田開發(fā)項目經(jīng)濟效益和社會效益分析報告
- xx片區(qū)城鄉(xiāng)供水一體化項目數(shù)字化方案(參考模板)
- 鄉(xiāng)村治理結(jié)構(gòu)優(yōu)化實施方案
- 2025年油氣鉆采服務(wù)項目建議書
- 挖掘優(yōu)勢-樹立科學(xué)就業(yè)觀
- 2025年房地產(chǎn)市場區(qū)域分化與產(chǎn)業(yè)升級關(guān)系及投資策略分析報告
- 工業(yè)互聯(lián)網(wǎng)平臺數(shù)據(jù)清洗算法在工業(yè)物聯(lián)網(wǎng)中的應(yīng)用場景對比報告
- 探討游戲化教學(xué)法在幼兒教育中的應(yīng)用研究
- 醫(yī)療器械注冊審批制度改革背景下2025年行業(yè)競爭格局與市場趨勢分析
- 2025年食品檢驗員考試試卷及答案
- 四川省德陽市2025年七年級下學(xué)期語文期末試卷及答案
- 黎族文化課件
- 中華人民共和國民營經(jīng)濟促進法
- 色彩的魅力:藝術(shù)、科學(xué)與設(shè)計的交融
- 2025廣州市荔灣區(qū)輔警考試試卷真題
- 一季度安委會匯報材料
- 貴州省遵義市2024年八年級《數(shù)學(xué)》上學(xué)期期末試題與參考答案
- 產(chǎn)品質(zhì)量問題追溯制度
- TACE圍手術(shù)期的護理
- GB/T 320-2025工業(yè)用合成鹽酸
評論
0/150
提交評論