數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例_第1頁
數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例_第2頁
數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例_第3頁
數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例_第4頁
數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)分析方法、數(shù)據(jù)處理流程實戰(zhàn)案例

大數(shù)據(jù)時代,我們?nèi)巳硕贾饾u開場用數(shù)據(jù)的眼光來對待每一個事

情、事物。確實,數(shù)據(jù)的直觀明了傳達出來的信息讓人一下子就能領(lǐng)

略且毫無疑點,不過前提是數(shù)據(jù)本身的真實性和準確度要有保證。今

天就來和大家分享一下關(guān)于數(shù)超分析方法、數(shù)據(jù)處理流程的實戰(zhàn)案

例,讓大家對于數(shù)超液匝這個崗位的工作內(nèi)容有更多的理解和認

識,讓可以趁機了解了解咱們平時看似輕松便捷的數(shù)據(jù)可視化的背后

都是有多專業(yè)的流程在支撐著。

一、大數(shù)據(jù)思維

在2021年、2021年大數(shù)據(jù)概念火了之后,可以說這幾年許多傳

統(tǒng)企業(yè)也好,互聯(lián)網(wǎng)企業(yè)也好,都把自己的業(yè)務給大數(shù)據(jù)靠一靠,并

且提的比擬多的大數(shù)據(jù)思維。

那么大數(shù)據(jù)思維是怎么回事?我們來看兩個例子:

案例1:輸入法

首先,我們來看一下輸入法的例子。

我2001年上大學,那時用的輸入法比擬多的是智能ABC,還有

微軟拼音,還有五筆。那時候的輸入法比現(xiàn)在來說要慢的很多,許多

時候輸一個詞都要選好幾次,去選詞還是調(diào)整才能把這個字打出來,

效率是非常低的。

到了2002年,2003年出了一種新的輸出法——紫光拼音,感

覺真的很快,鍵盤沒有按下去字就已經(jīng)跳出來了。但是,后來很快發(fā)

現(xiàn)紫光拼音輸入法也有它的問題,比方當時互聯(lián)網(wǎng)開展已經(jīng)比擬快

了,會經(jīng)常出現(xiàn)一些新的詞匯,這些詞匯在它的詞庫里沒有的話,就

很難敲出來這個詞。

在2006年左右,搜狗輸入法出現(xiàn)了。搜狗輸入法基于搜狗本身

是一個搜索,它積累了一些用戶輸入的檢索詞這些數(shù)據(jù),用戶用輸入

法時候產(chǎn)生的這些詞的信息,將它們進展統(tǒng)計分析,把一些新的詞匯

逐步添加到詞庫里去,通過云的方式進展管理。

比方,去年流行一個詞叫"然并卵〃,這樣的一個詞如果用傳統(tǒng)

的方式,因為它是一個重新構(gòu)造的詞,在輸入法是沒方法通過拼音

"ranbingluan,z直接把它找出來的。然而,在大數(shù)據(jù)思維下那就

不一樣了,換句話說,我們先不知道有這么一個詞匯,但是我們發(fā)現(xiàn)

有許多人在輸入了這個詞匯,于是,我們可以通過統(tǒng)計發(fā)現(xiàn)最近新出

現(xiàn)的一個高頻詞匯,把它加到司庫里面并更新給所有人,大家在使用

的時候可以直接找到這個詞了。

案例2:地圖

再來看一個地圖的案例,在這種電腦地圖、手機地圖出現(xiàn)之前,

我們都是用紙質(zhì)的地圖。這種地圖差不多就是一年要換一版,因為許

多地址可能變了,并且在紙質(zhì)地圖上肯定是看不出來,從一個地方到

另外一個地方怎么走是最好的?中間是不是堵車?這些都是有需要

有經(jīng)歷的各種司機才能判斷出來。

在有了百度地圖這樣的產(chǎn)品就要好很多,比方:它能告訴你這條

路當前是不是堵的?或者說能告訴你半個小時之后它是不是堵的?

它是不是可以預測路況情況?

此外,你去一個地方它可以給你規(guī)劃另一條路線,這些就是因為

它采集到許多數(shù)據(jù)。比方:大家在用百度地圖的時候,有GPS地位

信息,基于你這個位置的移動信息,就可以知道路的擁堵情況。另外,

他可以收集到很多用戶使用的情況,可以跟交管局或者其他部門來采

集一些其他攝像頭、地面的傳感器采集的車輛的數(shù)量的數(shù)據(jù),就可以

做這樣的判斷了。

這里,我們來看一看紙質(zhì)的地圖跟新的手機地圖之間,智能ABC

輸入法跟搜狗輸入法都有什么區(qū)別?

這里面最大的差異就是有沒有用上新的數(shù)據(jù)。這里就引來了一個

概念——數(shù)據(jù)驅(qū)動。有了這些數(shù)據(jù),基于數(shù)據(jù)上統(tǒng)計也好,做其他挖

掘也好,把一個產(chǎn)品做的更加智能,變得更加好,這個跟它對應的就

是之前可能沒有數(shù)據(jù)的情況,可能是拍腦袋的方式,或者說我們用過

去的,我們想清楚為什么然后再去做這個事情。這些相比之下數(shù)據(jù)驅(qū)

動這種方式效率就要高很多,并且有許多以前解決不了的問題它就能

解決的非常好。

二、數(shù)據(jù)驅(qū)動

對于數(shù)據(jù)驅(qū)動這一點,可能有些人從沒有看數(shù)的習慣到了看數(shù)的

習慣那是一大進步,是不是能看幾個數(shù)這就叫數(shù)據(jù)驅(qū)動了呢?這還遠

遠不夠,這里來說一下什么是數(shù)據(jù)驅(qū)動?或者現(xiàn)有的創(chuàng)業(yè)公司在進展

數(shù)據(jù)驅(qū)動這件事情上存在的一些問題。

一種情況大家在公司里面有一個數(shù)據(jù)工程師,他的工作職責就是

跑數(shù)據(jù)。

不管是市場也好,產(chǎn)品也好,運營也好,老板也好,大家都會有

各種各樣的數(shù)據(jù)需求,但都會提給他。然而,這個資源也是有限的,

他的工作時間也是有限的,只能一個一個需求去處理,他本身工作很

忙,大家提的需求之后可能并不會馬上就處理,可能需要等待一段時

間。即使處理了這個需求,一方面他可能數(shù)據(jù)準備的不全,他需要去

采集一些數(shù)據(jù),或做一些升級,他要把數(shù)據(jù)拿過來。拿過來之后又在

這個數(shù)據(jù)上進展一些分析,這個過程本身可能兩三天時間就過去了,

如果加上等待的時間更長。

對于有些人來說,這個等待周期太長,整個時機可能就錯過了。

比方,你重要的就是考察一個節(jié)日或者一個開學這樣一個時間點,然

后想搞一些運營相關(guān)的事情,這個時機可能就錯過去了,許多人等不

到了,有些同學可能就干脆還是拍腦袋,就不等待這個數(shù)據(jù)了。這個

過程其實就是說效率是非常低的,并不是說拿不到這個數(shù)據(jù),而是說

效率低的情況下我們錯過了很多時機。

對于還有一些公司來說,之前可能連個數(shù)都沒有,現(xiàn)在有了一個

儀表盤,有了儀表盤可以看到公司上個季度、昨天總體的這些數(shù)據(jù),

還是很不錯的。

對老板來說肯定還是比擬快樂,但是,對于市場、運營這些同學

來說可能就還不夠。

比方,我們發(fā)現(xiàn)某一天的用戶量跌了20%,這個時候肯定不能放

著不管,需要查一查這個問題出在哪。這個時候,只看一個宏觀的數(shù)

那是遠遠不夠的,我們一般要對這個數(shù)據(jù)進展切分,按地域、按渠道,

按不同的方式去追查,看到底是哪少了,是整體少了,還是某一個特

殊的渠道獨特的地方它這個數(shù)據(jù)少了,這個時候單單靠一個儀表盤是

不夠的。

理想狀態(tài)的數(shù)據(jù)驅(qū)動應該是怎么樣的?就是一個自助式的數(shù)據(jù)

分析,讓業(yè)務人員每一個人都能自己去進展數(shù)據(jù)分析,掌握這個數(shù)據(jù)。

前面我講到一個模式,我們源頭是一堆雜亂的數(shù)據(jù),中間有一個

工程師用來跑這個數(shù)據(jù),然后右邊是接各種業(yè)務同學提了需求,然后

排隊等待被處理,這種方式效率是非常低的。理想狀態(tài)來說,我們現(xiàn)

象大數(shù)據(jù)源本身整好,整全整細了,中間提供強大的分析工具,讓每

一個業(yè)務員都能直接進展操作,大家并發(fā)的去做一些業(yè)務上的數(shù)據(jù)需

求,這個效率就要高非常多。

三、數(shù)據(jù)處理的流程

大數(shù)據(jù)分析這件事用一種非技術(shù)的角度來看的話,就可以分成金

字塔,自底向上的是三個局部,第一個局部是數(shù)據(jù)采集,第二個局部

是數(shù)據(jù)建模,第三個局部是數(shù)據(jù)分析,我們來分別看一下。

數(shù)據(jù)采集

首先來說一下數(shù)據(jù)采集,我在百度干了有七年是數(shù)據(jù)相關(guān)的事

情。我最大的心得——數(shù)據(jù)這個事情如果想要更好,最重要的就是數(shù)

據(jù)源,數(shù)據(jù)源這個整好了之后,后面的事情都很輕松。

用一個好的查詢引擎、一個慢的查詢引擎無非是時間上可能消耗

不大一樣,但是數(shù)據(jù)源如果是差的話,后面用再復雜的算法可能都解

決不了這個問題,可能都是很難得到正確的結(jié)論。

我覺得好的數(shù)據(jù)處理流程有兩個根本的原那么,一個是全,一個

是細。

全:

就是說我們要拿多種數(shù)據(jù)源,不能說只拿一個客戶端的數(shù)據(jù)源,

效勞端的數(shù)據(jù)源沒有拿,數(shù)據(jù)庫的數(shù)據(jù)源沒有拿,做分析的時候沒有

這些數(shù)據(jù)你可能是搞歪了。另外,大數(shù)據(jù)里面講的是全量,而不是抽

樣。不能說只抽了某些省的數(shù)據(jù),然后就開場說全國是怎么樣??赡?/p>

有些省非常特殊,比方新疆、西藏這些地方客戶端跟內(nèi)地可能有很大

差異的。

細:

其實就是強調(diào)多維度,在采集數(shù)據(jù)的時候盡量把每一個的維度、

屬性、字段都給它采集過來。比方:像where,who、how這些東

西給它替補下來,后面分析的時候就跳不出這些能夠所選的這個維

度,而不是說開場的時候也圍著需求。根據(jù)這個需求確定了產(chǎn)生某些

數(shù)據(jù),到了后面真正有一個新的需求來的時候,又要采集新的數(shù)據(jù),

這個時候整個迭代周期就會慢很多,效率就會差很多,盡量從源頭抓

的數(shù)據(jù)去做好采集。

數(shù)據(jù)建模

有了數(shù)據(jù)之后,就要對數(shù)據(jù)進展加工,不能把原始的數(shù)據(jù)直接報

告給上面的業(yè)務分析人員,它可能本身是雜亂的,沒有經(jīng)過很好的邏

輯的。

這里就牽扯到數(shù)據(jù)建框,首先,提一個概念就是數(shù)據(jù)模型。許多

人可能對數(shù)據(jù)模型這個詞產(chǎn)生一種畏懼感,覺得模型這個東西是什么

高深的東西,很復雜,但其實這個事情非常簡單。

我春節(jié)期間在家干過一件事情,我自己家里面家譜在文革的時候

被燒了,后來家里的長輩說一定要把家譜這些東西給存檔一下,因為

我會電腦,就幫著用電腦去理了一下這些家族的數(shù)據(jù)這些關(guān)系,整個

族譜這個信息。

我們現(xiàn)實是一個個的人,家譜里面的人,通過一個樹型的構(gòu)造,

還有它們之間數(shù)據(jù)關(guān)系,就能把現(xiàn)實實體的東西用幾個簡單圖給表示

出來,這里就是一個數(shù)據(jù)模型。

數(shù)據(jù)模型就是對現(xiàn)實世界的一個抽象化的數(shù)據(jù)的表示。我們這些

創(chuàng)業(yè)公司經(jīng)常是這么一個情況,我們現(xiàn)在這種業(yè)務,一般前端做一個

請求,然后對請求經(jīng)過處理,再更新到數(shù)據(jù)庫里面去,數(shù)據(jù)庫里面建

了一系列的數(shù)據(jù)表,數(shù)據(jù)表之間都是很多的依賴關(guān)系。

比方,就像我圖片里面展示的這樣,這些表一個業(yè)務項開展差不

多一年以上它可能就牽扯到幾十張甚至上百張數(shù)據(jù)表,然后把這個表

直接提供應業(yè)務分析人員去使用,理解起來難度是非常大的。

這個數(shù)據(jù)模型是用于滿足你正常的業(yè)務運轉(zhuǎn),為產(chǎn)品正常的運行

而建的一個數(shù)據(jù)模型。但是,它并不是一個針對分析人員使用的模型。

如果,非要把它用于數(shù)據(jù)分析那就帶來了很多問題。比方:它理解起

來非常麻煩。

另外,數(shù)據(jù)分析很依賴表之間的這種格子,比方:某一天我們?yōu)?/p>

了提升性能,對某一表進展了拆分,或者加了字段、刪了某個字短,

這個調(diào)整都會影響到你分析的邏輯。

這里,最好要針對分析的需求對數(shù)據(jù)重新進展解碼,它內(nèi)容可能

是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數(shù)據(jù)

來說,就可以對它進展一個抽象,然后重新把它作為一個判斷表。

用戶在產(chǎn)品上進展的一系列的操作,比方瀏覽一個商品,然后誰

瀏覽的,什么時間瀏覽的,他用的什么操作系統(tǒng),用的什么瀏覽器版

本,還有他這個操作看了什么商品,這個商品的一些屬性是什么,這

個東西都給它進展了一個很好的抽象。這種抽樣的很大的好處很容易

理解,看過去一眼就知道這表是什么,對分析來說也更加方便。

在數(shù)據(jù)分析方,特別是針對用戶行為分析方面,目前比擬有效的

一個模型就是多維數(shù)據(jù)模型,在線分析處理這個模型,它里面有這個

關(guān)鍵的概念,一個是維度,一個是指標。

維度比方城市,然后北京、上海這些一個維度,維度西面一些屬

性,然后操作系統(tǒng),還有IOS,安卓這些就是一些維度,然后維度里

面的屬性。

通過維度穿插,就可以看一些指標問題,比方用戶量、銷售額,

這些就是指標。比方,通過這個模型就可以看來自北京,使用IOS

的,他們的整體銷售額是怎么樣的。

這里只是舉了兩個維度,可能還有很多個維度。總之,通過維度

組合就可以看一些指標的數(shù),大家可以回憶一下,大家常用的這些業(yè)

務的數(shù)據(jù)分析需求是不是許多都能通過這種簡單的模式給抽樣出來。

四、數(shù)據(jù)分析方法

接下來看一下互聯(lián)網(wǎng)產(chǎn)品采用的數(shù)據(jù)分析方法。

對于互聯(lián)網(wǎng)產(chǎn)品常用的用戶消費分析來說,有四種:

?第一種是多維事件的分析,分析維度之間的組合、關(guān)系。

?第二種是漏斗分析,對于電商、訂單相關(guān)的這種行為的產(chǎn)品來

說非常重要,要看不同的渠道轉(zhuǎn)化這些東西。

?第三種留存分析,用戶來了之后我們希望他不斷的來,不斷的

進展購置,這就是留存。

?第四種回訪,回訪是留存的一種特別的形式,可以看他一段時

間內(nèi)訪問的頻次,或者訪問的時間段的情況

方法1:多維事件分析法

首先來看多維事件的分析,這塊常見的運營、產(chǎn)品改良這種效果

分析。其實,大局部情況都是能用多維事件分析,然后對它進展一個

數(shù)據(jù)上的統(tǒng)計。

1.三個關(guān)鍵概念

這里面其實就是由三個關(guān)鍵的概念,一個就是事件,一個是維度,

一個是指標組成。

?事件就是說任何一個互聯(lián)網(wǎng)產(chǎn)品,都可以把它抽象成一系列事

件,比方針對電商產(chǎn)品來說,可抽象到提交、訂單、注冊、收

到商品一系列事件用戶行為。

?每一個事件里面都包括一系列屬性。比方,他用操作系統(tǒng)版本

是否連wifi;比方,訂單相關(guān)的運費,訂單總價這些東西,或

者用戶的一些職能屬性,這些就是一系列維度。

?基于這些維度看一些指標的情況。比方,對于提交訂單來說,

可能是他總提交訂單的次數(shù)做成一個指標,提交訂單的人數(shù)是

一個指標,平均的人均次數(shù)這也是一個指標;訂單的總和、總

價這些也是一個指標,運費這也是一個指標,統(tǒng)計一個數(shù)后就

能把它抽樣成一個指標。

2.多維分析的價值

來看一個例子,看看多維分析它的價值。

比方,對于訂單支付這個事件來說,針對整個總的成交額這條曲

線,按照時間的曲線會發(fā)現(xiàn)它一路在下跌。但下跌的時候,不能眼睜

睜的看著它,一定要分析原因。

怎么分析這個原因呢?常用的方式就是對維度進展一個拆解,可

以按照某些維度進展拆分,比方我們按照地域,或者按照渠道,或者

按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數(shù)

據(jù)到底是不是整體在下跌,還是說某一類數(shù)據(jù)在下跌。

這是一個假想的例子——按照支付方式進展拆開之后,支付方式

有三種,有用支付寶、阿里PAY,或者用微信支付,或者用銀行看

內(nèi)的支付這三種方式。

通過數(shù)據(jù)可以看到支付寶、銀行支付根本上是一個沉穩(wěn)的一個狀

態(tài)。但是,如果看微信支付,會發(fā)現(xiàn)從最開場最多,一路下跌到非常

少,通過這個分析就知道微信這種支付方式,肯定存在某些問題。

比方:是不是升級了這個接口或者微信本身出了什么問題,導致

了它量下降下去了?

方法2:漏斗分析

漏斗分析會看,因為數(shù)據(jù),一個用戶從做第一步操作到后面每一

步操作,可能是一個雜的過程。

比方,一批用戶先瀏覽了你的首頁,瀏覽首頁之后可能一局部人

就直接跑了,還有一局部人可能去點擊到一個商品里面去,點擊到商

品可能又有很多人跑了,接下來可能有一局部人就真的購置了,這其

實就是一個漏斗。

通過這個漏斗,就能分析一步步的轉(zhuǎn)化情況,然后每一步都有流

失,可以分析不同的渠道其轉(zhuǎn)化情況如何。比方,打廣告的時候發(fā)現(xiàn)

來自百度的用戶漏斗轉(zhuǎn)化效果好,就可能在廣告投放上就在百度上多

投一些。

方法3:留存分析

比方,搞一個地推活動,然后來了一批注冊用戶,接下來看它的

關(guān)鍵行為上面操作的特征,比方當天它有操作,第二天有多少人會關(guān)

鍵操作,第N天有多少操作,這就是看它留下來這個情況。

方法4:回訪分析

回訪就是看進展某個行為的一些中度特征,如對于購置黃金這個

行為來說,在一周之內(nèi)至少有一天購置黃金的人有多少人,至少有兩

天的有多少人,至少有7天的有多少人,或者說購置多少次數(shù)這么一

個分布,就是回訪回購這方面的分析。

上面說的四種分析結(jié)合起來去使用,對一個產(chǎn)品的數(shù)據(jù)支撐、數(shù)

據(jù)驅(qū)動的這種深度就要比只是看一個宏觀的訪問量或者活潑用戶數(shù)

就要深入很多。

五、運營分析實踐

下面結(jié)合個人在運營和分析方面的實踐,給大家分享一下。

案例1:UGC產(chǎn)品

首先,來看UGC產(chǎn)品的數(shù)據(jù)分析的例子。可能會分析它的訪問

量是多少,新增用戶數(shù)是多少,獲得用戶數(shù)多少,發(fā)帖量、減少量。

諸如貼吧、百度知道,還有知乎都屬于這一類的產(chǎn)品。對于這樣

一個產(chǎn)品,會有很多數(shù)據(jù)指標,可以從某一個角度去觀察這個產(chǎn)品的

情況。那么,問題就來了一一這么多的指標,到底要關(guān)注什么?不同

的階段應該關(guān)注什么指標?這里,就牽扯到一個本身指標的處理,還

有關(guān)鍵指標的問題。

案例2:百度知道

2007年我參加百度知道之后,開場剛進去就寫東西了。作為RB,

我每天也收到一系列報表郵件,這些報表里面有很多統(tǒng)計的一些數(shù)

據(jù)。比方,百度知道的訪問量、減少量、IP數(shù)、申請數(shù)、提問量、答

復量,設(shè)置追加答案,答案的數(shù)量,這一系列指標。當時,看的其實

感覺很反感。

我在思考:這么多的指標,不能說這也提高,那也提高吧?每個

階段肯定要思考哪個事最關(guān)鍵的,重點要提高哪些指標。開場的時候

其實是沒有任何區(qū)分的,不知道什么是重要、什么是不重要。

后來,慢慢有一些感觸和認識,就發(fā)現(xiàn)其實對于訪問量、減少量

這些相關(guān)的。因為百度知道需要流量都是來自于大搜索,把它展現(xiàn)做

一下調(diào)整或者引導,對量的影響非常大。雖然,跟百度知道本身做的

好壞也有直接關(guān)系,但是它很受渠道的影響——大搜索這個渠道的影

響。

提問量開場的時候,我認為非常重要,怎么提升提問量,那么整

個百度知道平臺的這個問題就多了。提升答復量,讓這些問題得到答

復高質(zhì)量的內(nèi)容就非常多了,又提升提問量而后再提升答復量一一

其實等于是兩類人了。而怎么把它做上去,我當時有一些困惑,有一

些矛盾,到底什么東西是最關(guān)鍵的。

有一次產(chǎn)品會,每一個季度都有一個產(chǎn)品會。那個時候,整個部

門的產(chǎn)品負責人是孫云豐,可能在百度待過的或者說對百度產(chǎn)品體系

有了解的都會知道這么一個人,非常厲害的一個產(chǎn)品經(jīng)理。我當時就

問了他這個問題,我對提問量、答復量都要提升這個困惑。

他就說了一點,其實提問量不是一個關(guān)鍵的問題,為什么?我們

可以通過大搜索去找,如果一個用戶在大搜索里面進展搜索,發(fā)現(xiàn)這

個搜索沒有一個好的答案,那就可以引導他進展一個提問,這樣其實

這個提問量就可以迅速提升上去。

我一聽一下就解決了這個困惑,最關(guān)鍵的就是一個答復量,我所

做的事情其實怎么去提升答復量就可以了。

這里面把百度知道這個產(chǎn)品抽樣成了最關(guān)鍵的一個提升——那

就是如何提升答復量,在這個問題上當時做了一個事情就是進展問題

推薦。

百度知道有一批活潑用戶,這些用戶就喜歡答復下列問題。于是,

我們思考:能不能把一些他們可以答復下列問題推薦給他們,讓他們

答復各種各樣的問題——這個怎么去做呢?

這個思路也很簡單,現(xiàn)在個性化推薦都是比擬正常的,大家默認

知道這么一回事。但是,2021年做推薦這個事情其實還是比擬領(lǐng)先

的,從我了解的情況來看,國內(nèi)的是2021年個性化推薦引擎這塊技

術(shù)火了,但后來有些公司做這方面后來都倒掉了。

實現(xiàn)策略是非常簡單的,我們就看一個用戶歷史的答復記錄,看

他答復的這些問題開頭是什么、內(nèi)容是什么。

由于百度很擅長做自然語言的處理,基于這些,通過這里面的抽

取用戶的興趣詞,感興趣的話題,然后把待解的問題,與該問題相關(guān)

話題的相關(guān)用戶進展一個匹配,匹配上了就把這個問題推薦給這個用

戶。

當時,我們做的一個事情就是:把推薦幾個月有過答復量比擬高

的用戶進展一個抽取為t他們訓練一個模式——就是對每個用戶有一

系列的話題興趣點,然后每個點都有一個程度,這就是一個用戶的模

型項量,就是一個興趣項量,當時抽了35萬個用戶。

這個效果是這樣的,現(xiàn)在我已經(jīng)找了我們當年做的圖片,整個樣

式其實這是我前一段時間截的圖,大體類似。比方,我對數(shù)據(jù)分析相

關(guān)的問題答復了不少,它就會給我推薦數(shù)據(jù)分析相關(guān)的問題。

我們這個功能差不多做了有三個月,把它推上線我們其實是滿懷

期待的,結(jié)果效果如何呢?

上線之后很悲劇,我們發(fā)現(xiàn)總的答復量沒有變化。于是,我們又

進一步分析了一下原因。當時,最開場這些核心用戶在答復下列問題

的時候都是找分類頁。比方:電腦這個分類,然后看電腦相關(guān)的問題,

有興趣的就答復。

后來,我們做了一個體驗:在個人中心里面加了一個猜他喜歡的

那個問題,然后推給他,結(jié)果用戶從分類頁答復這個問題轉(zhuǎn)到了個人

中心。但是,平均一個人答復量并沒有變化,當時做的這些統(tǒng)計,這

些核心用戶就答復六個問題,超過六個他就沒動力答復了。

我們事后分析原因,有一個原因他可能本身的答復量就是這么一

條線,誰能天天在哪里源源不斷的回復問題。還有一個同事就分析當

時讓他一個痛苦的地方,因為我們是源源不斷地推薦,然后他就發(fā)現(xiàn)

答復幾個之后還有幾個,答復了幾次就感覺要崩潰了,就不想再這么

答復下去了。

其實,年前時知乎在問題推薦上也做了不少功夫,做了許多測試。

年前有一段時間,它天天給我推一些新的問題,然后我去答復。后來,

發(fā)現(xiàn)推的太多了,就沒答復的動力了。

針對這些核心用戶會發(fā)現(xiàn)從他們上面榨取不了新的價值了。于

是,我們調(diào)轉(zhuǎn)了矛頭,從另一個角度——能不能去廣撒網(wǎng),吸引更多

的用戶來答復下列問題,這個做的就是一個庫里推薦。

訪問百度的時候,百度不管用戶是否登錄,會在用戶的庫里面去

設(shè)置一個用戶標識。通過這個標識能夠?qū)@個用戶進展一個跟蹤,雖

然不知道用戶是誰,但是,起碼能把同一個用戶這個行為給它檢起來。

這樣,就可以基于他歷史的檢索,各種搜索詞,還有他流量的各種頁

面的記錄,然后去提取一些證據(jù),然后給這些庫題建一個模型。

這樣有一個好處,能夠覆蓋的用戶量非常大,前面講的核心用戶

推薦只覆蓋了只有35萬的核心用戶,但是通過這種方式可以覆蓋幾

億百度用戶,每一次用戶登錄之后或者訪問百度知道之后我們就基于

他本身興趣然后走一次檢索,在解決問題里面檢索一下跟他匹配的就

給他推薦出來。

比方前一段,我自己在沒有登錄的時候,其實我是會看馬爾克斯。

我比擬喜歡馬爾克斯的作品,我當時搜了馬爾克斯的一些相關(guān)的內(nèi)

容。它就抽取出來我對馬爾克斯什么感興趣,就給我推薦了馬爾克斯

相關(guān)的問題,可能我知道我不可能就會點進去答復。

這個功能上了之后效果還是很不錯的,讓整體的答復量提升了

7.5%。要知道,百度知道產(chǎn)品從2005年開場做,做到2007年、2021

年的時間這個產(chǎn)品已經(jīng)很成熟了。在一些關(guān)鍵指標進展大的提升還是

非常有挑戰(zhàn)的,這種情況下我們通過這種方式提升了7.5%的答復量,

感覺還是比擬有成就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論