天天看點

使用者流失預警分析

作者:人人都是産品經理
針對使用者增長分析,本文主要從使用者防流失的角度,闡述如何基于QQ社交網絡資料建構使用者流失預警模型,找出高潛流失使用者,用于定向開展營運激活,進而有效控制使用者流失風險,提升大盤使用者的留存率和活躍度。
使用者流失預警分析

本文所涉及到的分析架構和方法論等具有較強的通用性,可供有需要的同學了解參考。

一、分析背景

“根據美國貝恩公司的調查,在商業社會中5%的客戶留存率增長意味着公司利潤30%的增長,而把産品賣給老客戶的機率是賣給新客戶的3倍。是以在‘增長黑客’圈内有一句名言:留住已有的使用者勝過拓展新的客戶,也就是俗稱的‘一鳥在手,勝過雙鳥在林’。”

——引用自《增長黑客》

使用者留存和使用者流失是一組相對的概念。諸如獲得一個新客戶的成本是保持一個老客戶的5倍等經過衆多商業實踐總結出來的資料都證明了一個事實——提升使用者留存率,減少使用者流失,對于任何一家企業來說都是非常重要。

而随着網際網路特别是移動網際網路的高速發展,傳統模式下的很多發展瓶頸得到了重大突破,成本結構也發生了顯著變化。但對于企業來說,使用者留存依然是反映企業及産品核心競争力的關鍵要素。

在使用者生命周期管理(CLM)的分析架構下,不同的使用者生命周期階段我們需要考慮不同的問題,制定不同的使用者管理政策,不斷改善使用者體驗的同時,實作使用者生命周期價值(CLV)的最大化。

不同使用者所處的階段可能是不一樣的,且每一個階段的時間跨度和展現形式可能也有所不同。針對使用者衰退階段,建構高危流失使用者的預警機制,制定面向高危使用者挽留政策,是延長使用者生命周期、提升使用者留存的重要舉措,這也是本文将要重點闡述的研究内容。

使用者流失預警分析

圖1:使用者生命周期

關于對使用者資料如何開展分析挖掘,目前業界已有不少成熟的方法論,而我們的分析流程也是在這些方法論的指導下有序開展的。目前業界主要的兩大方法論分别是SEMMA方法論和CRISP-DM方法論。其中SAS公司提出的SEMMA方法論,即抽樣(Sample)、探索(Explore)、修改(Modify)、模組化(Model)、評估(Assess),強調的是這5個核心環節的有機循環。

而SPSS公司提出的CRISP-DM是英文縮寫,全稱為跨行業資料挖掘标準流程(Cross-Industry Standard Process for Data Mining),突出業務了解、資料了解、資料準備、模組化、評價和釋出這幾個環節,強調将資料挖掘目标和商務目标進行充分結合。

在具體實踐中,CRISP-DM強調上層的商務目标的實作,SEMMA則更側重在具體資料挖掘技術的實作上。隻有将兩種方法緊密聯系在一起,才能達到更好地達成資料分析挖掘的效果。

使用者流失預警分析

圖2:資料分析挖掘方法論

二、流失預警模型建構

基于上述方法論,下面結合具體的業務場景,詳細介紹使用者流失預警的分析思路及模型建設過程。

2.1 業務了解

針對某業務使用者活躍度下降、沉默使用者比例較高的業務現狀,着手建立高潛流失使用者預警及挽留機制,以期提升使用者留存,拉動活躍,“防患于未然”。而落腳點則是建立一套流失預警的分類模型,預測使用者的流失機率。

基于上述需求,首先我們要明确“使用者流失”的定義,使得分析的目标更符合業務了解及分析要求。

2.1.1 使用者流失行為定義

這裡羅列了流失分析可能需要考慮的三個次元:動因、程度和去向。不同業務場景下流失分析可能需要綜合考慮多個次元,以制定最為合理的分析目标。

1)流失動因

  • 客戶主動流失(VOLUNTARY CHURN)——客戶主動銷戶或者改變目前的服務模式;
  • 客戶被動流失(INVOLUNTARY CHURN)——客戶因為違規或欺詐等行為被停止服務及強行關閉賬戶等行為。

2)流失程度

  • 完全流失——客戶發生關閉所有與企業服務相關賬戶和交易等不可恢複或者很難恢複的行為;
  • 部分流失(PARTIAL CHURN)——客戶并未關閉賬戶但是交易水準突減到一定水準之下,例如在産品使用場景下使用者使用頻率突降了50%等等。

3)流失去向

  • 外部——客戶關閉或減少了在目前機構的業務而轉向了其它競争對手;
  • 内部——客戶關閉或減少了在目前機構的部分業務而轉向了目前機構的其它業務。

可見,對于流失的了解可以是多方位的,需要結合具體的場景和需求。這裡我們隻簡化考慮使用者在某項業務主動部分流失的情況。

2.1.2 Roll-rate分析

針對流失的目标定義,我們鎖定一批使用者,觀察其在後續業務使用方面的持續沉默天數,滾動考察使用者回流比例。我們發現,當QQ某業務使用者沉默天數超過兩周後,回流率環比已經低于10%且後續趨勢平穩,是以我們将本次該業務流失分析的目标定義為:使用者該業務使用出現連續沉默14天及以上。基于該定義着手建構模組化分析樣本。

使用者流失預警分析

圖3:Roll-rate分析

2.2 資料了解

針對使用者流失預警這一分析目标,我們重點考察使用者活躍類名額,建構流失預警分析模組化名額體系:

使用者流失預警分析

圖4:模組化名額體系

2.3 資料準備

2.3.1 樣本構造

流失預警分析樣本資料選取:

1)鎖定某日業務使用活躍使用者,統計其在後續14天的活躍情況;

2)由連續14天沉默賬号和14天有活躍賬号構成樣本,并打上相應标簽;

3)統計樣本賬号在觀察點前8周的行為特征,按周彙總輸出,同時加入包括基礎畫像的特征屬性。

使用者流失預警分析

圖5:模組化樣本構造

2.3.2 資料品質檢驗

這項工作的重要性不言而喻,正所謂“垃圾進,垃圾出”,基礎資料如果無法保證良好的資料品質,分析研究工作便會舉步維艱甚至是徒勞,分析得出的結論也是無效或者是錯誤的。是以,我們需要建立一套完整有效的資料品質檢驗流程,這裡暫且不就這部分内容展開介紹了。

2.4 模組化分析

根據SEMMA的資料挖掘方法論,模組化分析過程主要包括抽樣(Sample)、探索(Explore)、修改(Modify)、模組化(Model)和評估(Assess)這五個關鍵環節。而下面就這五個環節的技術實作過程中涉及到的一些關鍵點進行簡要闡述:

2.4.1 粒度的選擇

根據分析目标,選擇合适的分析粒度。不同的粒度意味着需要對資料需要做不同方式的處理以及應用。比如說我們是基于賬号還是自然人,這個問題需要在模型建設初期就明确下來。目前流失預警分析以QQ使用者賬号為分析單元。

2.4.2 抽樣與過抽樣

抽樣就是從原始資料中,抽取一定量的記錄構成新的資料。對于原始資料規模非常大的場景來說,抽樣往往是必要的,可以大大提升模型訓練的速度。當然,随着分布式計算等大規模資料處理及分析能力的引入,使用完整的、大量的資料樣本進行模型訓練的可能性也越來越高。

而過抽樣則可以了解為多抽取稀有的标簽,而少取常見的标簽,這種抽樣方法在模組化過程中相當常見。比如本次流失分析的場景下,流失使用者作為目标樣本,相比整體大盤來說肯定是屬于稀有的标簽。為保證模型的有效性,我們需要按照一定配比,建立由流失和非流失使用者構成的模組化樣本,并分别打上‘1’和‘0’的狀态标簽。兩類樣本的比例關系并沒有固定标準。一般情況下,目标标簽樣本占模組化資料集的比例在20%-30%,會産生較好的模型效果。

另外,也可以通過樣本權重的方式進行過抽樣,實作增加模組化資料集密度的同時而不減少其規模。具體操作上一般将最大的權重設為1,而其他所有權重都取小于1的值,以此減少模型過拟合的風險。

2.4.3 資料探索與修改

資料探索即對資料開展初步分析,包括考察預測變量的統計特性及分布、缺失及異常值發現及處理、變量關聯性及相關性分析等單變量或多變量交叉分析。

1)變量離散化

在對模組化資料進行單變量分析及預處理的過程,對變量進行分組,目的在于觀察變量與目标事件的對應趨勢,判斷是否與實際業務了解相符,進而決定變量是否适用。同時通過變量分組,減少變量屬性個數,有助于避免異常值對模型的影響,提升模型的預測和泛化能力。

具體做法是對變量按照一定規則進行劃分,比如對于連續型的數值變量,按照分位點對變量取值進行等高劃分為大約10個區間,具體如下:

使用者流失預警分析

圖6:單變量分布

2)WOE(Weights of Evidence)值計算

在變量分組的基礎上,我們這裡使用證據權重WOE對變量取值的編碼轉換,作為最後模型的輸入。WOE的計算公式如下:

WOEattribute= log(p_non-eventattribute/p_eventattribute)

其中:

p_non-eventattribute= #non-eventattribute/#non-event(模型變量各特征分段下非事件響應使用者數占總體非事件響應使用者數的比例)

p_eventattribute= #eventattribute/#event(模型變量各特征分段下事件響應使用者數占總體事件響應使用者數的比例)

從這個公式中可以看到,WOE表示的實際上是“目前分組中非響應使用者占所有非響應使用者的比例”和“目前分組中響應的使用者占所有響應的使用者的比例”的差異。WOE越大,這種差異越大,這個分組裡的樣本響應的可能性就越小,即使用者流失風險越小。

将字元型和資料型變量分組後的WOE值,可以作為回歸模型訓練的輸入。

3)變量選擇

關于模型待選變量的選擇标準主要從四個方面加以考慮:變量的預測能力、變量的穩定性、變量與業務的趨勢一緻性、變量間的相關性、變量的預測能力。

變量的預測能力:

在變量預測力方面,選擇計算資訊值IV(Information Value)來量度。IV值一方面可以用于選擇預測變量,另一方面也可以作為分組是否合适的判斷依據。

IV的定義和熵(平均資訊量)的定義很相似:

IV =∑((p_non-eventattribute- p_eventattribute) * woeattribute)

一般情況下,IV的衡量标準如下:

使用者流失預警分析

表1:IV衡量标準

變量的穩定性:

變量的穩定性主要是跨時點考察特征分段樣本分布是否存在明顯異動。對波動性較強的變量則需要考慮是否需要結合時間序列做衍生處理,又或者被剔除。穩定性名額通過PSI(Population Stability Index)來度量。具體計算公式如下:

Index=∑((比較時點分段樣本百分比-基準時點分段樣本百分比)*ln(比較時點分段樣本百分比/基準時點分段樣本百分比)

一般情況下,PSI的衡量标準如下:

使用者流失預警分析

表2:PSI衡量标準

變量與業務的趨勢一緻性:

這個标準可以結合業務知識、特征分布及WOE進行綜合判斷。

變量間相關性:

計算變量間的相關系數,當評分模型變量間的相關性過高,會産生共線性(collinearity)的問題,導緻使模型的預測能力下降,甚至出現與預測結果相反無法解釋的現象。為避免變量間的高度相關削弱模型預測能力,對相關系數較高的變量集合可通過IV擇優選取。

2.4.4 模組化

前面我們通過大量的特征分析工作圈定了有效模型入選變量,接下來通過模型算法的選擇調用最終輸出模型結果,給每個使用者單元計算流失機率。作為一個分類問題,目前我們有比較多的模型算法可以嘗試,比如說邏輯回歸和決策樹。通過模型比較,我們最終選擇邏輯回歸進行模組化。由于邏輯回歸是業務已經比較成熟的分類算法,大多數分析同學應該都比較了解,這裡就不再贅述其原理。

2.5 模型評價

對于一個模型是否達标,我們一般會從以下幾個方面去考量:

1)是否達到符合應用要求的準确性水準

這裡我們可以通過Lift Charts(又叫 gains chart)、ROC Charts、KS等評價名額來對模型性能進行評估比較。

2)是否具有較高的穩定性

同樣的,我們可以借鑒變量分析裡面的穩定性系數PSI來衡量及監控模型的穩定性。

3)是否簡單

這個标準主要是從模型部署的角度考慮,模型如果足夠簡單,将更有利于模型的IT部署應用。

4)是否有意義

即在模型變量及其預測結果方面具有較強的可解釋性。這對于某些場景來說要非常看重的名額,比如說在銀行信貸的信用評分模型的應用上。它是技術與業務有效連接配接的重要橋梁,有利于業務方更好了解模型并有效指導業務開展。當然,随着機器學習領域一些進階算法的研究使用,可解釋性要求在某些場景下已經不屬于必要條件。

2.6 模型應用

關于模型應用,我們主要聚焦在以下兩個方面:

1)用預測模型得到影響流失的重要因素

通過單變量分析找出對業務有突出影響的一系列“Magic Number”。為什麼叫“Magic Number”?顧名思義,這個數字能給業務增長帶來魔力般的神奇促進效果。通過對關鍵影響名額的量化分析,可以幫助業務有效制定營運目标。

使用者流失預警分析

圖7:Magic Number

如上圖所示,在流失預警的分析中,我們發現若幹對使用者流失顯著相關的特征名額,比如好友數。好友數量達到50個及以上的使用者流失率隻有好友數50個以下使用者的30%左右,可見好友數名額對于使用者留存存在正向作用,再次驗證我們大力開展好友推薦、優化QQ使用者好友關系結構的必要性。

2)用預測模型預測客戶流失的可能性

利用模型輸出的機率結果,對流失機率最高的一部分使用者,可以開展針對性的營運管理,比如設計有效的喚醒機制、好友推薦、個性化推薦以及合作産品引導等,挖掘使用者的應用需求點和興趣點。同時建立分析-應用-回報的閉環流程,持續對使用者留存流失進行監控管理,及時發現問題,以指導模型優化及政策更新。

三、優化研究方向

可以嘗試從以下兩個方面開展優化分析:

3.1 使用者群體細分

針對不同類型的使用者分别搭建流失預警模型。

3.2 使用者行為分析

分析使用者産品使用行為及内容偏好,挖掘使用者使用習慣及興趣點,實作個性化推薦,拉動使用者活躍。

四、結語

在使用者流失預警這個分析案例中,我們結合業務現狀,在使用者生命周期管理的大架構下,采用業界較為成熟的資料分析挖掘方法論,開展資料分析工作。這裡面重點介紹了特征分析的方法,這是我們在做使用者資料分析過程非常重要且必不可少的部分。

而在特征分析過程中,我們可以更加深入地了解業務特性,輸出更多的資料價值。這也是本文所希望傳達重要資訊。由于知識和篇幅所限,有很多細節沒能闡述得特别深入,有些方法也許不是最優的做法,歡迎對BI有興趣的同學加強交流,共同進步,更好地将資料價值應用到實際業務中。

作者:alvinpan,騰訊CSIG資料科學家

來源公衆号:騰訊大講堂(ID:TX_DJT ),聚焦前沿,打造網際網路人的高光時刻

本文由人人都是産品經理合作媒體 @騰訊大講堂 授權釋出,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。