工作中是否經常遇到這樣的場景:業(yè)務部門希望通過營銷活動來提高產品的銷量,但是預算是有限的。在預算允許范圍內,如何更多的提升轉化率是每個從事數(shù)據(jù)分析、數(shù)據(jù)挖掘人員需要面臨的問題。
本篇將以銀行營銷活動相關數(shù)據(jù)為例,手把手教大家如何識別客戶是否有意愿購買該銀行的產品,針對高意愿客戶進行精準營銷來提升轉化率。廢話不多說,下面開始詳細介紹我們的解決方案。
數(shù)據(jù)中包含客戶基本信息、活動行為信息。在實際場景中,如果有客戶的偏好信息,參與活動歷史信息等,也可以加入其中。
數(shù)據(jù)預處理
1、 數(shù)據(jù)查看
我們可以看到數(shù)據(jù)共計 25317 行,空數(shù)據(jù)暫無,詳情如下:
2、數(shù)據(jù)預處理
對源數(shù)據(jù)進行觀察,可以發(fā)現(xiàn)分類字段有'unknown'這個類別,此時將該類別也當作缺失值,進一步查看
通常對于缺失值的處理,最常用的方法無外乎刪除法、替換法和插補法。
1)刪除法是指將缺失值所在的觀測行刪除(前提是缺失行的比例非常低,如 5%以內),或者刪除缺失值所對應的變量(前提是該變量中包含的缺失值比例非常高,如 70%左右)
2)替換法是指直接利用缺失變量的均值、中位數(shù)或眾數(shù)替換該變量中的缺失值,其好處是缺失值的處理速度快,弊端是易產生有偏估計,導致缺失值替換的準確性下降
3)插補法則是利用有監(jiān)督的機器學習方法(如回歸模型、樹模型、網(wǎng)絡模型等)對缺失值作預測,其優(yōu)勢在于預測的準確性高,缺點是需要大量的計算,導致缺失值的處理速度大打折扣
這里觀察到 contact 和 poutcome 的'unknow'類別分別達到 28.76%和 81.67%,在展示數(shù)據(jù)后考慮進一步處理,job 和 education 的 unknown 占比較小,考慮不對這兩個特征的 unknow 進行處理。
數(shù)據(jù)分析
下面我們對源數(shù)據(jù)進行數(shù)據(jù)分析,數(shù)據(jù)字段分為離散變量和連續(xù)變量,下面我們將逐一進行分析。
1、離散變量
通過可視圖我們可以對每個特征情況進行初步觀察,方便分析這些特征是否會影響購買率。
2、連續(xù)變量
1)age 年齡
從上圖我們可以看出兩類客戶的購買年齡分布差異不大;
2)balance 每年賬戶的平均余額
3)duration 最后一次聯(lián)系的交流時長
4)campaign 在本次活動中,與該客戶交流過的次數(shù)
5)pdays 距離上次活動最后一次聯(lián)系該客戶,過去了多久(999表示沒有聯(lián)系過)
6)previous 在本次活動之前,與該客戶交流過的次數(shù)
特征工程
通過上述對每個特征進行數(shù)據(jù)分析,我們對數(shù)據(jù)有了大致了解,下面我們從數(shù)據(jù)平衡性、數(shù)據(jù)標準化等角度進行特征工程處理。
1、從訓練集查看是否平衡數(shù)據(jù)集
我們可以看到是9:1,數(shù)據(jù)集是不平衡數(shù)據(jù)集
2、連續(xù)變量即數(shù)值化數(shù)據(jù)做標準化處理
3、分類變量做編碼處理
4、不平衡數(shù)據(jù)集處理
數(shù)據(jù)建模
為了方便講解,本篇使用邏輯回歸進行數(shù)據(jù)分析建模,在實際工作場景中,我們可以使用隨機森林、lgb、xgboost、DNN等模型都是可以的,根據(jù)具體場景和建模效果進行選擇。
roc-auc曲線
上面我們進行了數(shù)據(jù)訓練、數(shù)據(jù)預測、模型性能評估等操作。
結論
至此,業(yè)務方提出的場景問題,我已給出了解決方案,接下來就是模型迭代優(yōu)化了。
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc