最近有不少同學(xué)向AAA教育老師咨詢有關(guān)大數(shù)據(jù)分析職業(yè)發(fā)展的問(wèn)題,由此可見,隨著大數(shù)據(jù)分析的飛速發(fā)展,大數(shù)據(jù)分析職業(yè)也成為很多同學(xué)關(guān)注的目標(biāo)。不要急,AAA教育老師這就給大家介紹大數(shù)據(jù)分析的職業(yè)發(fā)展。
一、為什么要做大數(shù)據(jù)分析師
在通信、互聯(lián)網(wǎng)、金融等這些行業(yè)每天產(chǎn)生巨大的數(shù)據(jù)量(長(zhǎng)期更是積累了大量豐富的數(shù)據(jù),比如客戶交易數(shù)據(jù)等等),據(jù)說(shuō)到2020年,全球每年產(chǎn)生的數(shù)據(jù)量達(dá)到3500萬(wàn)億GB;海量的歷史數(shù)據(jù)是否有價(jià)值,是否可以利用為領(lǐng)導(dǎo)決策提供參考依據(jù)?隨著軟件工具、數(shù)據(jù)庫(kù)技術(shù)、各種硬件設(shè)備的飛快發(fā)展,使得我們分析海量數(shù)據(jù)成為可能。
而大數(shù)據(jù)分析也越來(lái)越受到領(lǐng)導(dǎo)層的重視,借助報(bào)表告訴用戶什么已經(jīng)發(fā)生了,借助OLAP和可視化工具等分析工具告訴用戶為什么發(fā)生了,通過(guò)dashboard監(jiān)控告訴用戶現(xiàn)在在發(fā)生什么,通過(guò)預(yù)報(bào)告訴用戶什么可能會(huì)發(fā)生。大數(shù)據(jù)分析會(huì)從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的知識(shí),找出趨勢(shì),為決策層的提供有力依據(jù),為產(chǎn)品或服務(wù)發(fā)展方向起到積極作用,有力推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。
二、入門和職業(yè)規(guī)劃應(yīng)該從兩個(gè)角度考慮:領(lǐng)域和路線
領(lǐng)域是不少新人常忽略的要素,其實(shí)大數(shù)據(jù)分析不會(huì)脫離業(yè)務(wù)存在。你進(jìn)入哪個(gè)行業(yè),很大程度會(huì)決定你初期的技能樹和技能點(diǎn)。譬如金融領(lǐng)域的風(fēng)控模型、營(yíng)銷領(lǐng)域的生命周期、廣告領(lǐng)域的點(diǎn)擊率預(yù)估等,各有各的特色。
如果是一位應(yīng)屆生,不妨多了解自己感興趣的領(lǐng)域,和專業(yè)相關(guān)是最好的,并且積累相關(guān)的經(jīng)驗(yàn),為面試做準(zhǔn)備。
如果已經(jīng)有一定行業(yè)履歷,只是想要轉(zhuǎn)崗大數(shù)據(jù)分析師,那么跨崗不跨行,避免跳到一個(gè)陌生的領(lǐng)域。
領(lǐng)域經(jīng)驗(yàn)太寬泛,我給不了太多的指點(diǎn),主要也就三點(diǎn):1.自己感興趣的,2.自己擅長(zhǎng)的,3.有錢途的。從職場(chǎng)生涯看,成為某領(lǐng)域的數(shù)據(jù)專家,會(huì)是一個(gè)更好的籌碼。
三、職業(yè)規(guī)劃
對(duì)于大數(shù)據(jù)分析,有一句話說(shuō)的非常好:spss/sql之類的軟件、決策樹、時(shí)間序列之類的方法,這些僅僅就都是個(gè)工具而已,最重要的是對(duì)業(yè)務(wù)的把握。沒(méi)有正確的業(yè)務(wù)理解,再牛的理論,再牛的工具,都是白搭。做一名合格的大數(shù)據(jù)分析師,除了對(duì)數(shù)據(jù)需要有良好的敏感性之外,對(duì)相關(guān)業(yè)務(wù)的背景的深入了解,對(duì)客戶或業(yè)務(wù)部門的需求的清晰認(rèn)識(shí)。根據(jù)實(shí)際的業(yè)務(wù)發(fā)展情況識(shí)別哪些數(shù)據(jù)可用,哪些不適用,而不是孤立地在“真空環(huán)境”下進(jìn)行分析。
而大數(shù)據(jù)分析路線大致可以劃分成四大方向:數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)產(chǎn)品,數(shù)據(jù)工程。
3.1數(shù)據(jù)分析/數(shù)據(jù)運(yùn)營(yíng)/商業(yè)分析
這是業(yè)務(wù)方向的數(shù)據(jù)分析師。絕大部分人,都是從這個(gè)崗位開始自己的數(shù)據(jù)之路,也是基數(shù)最大的崗位。因?yàn)榛鶖?shù)大,所以這類崗位通常魚龍混雜。有些雖然叫數(shù)據(jù)分析師,但是每天只需要和Excel打交道,完成leader布置的表格整理工作就行?;靷€(gè)幾年,成為一位數(shù)據(jù)分析主管,給下面的新人繼續(xù)布置Excel任務(wù)。
又有一種大數(shù)據(jù)分析師,崗位職責(zé)要求你掌握常用的機(jī)器學(xué)習(xí)算法,面試首先推導(dǎo)一個(gè)決策樹或者邏輯回歸。入職后也是各類代碼,和分析打交道的情況不多。都叫大數(shù)據(jù)分析師,其實(shí)天差地別。這里更多指互聯(lián)網(wǎng)行業(yè),偏業(yè)務(wù)的數(shù)據(jù)分析師,一般屬于運(yùn)營(yíng)部門。不少公司也稱數(shù)據(jù)運(yùn)營(yíng)或者商業(yè)分析。
這類崗位的職位描述一般是:
1)負(fù)責(zé)和支撐各部門相關(guān)的報(bào)表;
2)建立和優(yōu)化指標(biāo)體系;
3)監(jiān)控?cái)?shù)據(jù)的波動(dòng)和異常,找出問(wèn)題;
4)優(yōu)化和驅(qū)動(dòng)業(yè)務(wù),推動(dòng)數(shù)據(jù)化運(yùn)營(yíng);
5)找出可增長(zhǎng)的市場(chǎng)或產(chǎn)品優(yōu)化空間;
6)輸出專題分析報(bào)告;
實(shí)際情況是,不少業(yè)務(wù)端的大數(shù)據(jù)分析師,主要工作只做第一點(diǎn)。別管它用匯總、分析、數(shù)據(jù)支持什么修飾詞,基本是跑SQL,做報(bào)表。硬生生活成了業(yè)務(wù)端的表哥。這是很常見的情況,也是入門新人的第一個(gè)坑。因?yàn)閺念^到尾,這類分析師,都沒(méi)有解決問(wèn)題。業(yè)務(wù)部門往往更關(guān)心,某個(gè)指標(biāo)為什么下跌或者上升。產(chǎn)品的用戶是什么樣的?怎么能更好的完成自己的KPI。
以活躍指標(biāo)的下跌舉例:
活躍指標(biāo)下跌了多少?是屬于合理的數(shù)據(jù)波動(dòng),還是突發(fā)式?
什么時(shí)候開始的下跌?
是整體的活躍用戶下跌,還是部分用戶?
為什么下跌?是產(chǎn)品版本,還是運(yùn)營(yíng)失誤?
怎么解決下跌的問(wèn)題
這是一套標(biāo)準(zhǔn)的解決思維。分別對(duì)應(yīng)what、when、who、why、how,每一部分都不是三言兩語(yǔ)可以解釋清楚。不要看它簡(jiǎn)單,例如你通過(guò)多維分析,發(fā)現(xiàn)某個(gè)地區(qū)的活躍下跌了,不要急著把它作為分析的結(jié)論,這是不合格的數(shù)據(jù)分析。某地區(qū)的活躍下跌,只是現(xiàn)象,不是原因,把它作為結(jié)論提交,肯定會(huì)被罵的。
你要解決的是,為什么這個(gè)地區(qū)的活躍下跌了。是該地渠道,是該地競(jìng)爭(zhēng)對(duì)手,是該地市場(chǎng)環(huán)境?這些問(wèn)題都是細(xì)化深入的范疇。并且,它們要能以量化解釋,而不是我認(rèn)為。做好了這點(diǎn),才是一個(gè)真正的業(yè)務(wù)端的數(shù)據(jù)分析師。
當(dāng)然,這一點(diǎn)看的是leader。leader能否帶你進(jìn)入業(yè)務(wù)分析的大門,決定你將來(lái)是不是成為一個(gè)表哥。新人切記切記。
解決問(wèn)題是一方面工作,另外一方面,大數(shù)據(jù)分析師的職責(zé)是將業(yè)務(wù)數(shù)據(jù)體系化,建立一套指標(biāo)框架?;钴S下跌的問(wèn)題,本質(zhì)上也是指標(biāo)問(wèn)題。什么時(shí)候開始下跌,哪部分下跌,都能轉(zhuǎn)化成對(duì)應(yīng)指標(biāo),如日活躍用戶數(shù),新老用戶活躍數(shù),地區(qū)活躍數(shù)。
你不能衡量它,就無(wú)法增長(zhǎng)它,指的就是指標(biāo)體系。指標(biāo)體系可以是業(yè)務(wù)部門建立,但數(shù)據(jù)分析師也挺合適。一方面他們比數(shù)據(jù)挖掘這類技術(shù)崗位更貼合業(yè)務(wù),一方面不像業(yè)務(wù)崗位對(duì)數(shù)據(jù)抓瞎。兩者結(jié)合,這崗位也能稱為數(shù)據(jù)運(yùn)營(yíng)。
指標(biāo)體系如果工程化自動(dòng)化,也就是BI,所以大數(shù)據(jù)分析師可以算半個(gè)BI分析師,這里不包括BI報(bào)表開發(fā)。BI如果采購(gòu)第三方,數(shù)據(jù)分析師負(fù)責(zé)BI沒(méi)問(wèn)題,如果自有開發(fā),那么BI崗技術(shù)的色彩更濃厚。
數(shù)據(jù)分析思維和業(yè)務(wù)的理解,是分析師賴以生存的技能。很多時(shí)候,工具是錦上添花的作用。掌握Excel+SQL/hive,了解描述統(tǒng)計(jì)學(xué),知道常見的可視化表達(dá),足夠完成大部分任務(wù)。機(jī)器學(xué)習(xí)這類能力,對(duì)此類大數(shù)據(jù)分析師不是必須的,Python也一樣,只是加分項(xiàng)。畢竟為什么下跌,你無(wú)法用數(shù)據(jù)挖掘解答。
大數(shù)據(jù)分析師是一個(gè)基礎(chǔ)崗位,如果專精于業(yè)務(wù),更適合往管理端發(fā)展,單純的工具和技巧很難拉開差距。數(shù)據(jù)分析的管理崗,比較常見的有數(shù)據(jù)運(yùn)營(yíng)經(jīng)理/總監(jiān),數(shù)據(jù)分析經(jīng)理等,相對(duì)應(yīng)的能力是能建立指標(biāo)體系,并且解決日常的各類「為什么」問(wèn)題。
商業(yè)/市場(chǎng)分析是另外一個(gè)方向,更多見于傳統(tǒng)行業(yè)。你要開一家超市,你得考慮哪里開,這就要考慮居民密度,居民消費(fèi)能力,競(jìng)爭(zhēng)對(duì)手的多寡,步行交通距離,開車交通距離等。這些數(shù)據(jù)是宏觀的大指標(biāo),往往靠搜索和調(diào)研完成,這是和互聯(lián)網(wǎng)數(shù)據(jù)分析師最大的差異。
若往其他分支發(fā)展,比如數(shù)據(jù)挖掘工程師,則要繼續(xù)掌握Python和機(jī)器學(xué)習(xí)等。從業(yè)務(wù)型發(fā)展上來(lái)的好處是接地氣,具備商業(yè)洞察力(天天搞報(bào)表,怎么可能不熟),這點(diǎn)是直接做數(shù)據(jù)挖掘,或者程序員轉(zhuǎn)崗,所不具備的。
新人,比較普適的發(fā)展路線是先成為一位數(shù)據(jù)分析師。積累相關(guān)的經(jīng)驗(yàn),在一兩年后,決定往后的發(fā)展,是數(shù)據(jù)挖掘,還是專精數(shù)據(jù)分析成為管理崗。
3.2數(shù)據(jù)挖掘/算法專家
這是技術(shù)向的數(shù)據(jù)崗,有些歸類在研發(fā)部門,有些則單獨(dú)成立數(shù)據(jù)部門。數(shù)據(jù)挖掘工程師要求更高的統(tǒng)計(jì)學(xué)能力、數(shù)理能力以及編程技巧。從概念上說(shuō),數(shù)據(jù)挖掘Data mining是一種方式,機(jī)器學(xué)習(xí)Machine Learning是一門方法/學(xué)科。機(jī)器學(xué)習(xí)主要是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí),有監(jiān)督又可劃分成回歸和分類,它們是從過(guò)去的歷史數(shù)據(jù)中學(xué)習(xí)到一個(gè)模型,模型可以針對(duì)特定問(wèn)題求解。數(shù)據(jù)挖掘的范圍則大得多,即可以通過(guò)機(jī)器學(xué)習(xí),而能借助其他算法。比如協(xié)同過(guò)濾、關(guān)聯(lián)規(guī)則、PageRank等,它們是數(shù)據(jù)挖掘的經(jīng)典算法,但不屬于機(jī)器學(xué)習(xí),所以在機(jī)器學(xué)習(xí)的書籍上,你是看不到的。實(shí)際的應(yīng)用場(chǎng)景中,如外賣行業(yè),如何尋找騎手效率最大化的最優(yōu)路徑,同樣屬于最優(yōu)化,也是數(shù)據(jù)挖掘的工作范疇。數(shù)據(jù)挖掘工程師,除了掌握算法,同樣需要編程能力去實(shí)現(xiàn),不論R、Python、Scala/Java,至少掌握一種。模型的實(shí)施,往往也要求Hadoop/Spark的工程實(shí)踐經(jīng)驗(yàn),精通SQL/Hive是必須的。
常見數(shù)據(jù)挖掘項(xiàng)目的閉環(huán)如下:
1)定義問(wèn)題
2)數(shù)據(jù)抽取
3)數(shù)據(jù)清洗
4)特征選取/特征工程
5)數(shù)據(jù)模型
6)數(shù)據(jù)驗(yàn)證
7)迭代優(yōu)化
單看環(huán)節(jié),數(shù)據(jù)挖掘?qū)Ψ治瞿芰](méi)有業(yè)務(wù)型那么高。這不代表業(yè)務(wù)不重要,尤其在特征選取方面,對(duì)業(yè)務(wù)的理解很大程度會(huì)影響特征怎么選取,進(jìn)而影響模型質(zhì)量。用戶流失是一個(gè)經(jīng)典的考題,如何選取合適的特征,預(yù)測(cè)用戶會(huì)否流失,能夠考察對(duì)業(yè)務(wù)是否深刻洞察。
數(shù)據(jù)挖掘的業(yè)務(wù)領(lǐng)域一樣可以細(xì)分。金融行業(yè)的信用模型和風(fēng)控模型/反欺詐模型、廣告模型的點(diǎn)擊預(yù)估模型、電商行業(yè)的推薦系統(tǒng)和用戶畫像系統(tǒng)。從需求提出到落地,數(shù)據(jù)挖掘工程師除了全程跟進(jìn)也要熟悉業(yè)務(wù)。因?yàn)橐蟾?,所以?shù)據(jù)挖掘的平均薪資高于數(shù)據(jù)分析師。
一個(gè)分工明確的團(tuán)隊(duì),數(shù)據(jù)分析師負(fù)責(zé)將業(yè)務(wù)需求抽象成一個(gè)具體的數(shù)據(jù)假設(shè)或者模型。比如,運(yùn)營(yíng)希望減少用戶流失,那么設(shè)立一個(gè)流失指標(biāo),現(xiàn)在需要預(yù)測(cè)用戶流失率的模型。模型可以是數(shù)據(jù)分析師完成,也能是數(shù)據(jù)挖掘工程師。最終由數(shù)據(jù)挖掘團(tuán)隊(duì)部署到線上。在一些公司,高級(jí)數(shù)據(jù)分析師會(huì)等價(jià)于數(shù)據(jù)挖掘工程師(其實(shí)行業(yè)內(nèi),對(duì)Title并沒(méi)有嚴(yán)格的標(biāo)準(zhǔn)),只是工程能力可以稍弱,模型部署由專門的工程團(tuán)隊(duì)完成。
數(shù)據(jù)挖掘工程師,往后發(fā)展,稱為算法專家。后者對(duì)理論要求更嚴(yán)苛,幾乎都要閱讀國(guó)外的前沿論文。方向不局限于簡(jiǎn)單的分類或者回歸,還包括圖像識(shí)別、自然語(yǔ)言處理、智能量化投顧這種復(fù)合領(lǐng)域。這里開始會(huì)對(duì)從業(yè)者的學(xué)校和學(xué)歷提出要求,名校+碩士無(wú)疑是一個(gè)大優(yōu)勢(shì),也有很多人直接做數(shù)據(jù)挖掘。深度學(xué)習(xí)則更前沿,它由神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),是機(jī)器學(xué)習(xí)的一個(gè)子集。因?yàn)楦黝惪蚣荛_枝散葉,諸多模型百花齊放,也可以算一個(gè)全新的分支。除了要求熟悉TensorFlow, Caffe, MXNet等深度學(xué)習(xí)框架,對(duì)模型的應(yīng)用和調(diào)參也是必備的,后者往往是劃分普通人和大牛的天塹。算法專家和深度學(xué)習(xí)專家,薪資level會(huì)更高一級(jí),一般對(duì)應(yīng)于業(yè)務(wù)型的數(shù)據(jù)運(yùn)營(yíng)/分析總監(jiān)。數(shù)據(jù)科學(xué)家是上述崗位的最終形態(tài)之一,要么理論能力非常強(qiáng),往往擔(dān)任研究院的一把手。要么工程能力突出,上述的系統(tǒng)都能完成平臺(tái)化的部署。
3.3數(shù)據(jù)產(chǎn)品經(jīng)理
這個(gè)崗位比較新興,它有兩種理解,一種是具備強(qiáng)數(shù)據(jù)分析能力的PM,一種是公司數(shù)據(jù)產(chǎn)品的規(guī)劃者。前者,以數(shù)據(jù)導(dǎo)向優(yōu)化和改進(jìn)產(chǎn)品。在產(chǎn)品強(qiáng)勢(shì)的公司,數(shù)據(jù)分析也會(huì)劃歸到產(chǎn)品部門,甚至運(yùn)營(yíng)也屬于產(chǎn)品部。這類產(chǎn)品經(jīng)理有更多的機(jī)會(huì)接觸業(yè)務(wù),屬于順便把分析師的活也干了,一專多能的典型。他們會(huì)運(yùn)用不同的數(shù)據(jù)源,對(duì)用戶的行為特征分析和挖掘,達(dá)到改進(jìn)產(chǎn)品。最典型的場(chǎng)景就是AB測(cè)試。大到頁(yè)面布局、路徑規(guī)劃、小到按鈕的顏色和樣式,均可以通過(guò)數(shù)據(jù)指標(biāo)評(píng)估。俗話說(shuō),再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過(guò)一半AB測(cè)試。此類數(shù)據(jù)產(chǎn)品經(jīng)理,更多是注重?cái)?shù)據(jù)分析能力,擅長(zhǎng)用分析進(jìn)行決策。數(shù)據(jù)是能力的一部分。后者,是真正意義上的數(shù)據(jù)產(chǎn)品經(jīng)理。在公司邁大邁強(qiáng)后,數(shù)據(jù)量與日俱增,此時(shí)會(huì)有不少數(shù)據(jù)相關(guān)的產(chǎn)品項(xiàng)目:包括大數(shù)據(jù)平臺(tái)、埋點(diǎn)采集系統(tǒng)、BI、推薦系統(tǒng)、廣告平臺(tái)等。這些當(dāng)然也是產(chǎn)品,自然需要提煉需求、設(shè)計(jì)、規(guī)劃、項(xiàng)目排期,乃至落地。
我們不妨看幾個(gè)數(shù)據(jù)產(chǎn)品經(jīng)理要求:
1)負(fù)責(zé)大數(shù)據(jù)產(chǎn)品的設(shè)計(jì),輸出需求文檔、產(chǎn)品原型;
2)負(fù)責(zé)推薦算法的產(chǎn)品策略,完成相關(guān)推薦及個(gè)性化推薦產(chǎn)品的需求分析;
3)負(fù)責(zé)分析和挖掘用戶消費(fèi)內(nèi)容的行為數(shù)據(jù),為改進(jìn)算法策略提供依據(jù);
4)負(fù)責(zé)客戶端數(shù)據(jù)需求的對(duì)接,制定相關(guān)埋點(diǎn)規(guī)范及口徑,相關(guān)業(yè)務(wù)指標(biāo)驗(yàn)證;
5)報(bào)表展示工具的落地和應(yīng)用;
和C端注重用戶體驗(yàn)不同,數(shù)據(jù)產(chǎn)品,更注重整體的分析能力和邏輯。除了產(chǎn)品經(jīng)理最基礎(chǔ)的Axure、Visio、MindManager等工具。往往還需要很多技術(shù)型的能力。比如了解BI/DW原理和實(shí)施、了解常用的推薦算法、了解機(jī)器學(xué)習(xí)模型等。這也很容易理解,C端要求你了解用戶需求,而在數(shù)據(jù)端,主要用戶就是數(shù)據(jù)。這當(dāng)然不是說(shuō),用戶體驗(yàn)不重要,拿推薦算法來(lái)說(shuō),除了滿足用戶最基本的感興趣,也要考慮時(shí)效性,考慮新興趣的挖掘,考慮無(wú)數(shù)據(jù)時(shí)的冷啟動(dòng)問(wèn)題…這些一樣是用戶體驗(yàn),只是解決方案也得從數(shù)據(jù)出發(fā)。再多思考一步,模型是離線還是實(shí)時(shí),實(shí)時(shí)怎么實(shí)現(xiàn)它?技術(shù)細(xì)則不用多考慮,但你要知道會(huì)有這些坑。后端的數(shù)據(jù)產(chǎn)品,如報(bào)表,用戶往往是你隔壁工位的小秦或小路,設(shè)計(jì)得丑一點(diǎn)不要緊,要是數(shù)據(jù)指標(biāo)口徑不統(tǒng)一,那才會(huì)分分鐘罵街。雖然數(shù)據(jù)PM需要熟悉各類數(shù)據(jù)模型、指標(biāo)、數(shù)據(jù)挖掘和數(shù)據(jù)工程的實(shí)現(xiàn),但是聚焦點(diǎn)是把它作為一個(gè)項(xiàng)目去實(shí)現(xiàn),故而不用精通。
數(shù)據(jù)產(chǎn)品經(jīng)理是一個(gè)比較新興的崗位,所以有豐富經(jīng)驗(yàn)的從業(yè)者并不多,我個(gè)人認(rèn)為,還是存在比較大的職業(yè)缺口。當(dāng)然也有其他問(wèn)題,一是因?yàn)樾屡d,部門負(fù)責(zé)人本身也沒(méi)有想好他們能干什么,不少數(shù)據(jù)PM還從事表哥的工作。二是數(shù)據(jù)產(chǎn)品本身可借鑒的經(jīng)驗(yàn)不多,像APP產(chǎn)品,可以下載體驗(yàn),總歸有一個(gè)學(xué)習(xí)的過(guò)程。然而用戶畫像、BI、算法策略,都是其他公司的內(nèi)部機(jī)密,無(wú)從參考,我就遇到不少對(duì)用戶畫像實(shí)現(xiàn)非常感興趣的數(shù)據(jù)PM。從職業(yè)發(fā)展上看,數(shù)據(jù)分析師做數(shù)據(jù)產(chǎn)品經(jīng)理更合適。普通的產(chǎn)品經(jīng)理,對(duì)前端、后端的技術(shù)棧尚未熟悉,何況日新月異的數(shù)據(jù)棧。這個(gè)崗位,適合對(duì)數(shù)據(jù)特別感興趣,但是數(shù)理天賦不高的職場(chǎng)人,那么以溝通、項(xiàng)目管理和需求規(guī)劃為能力,也不錯(cuò)。
3.4數(shù)據(jù)工程師
數(shù)據(jù)工程師其實(shí)更偏技術(shù),從職業(yè)道路上看,程序員走這條路更開闊。在很多中小型的公司,一方面數(shù)據(jù)是無(wú)序的、缺失的、原始的,另外一方面各種業(yè)務(wù)報(bào)表又嗷嗷待哺。沒(méi)辦法,分析師只能自己擼起袖子,一個(gè)人當(dāng)三個(gè)人用。兼做數(shù)據(jù)清洗+ETL+BI。經(jīng)歷過(guò)的大概都懂,數(shù)據(jù)分析踏上數(shù)據(jù)工程的不歸路如下:
1)每天都要從五六張表上join,那么不妨加工成一張中間表;
2)ETL的依賴關(guān)系越來(lái)越復(fù)雜,嘗試用kettle/airflow等框架搞定,弄個(gè)DAG美滋滋;
3)運(yùn)營(yíng)部門的周報(bào)次次都要這幾個(gè)指標(biāo),看看能否做一個(gè)自動(dòng)化BI;
4)數(shù)據(jù)量逐日增多,最近T+1的日?qǐng)?bào)需要幾個(gè)小時(shí)完成,研究下查詢語(yǔ)句的優(yōu)化;
5)查詢語(yǔ)句的優(yōu)化空間也不大了,開始遷移到Hadoop/Spark分布式平臺(tái),新技術(shù)棧的學(xué)習(xí);
6)新平臺(tái),原有的工具也不管用了,某大牛說(shuō)apache上有工具能解決這個(gè)問(wèn)題,于是閱讀文檔;
7)公司部署了私有化的埋點(diǎn)采集,數(shù)據(jù)缺失比較厲害,業(yè)務(wù)部門天天罵娘,繼續(xù)埋Flume/Kafka的坑;
8)等等…
如果分析師在技術(shù)方面的靈性不錯(cuò),那么技能點(diǎn)會(huì)往技術(shù)棧方向遷移。從最初的SQL,到了解Hadoop集群、了解presto/impala/spark、了解ELK、了解分布式存儲(chǔ)和NoSQL……這也是一個(gè)不錯(cuò)的發(fā)展方向,因?yàn)閿?shù)據(jù)挖掘需要了解算法/模型,理論知識(shí)要求過(guò)高,不少碩士和博士還過(guò)來(lái)?yè)岋埻耄约翰簧瞄L(zhǎng)容易遇到天花板。選擇更底層的工程實(shí)現(xiàn)和架構(gòu),也是出路,薪資也不會(huì)低于數(shù)據(jù)挖掘/算法專家。部分歸屬到技術(shù)部的數(shù)據(jù)分析師,雖然Title叫數(shù)據(jù)分析(其實(shí)應(yīng)該叫數(shù)據(jù)分析開發(fā)工程師),很多工作也是圍繞ETL/DW/BI進(jìn)行,那么這就是標(biāo)準(zhǔn)的數(shù)據(jù)工程路線。部分公司會(huì)將機(jī)器學(xué)習(xí)模型的部署和實(shí)現(xiàn)交給數(shù)據(jù)工程團(tuán)隊(duì),這要求數(shù)據(jù)工程師熟悉sparkMLlib、Mahout此類框架。數(shù)據(jù)工程師,可以從數(shù)據(jù)分析師的SQL技能,往數(shù)據(jù)的底層收集、存儲(chǔ)、計(jì)算、運(yùn)維拓展。往后發(fā)展則是數(shù)據(jù)總監(jiān)、或者數(shù)據(jù)架構(gòu)師。因?yàn)閿?shù)據(jù)分析出身,與純技術(shù)棧的程序員比,思考會(huì)更貼合業(yè)務(wù),比如指標(biāo)背后的數(shù)據(jù)模型,但是技術(shù)底子的薄弱需要彌補(bǔ)。另外,DBA、BI這些傳統(tǒng)的數(shù)據(jù)庫(kù)從業(yè)者,也是能按這條路線進(jìn)階,或者選擇數(shù)據(jù)產(chǎn)品經(jīng)理方向。
3.5職業(yè)規(guī)劃總結(jié)
以上是大數(shù)據(jù)分析的發(fā)展方向,它們互有關(guān)聯(lián),如果從整個(gè)架構(gòu)來(lái)看,我們可以將其劃分為數(shù)據(jù)收集—數(shù)據(jù)加工—數(shù)據(jù)運(yùn)營(yíng)—數(shù)據(jù)觸達(dá)。數(shù)據(jù)收集負(fù)責(zé)收集各種各樣的原始數(shù)據(jù),比如用戶何時(shí)何地做了什么事情。它依賴于埋點(diǎn)采集系統(tǒng),而埋點(diǎn)采集,需要收集什么類型數(shù)據(jù),往往由數(shù)據(jù)產(chǎn)品經(jīng)理確定規(guī)范(還是看公司,數(shù)據(jù)運(yùn)營(yíng)和數(shù)據(jù)分析師也能負(fù)責(zé))。收集上來(lái)的數(shù)據(jù)需要存儲(chǔ),往往因?yàn)楦咄掏铝?,需要保證數(shù)據(jù)和日志的穩(wěn)定性,會(huì)采用Flume+Kafka,如果有實(shí)時(shí)統(tǒng)計(jì)要求,也得考慮流數(shù)據(jù)。這塊則是數(shù)據(jù)工程的范疇,包括原始數(shù)據(jù)的再加工,數(shù)據(jù)清洗,都是專門的數(shù)據(jù)團(tuán)隊(duì)完成。當(dāng)獲得數(shù)據(jù)后,首先第一點(diǎn)是講各種明細(xì)數(shù)據(jù)加工業(yè)務(wù)指標(biāo),沒(méi)有指標(biāo)不成方圓,這里由數(shù)據(jù)分析師定義的。有了指標(biāo),配合各種數(shù)據(jù)產(chǎn)品輸出,如用戶畫像用戶標(biāo)簽、BI報(bào)表,這些數(shù)據(jù)產(chǎn)品都由數(shù)據(jù)PM統(tǒng)籌排期…另外一方面,數(shù)據(jù)挖掘工程師和算法專家則憑各種數(shù)據(jù)建立模型,進(jìn)行實(shí)時(shí)或離線運(yùn)算。
模型可能會(huì)預(yù)測(cè)用戶會(huì)不會(huì)購(gòu)買某個(gè)商品,可能是做出一系列的推薦,可能是判斷用戶屬于哪個(gè)類型,不一而足。更上面一層是業(yè)務(wù)相關(guān),數(shù)據(jù)分析師會(huì)監(jiān)控和分析BI上指標(biāo)的波動(dòng)、數(shù)據(jù)挖掘工程是通過(guò)用戶反饋數(shù)據(jù),衡量算法的優(yōu)劣、數(shù)據(jù)PM按AB測(cè)試的結(jié)果改進(jìn)產(chǎn)品。數(shù)據(jù)工程師保證系統(tǒng)的穩(wěn)定。所有層次一環(huán)扣一環(huán),每個(gè)崗位在其中都發(fā)揮特有的作用。數(shù)據(jù)工程偏底層技術(shù),數(shù)據(jù)分析偏上層業(yè)務(wù),數(shù)據(jù)挖掘和數(shù)據(jù)產(chǎn)品處于中間形態(tài)。不同公司雖然業(yè)務(wù)形態(tài)不一致,架構(gòu)會(huì)有差異,但是職責(zé)不會(huì)偏差太大。這也是數(shù)據(jù)分析為什么會(huì)有四個(gè)方向。
能 力:
1、 一定要懂點(diǎn)戰(zhàn)略、才能結(jié)合商業(yè);
2、 一定要漂亮的presentation、才能buying;
3、一定要有g(shù)lobal view、才能打單;
4、 一定要懂業(yè)務(wù)、才能結(jié)合市場(chǎng);
5、 一定要專幾種工具、才能干活;
6、 一定要學(xué)好、才能有效率;
7、 一定要有強(qiáng)悍理論基礎(chǔ)、才能入門;
8、 一定要努力、 才能賺錢;最重要的:
9、 一定要?jiǎng)?wù)實(shí)、才有reputation;
目標(biāo):
1-做過(guò)多少個(gè)項(xiàng)目?
2-業(yè)務(wù)背景有哪些,是否跨行業(yè)?
3-做過(guò)多少種類型的模型?做了多少個(gè)模型?
4-基于模型做過(guò)多少次完整的marketing閉環(huán)?
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc