旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃
全國(guó)統(tǒng)一咨詢熱線:010-5367 2995
首頁(yè) > 熱門(mén)文章 > 大數(shù)據(jù)分析 > 大數(shù)據(jù)分析流程是什么

大數(shù)據(jù)分析流程是什么

時(shí)間:2019-07-09來(lái)源:m.lb577.com點(diǎn)擊量:作者:Sissi
時(shí)間:2019-07-09點(diǎn)擊量:作者:Sissi



  最近寫(xiě)了好多大數(shù)據(jù)分析的文章,《大數(shù)據(jù)分析十八般工具》、《剖析大數(shù)據(jù)分析就業(yè)前景》、《大數(shù)據(jù)分析是什么》、《大數(shù)據(jù)分析12大就業(yè)方向》等,好多同學(xué)問(wèn)我大數(shù)據(jù)分析流程是什么,要小編姐姐整理一下,分享出來(lái),今天我們就說(shuō)說(shuō)大數(shù)據(jù)分析流程是什么?
 

一、大數(shù)據(jù)分析流程

大數(shù)據(jù)分析流程圖
 

  1.1 數(shù)據(jù)處理流程
 

  該項(xiàng)目是一個(gè)純粹的大數(shù)據(jù)分析項(xiàng)目,其整體流程基本上就是依據(jù)數(shù)據(jù)的處理流程進(jìn)行,依此有以下幾個(gè)大的步驟:
 

  1) 數(shù)據(jù)采集
 

  首先,通過(guò)頁(yè)面嵌入JS代碼的方式獲取用戶訪問(wèn)行為,并發(fā)送到web服務(wù)的后臺(tái)記錄日志;然后,將各服務(wù)器上生成的點(diǎn)擊流日志通過(guò)實(shí)時(shí)或批量的方式匯聚到HDFS文件系統(tǒng)中;一個(gè)綜合分析系統(tǒng),數(shù)據(jù)源可能不僅包含點(diǎn)擊流數(shù)據(jù),還有數(shù)據(jù)庫(kù)中的業(yè)務(wù)數(shù)據(jù)(如用戶信息、商品信息、訂單信息等)及對(duì)分析有益的外部數(shù)據(jù)。
 

  2) 數(shù)據(jù)預(yù)處理
 

  通過(guò)mapreduce程序?qū)Σ杉降狞c(diǎn)擊流數(shù)據(jù)進(jìn)行預(yù)處理,比如清洗,格式整理,濾除臟數(shù)據(jù)等
 

  3) 數(shù)據(jù)入庫(kù)
 

  將預(yù)處理之后的數(shù)據(jù)導(dǎo)入到HIVE倉(cāng)庫(kù)中相應(yīng)的庫(kù)和表中
 

  4) 數(shù)據(jù)分析
 

  項(xiàng)目的核心內(nèi)容,即根據(jù)需求開(kāi)發(fā)ETL分析語(yǔ)句,得出各種統(tǒng)計(jì)結(jié)果
 

  5) 數(shù)據(jù)展現(xiàn)
 

  將分析所得數(shù)據(jù)進(jìn)行可視化
 

  1.2 項(xiàng)目結(jié)構(gòu)
 

  由于本項(xiàng)目是一個(gè)純粹大數(shù)據(jù)分析項(xiàng)目,其整體結(jié)構(gòu)亦跟分析流程匹配,并沒(méi)有特別復(fù)雜的結(jié)構(gòu),如下圖:

大數(shù)據(jù)分析結(jié)構(gòu)

  其中,需要強(qiáng)調(diào)的是:系統(tǒng)的大數(shù)據(jù)分析不是一次性的,而是按照一定的時(shí)間頻率反復(fù)計(jì)算,因而整個(gè)處理鏈條中的各個(gè)環(huán)節(jié)需要按照一定的先后依賴關(guān)系緊密銜接,即涉及到大量任務(wù)單元的管理調(diào)度,所以,項(xiàng)目中需要添加一個(gè)任務(wù)調(diào)度模塊
 

  1.3 數(shù)據(jù)展現(xiàn)

數(shù)據(jù)展現(xiàn)

  數(shù)據(jù)展現(xiàn)的目的是將分析所得的數(shù)據(jù)進(jìn)行可視化,以便運(yùn)營(yíng)決策人員能更方便地獲取數(shù)據(jù),更快更簡(jiǎn)單地理解數(shù)據(jù),下面是對(duì)獨(dú)立訪客的數(shù)據(jù)分析展現(xiàn)示例:
 

二、大數(shù)據(jù)分析的5個(gè)方面
 

  1.、Analytic Visualizations(可視化分析)
 

  不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話,讓觀眾聽(tīng)到結(jié)果。
 

  2.、Data Mining Algorithms(數(shù)據(jù)挖掘算法)
 

  可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
 

  3.、Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)
 

  數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。
 

  4.、Semantic Engines(語(yǔ)義引擎)
 

  我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
 

  5.、Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
 

  數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
 

  假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)分析能給我們帶來(lái)的好處,而不僅僅是挑戰(zhàn)。
 

  6、數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)
 

  數(shù)據(jù)倉(cāng)庫(kù)是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)。在商業(yè)智能系統(tǒng)的設(shè)計(jì)中,數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建是關(guān)鍵,是商業(yè)智能系統(tǒng)的基礎(chǔ),承擔(dān)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)整合的任務(wù),為商業(yè)智能系統(tǒng)提供數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL),并按主題對(duì)數(shù)據(jù)進(jìn)行查詢和訪問(wèn),為聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。
 

三、大數(shù)據(jù)項(xiàng)目開(kāi)發(fā)步驟:
 

  第一步:需求:數(shù)據(jù)的輸入和數(shù)據(jù)的產(chǎn)出;
 

  第二步:數(shù)據(jù)量、處理效率、可靠性、可維護(hù)性、簡(jiǎn)潔性;
 

  第三步:數(shù)據(jù)建模;
 

  第四步:架構(gòu)設(shè)計(jì):數(shù)據(jù)怎么進(jìn)來(lái),輸出怎么展示,最最重要的是處理流出數(shù)據(jù)的架構(gòu);
 

  第五步:再次思考大數(shù)據(jù)系統(tǒng)和企業(yè)IT系統(tǒng)的交互;
 

  第六步:最終確定選擇、規(guī)范等;
 

  第七步:基于數(shù)據(jù)建模寫(xiě)基礎(chǔ)服務(wù)代碼;
 

  第八步:正式編寫(xiě)第一個(gè)模塊;
 

  第九步:實(shí)現(xiàn)其它的模塊,并完成測(cè)試和調(diào)試等;
 

  第十步:測(cè)試和驗(yàn)收;
 

四、大數(shù)據(jù)分析流程
 

  從流程角度上看,整個(gè)大數(shù)據(jù)分析處理可分成4個(gè)主要步驟。

大數(shù)據(jù)分析流程

  第一步是數(shù)據(jù)的搜集與存儲(chǔ);
 

  第二步是通過(guò)數(shù)據(jù)分析技術(shù)對(duì)數(shù)據(jù)進(jìn)行探索性研究,包括無(wú)關(guān)數(shù)據(jù)的剔除,即數(shù)據(jù)清洗,與尋找數(shù)據(jù)的模式探索數(shù)據(jù)的價(jià)值所在;
 

  第三步為在基本數(shù)據(jù)分析的基礎(chǔ)上,選擇和開(kāi)發(fā)數(shù)據(jù)分析算法,對(duì)數(shù)據(jù)進(jìn)行建模。從數(shù)據(jù)中提取有價(jià)值的信息,這其實(shí)是真正的阿里云大數(shù)據(jù)的學(xué)習(xí)過(guò)程。這當(dāng)中會(huì)涉及很多算法和技術(shù),比如機(jī)器學(xué)習(xí)算法等;
 

  最后一步是對(duì)模型的部署和應(yīng)用,即把研究出來(lái)的模型應(yīng)用到生產(chǎn)環(huán)境之中。
 

  1) 數(shù)據(jù)采集:定制開(kāi)發(fā)采集程序,或使用開(kāi)源框架flume
 

  2) 數(shù)據(jù)預(yù)處理:定制開(kāi)發(fā)mapreduce程序運(yùn)行于hadoop集群
 

  3) 數(shù)據(jù)倉(cāng)庫(kù)技術(shù):基于hadoop之上的Hive
 

  4) 數(shù)據(jù)導(dǎo)出:基于hadoop的sqoop數(shù)據(jù)導(dǎo)入導(dǎo)出工具
 

  5) 數(shù)據(jù)可視化:定制開(kāi)發(fā)web程序或使用kettle等產(chǎn)品
 

五、案例分享
 

  1、提出需求-需要和多個(gè)部門(mén)負(fù)責(zé)人進(jìn)行協(xié)商:關(guān)于項(xiàng)目的可行性分析
 

  2、需求分析-進(jìn)行需求調(diào)研(研究競(jìng)品)、市場(chǎng)調(diào)研,如果是給甲方做產(chǎn)品,需要和甲方協(xié)商需求細(xì)則
 

  3、技術(shù)選型-需要多個(gè)開(kāi)發(fā)部門(mén)的人員參與協(xié)商:考慮的角度:數(shù)據(jù)的生成、數(shù)據(jù)采集、源數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)清洗、消息中間件、數(shù)據(jù)分析引擎、結(jié)果數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的展示

 

  4、可行性分析-預(yù)研工作:搭建技術(shù)平臺(tái),測(cè)試可行性
 

  5、指標(biāo)分析-需求和指標(biāo)之間的轉(zhuǎn)換,需求的細(xì)化
 

  6、數(shù)據(jù)對(duì)接-數(shù)據(jù)采集、清洗、源數(shù)據(jù)存儲(chǔ)、中間件(項(xiàng)目前期是一個(gè)非常重要而且有難度的工作)
 

  7、數(shù)據(jù)分析-把指標(biāo)轉(zhuǎn)換為代碼的過(guò)程
 

  8、結(jié)果的存儲(chǔ)
 

  9、數(shù)據(jù)展示-運(yùn)營(yíng)部門(mén)

大數(shù)據(jù)分析案例


 

預(yù)約申請(qǐng)免費(fèi)試聽(tīng)課

填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!

?2007-2021/北京漫動(dòng)者教育科技有限公司版權(quán)所有
備案號(hào):京ICP備12034770號(hào)

?2007-2022/ m.lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc

京公網(wǎng)安備 11010802035704號(hào)

網(wǎng)站地圖