首頁 >
熱門文章 >
大數(shù)據(jù)分析 > 大數(shù)據(jù)分析工作內(nèi)容
大數(shù)據(jù)分析工作內(nèi)容
時(shí)間:2021-09-26來源:m.lb577.com點(diǎn)擊量:次作者:admin
時(shí)間:2021-09-26點(diǎn)擊量:次作者:admin
對(duì)于剛接觸大數(shù)據(jù)分析崗位的人來說,他們對(duì)大數(shù)據(jù)的定義概念都不了解,到底大數(shù)據(jù)分析的是什么、大數(shù)據(jù)分析了之后能得到什么、在學(xué)習(xí)大數(shù)據(jù)分析的時(shí)候應(yīng)該把握怎樣的線路路徑、應(yīng)該朝著哪個(gè)方向去發(fā)展才能獲得更好的提升,以上這些就是大多數(shù)初次接觸大數(shù)據(jù)分析人士最容易遇到的問題。
其實(shí)大數(shù)據(jù)分析沒有大家所想象的那么難,從籠統(tǒng)的角度出發(fā)去理解,大數(shù)據(jù)分析師的日常工作包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、統(tǒng)計(jì)數(shù)據(jù)、可視化結(jié)論獲得這幾個(gè)方面,只要在以上流程中的每個(gè)階段將不同體系和軟件運(yùn)用起來就能進(jìn)一步展開分析,得到最終的結(jié)論。
第一,數(shù)據(jù)采集,數(shù)據(jù)采集一般來說會(huì)通過系統(tǒng)的埋點(diǎn)代碼產(chǎn)生的原始日志來獲得,可以利用flume監(jiān)控接收這些分散的日志,將分散日志做聚合采集,如此就能得到對(duì)應(yīng)的、可以被分析的數(shù)據(jù)。
第二,數(shù)據(jù)的清洗,初次獲得的大數(shù)據(jù)是千奇百怪的,比如說有一些數(shù)據(jù)它是臟數(shù)據(jù),也就是異常的數(shù)據(jù)值,有一些數(shù)據(jù)字段是多余的,根本就不需要用到這些數(shù)據(jù)來做分析,為了節(jié)省后期的存儲(chǔ)空間應(yīng)該將這些無效數(shù)據(jù)剔除掉。還有一些數(shù)據(jù)它會(huì)包含敏感的字眼,需要做脫敏處理,比如說像用戶的姓名,一般來說只要保留他的姓、他的名字后兩位應(yīng)該用星號(hào)來替代,如此才算是完成了數(shù)據(jù)清洗的全流程。
第三,數(shù)據(jù)的存儲(chǔ),清洗后的數(shù)據(jù)可以直接放到hive,也就是數(shù)據(jù)倉庫內(nèi)部做存儲(chǔ)。當(dāng)然了,除了有hive這樣的存儲(chǔ)軟件之外,還有像kafka存儲(chǔ)軟件,如果本身對(duì)數(shù)據(jù)的分析實(shí)時(shí)性要求比較高,將它放在kafka里面會(huì)更好一些。
第四,數(shù)據(jù)的分析和統(tǒng)計(jì),數(shù)據(jù)分析算是數(shù)據(jù)從業(yè)流的下游,消費(fèi)者是來自于上游的數(shù)據(jù),你需要從日志記錄中統(tǒng)計(jì)出各種各樣的報(bào)表,簡單的報(bào)表可以用sql軟件來進(jìn)行統(tǒng)計(jì),復(fù)雜的報(bào)表就需要用到spark或者storm做統(tǒng)計(jì)的分析。
第五,數(shù)據(jù)可視化,簡單來說就是用數(shù)據(jù)的表格、數(shù)據(jù)圖等這些能讓人直觀感受到的方式呈現(xiàn)出數(shù)據(jù)結(jié)果,得到了結(jié)果之后就算是這一次分析的完結(jié)。順帶說一下,大數(shù)據(jù)分析所有的工作都是為了得到這個(gè)結(jié)果,這個(gè)結(jié)果如果跟實(shí)際情況一致的話就可以利用這一個(gè)結(jié)論為后期城市建設(shè)、企業(yè)KPI設(shè)定、員工管理提供幫助。
總的來說,大數(shù)據(jù)分析師的工作內(nèi)容并不復(fù)雜,初學(xué)者可能確實(shí)要摸索一段時(shí)間,但如果是已經(jīng)在這個(gè)工作崗位上做了三五年的人,往往只需要按照流程做不同時(shí)間點(diǎn)的鼠標(biāo)點(diǎn)擊,到了這個(gè)階段就點(diǎn)擊這個(gè)軟件,到了下一個(gè)階段就點(diǎn)擊下一個(gè)軟件,如此就能機(jī)械化展開有效分析,從業(yè)難度并不算特別大。