大數(shù)據(jù)分析工作流程是什么?高效的工作流應(yīng)該做到這一點-流程化-將我們從項目的每個階段無縫地引導(dǎo)到下一個階段,優(yōu)化任務(wù)管理,并最終指導(dǎo)我們從業(yè)務(wù)問題到解決方案再到價值。隨著數(shù)據(jù)泛濫的持續(xù)減少,企業(yè)正在淹沒數(shù)據(jù),但卻渴望獲得洞察力。這使得雇用大數(shù)據(jù)分析團(tuán)隊至關(guān)重要。但是,由什么構(gòu)成大數(shù)據(jù)分析團(tuán)隊?大數(shù)據(jù)分析工作流程的最佳實踐是什么?大數(shù)據(jù)分析家需要什么才能最大程度地執(zhí)行大數(shù)據(jù)分析工作流程?
盡管沒有解決大數(shù)據(jù)分析問題的模板,但OSEMN(獲取,清理,探索,模型,解釋)大數(shù)據(jù)分析管道是一個很好的起點,該管道是大數(shù)據(jù)分析家Hilary Mason和Chris Wiggins在2010年引入的流行框架。大多數(shù)大數(shù)據(jù)分析工作流都是OSEMN步驟序列的變體,具有基于相同既定原理的基本流程,并且其共同目標(biāo)是使組織的其他部門能夠做出更好的,由數(shù)據(jù)驅(qū)動的決策。大數(shù)據(jù)分析工作流的功能完全取決于手頭的業(yè)務(wù)目標(biāo)和任務(wù)。
改善大數(shù)據(jù)分析工作流程中最重要的步驟是開發(fā)針對團(tuán)隊特定需求的最佳實踐。為此,您需要考慮以下大數(shù)據(jù)分析工作流程最佳實踐。
大數(shù)據(jù)分析作為一項團(tuán)隊運動
大數(shù)據(jù)分析家最初的印象是一個人可以神奇地做所有事情。出于明顯的原因,這不是一個好主意。大數(shù)據(jù)分析涵蓋了廣泛的學(xué)科和角色,包括編程工程師,機(jī)器學(xué)習(xí)工程師,系統(tǒng)架構(gòu)師,數(shù)據(jù)庫管理員,商業(yè)智能分析師,IT工程師等等。建筑大數(shù)據(jù)分析團(tuán)隊?wèi)?yīng)包括專門研究不同領(lǐng)域的人員。有效的團(tuán)隊工作流程始于確定團(tuán)隊所需的專業(yè)知識類型,并明確定義團(tuán)隊中的角色。
如果要構(gòu)建原型,則可能不需要系統(tǒng)架構(gòu)師。如果您正在處理較小的項目,則可能不需要數(shù)據(jù)庫管理員。生產(chǎn)工程師將最適合面向客戶的服務(wù)。并且一些具有學(xué)術(shù)經(jīng)驗的團(tuán)隊成員將主要進(jìn)行不一定旨在產(chǎn)生產(chǎn)品銷售的研究。大數(shù)據(jù)分析團(tuán)隊的各種角色取決于您的業(yè)務(wù)目標(biāo)和任務(wù)。大數(shù)據(jù)分析家不是一個單人樂隊,并且經(jīng)常被高估。讓所有這些專家共同努力,朝著一個共同的目標(biāo)邁進(jìn),比讓幾個人自己做一切都可以幫助您進(jìn)一步發(fā)展。
識別業(yè)務(wù)問題
您在回答什么問題,業(yè)務(wù)目標(biāo)是什么?大數(shù)據(jù)分析家工作效率的主要組成部分是將大問題分解為更小的部分,并真正專注于您要解決的業(yè)務(wù)成果的能力,而不是為了研究而進(jìn)行研究。最終,大數(shù)據(jù)分析團(tuán)隊的存在是為了改善業(yè)務(wù)流程,增加收入并降低成本。提出正確問題并實際解決實際業(yè)務(wù)問題的能力決定了您的成功。確定摘要為您希望團(tuán)隊完成的工作設(shè)定了議程。誰是您的最終用戶?他們有什么問題?您優(yōu)先考慮的是準(zhǔn)確性,速度或可解釋性?
擁抱開源和云計算
得益于開源數(shù)據(jù)分析解決方案和云計算,與早期大數(shù)據(jù)分析工作流程相關(guān)的成本過高方面已得到有效消除。開源已經(jīng)發(fā)展成為大數(shù)據(jù)分析家的主要工具來源。就概念訪問而言,您無需構(gòu)建自己的數(shù)據(jù)中心。如果要使用各種不同的工具,現(xiàn)在可以選擇進(jìn)行測試并根據(jù)需要訂閱。云計算提供了大量可以按小時租用的硬件。
使用開放源代碼庫通常也沒有明確的成本,因為開放源代碼庫提供了令人難以置信的資源和靈活性。與專有軟件不同,可以修改開源項目以適合您的需求。在現(xiàn)有項目上進(jìn)行構(gòu)建無需再從頭開始,從而節(jié)省了大量時間和金錢。沒有任何實際許可成本的情況下,轉(zhuǎn)換成本也應(yīng)更低。通過將開源與云計算相結(jié)合,您可以評估要使用的內(nèi)容,創(chuàng)建原型,對其進(jìn)行一段時間的測試,確定不起作用的內(nèi)容,然后嘗試其他操作,而這些操作的成本都大大降低了。
建立正確的大數(shù)據(jù)分析工作流工具包
大數(shù)據(jù)分析家的大部分時間都花在了解業(yè)務(wù)問題和傳達(dá)結(jié)果上。以清晰有效的方式記錄和傳達(dá)您的發(fā)現(xiàn)可能是科學(xué)過程中最具挑戰(zhàn)性的步驟之一。自動化此過程對于良好的大數(shù)據(jù)分析工作流程和您的理智至關(guān)重要。一些有用的大數(shù)據(jù)分析工作流程工具包括:
Jupyter的大數(shù)據(jù)分析工作流程
Jupyter Notebook是一個開放源碼的大數(shù)據(jù)分析前端,用于捕獲數(shù)據(jù)準(zhǔn)備過程,由包含實時代碼,方程式,可視化效果和解釋性文本的筆記本組成。無論您使用的是筆記本電腦,服務(wù)器還是云提供商,Jupyter Notebook都可以正常工作。筆記本方面指的是您的代碼和結(jié)果位于同一窗口中的事實。作為交流和互動探索的一種方式,Jupyter Notebooks具有非常理想的接口屬性集,您可以在其中一次添加一點點代碼,查看結(jié)果,在數(shù)據(jù)源和結(jié)論上給自己寫相應(yīng)的注釋,然后將這些文件發(fā)送給其他人。為了使這些筆記本能夠正常工作,您需要數(shù)據(jù)以及用于重現(xiàn)此數(shù)據(jù)的所有依賴項,而這正是docker容器的所在。
使用Docker容器的大數(shù)據(jù)分析工作流
借助Docker,您可以將所有代碼以及運行代碼所需的一切打包在標(biāo)準(zhǔn)化,隔離的軟件容器中,這些容器可以傳入并在任何環(huán)境中工作?!?br />
使用RAPIDS的大數(shù)據(jù)分析工作流程
RAPIDS是在NVIDIA GPU平臺上部署的GPU加速的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析庫的開源套件。對于需要解決大規(guī)模問題,需要毫秒級響應(yīng)時間或執(zhí)行大量重復(fù)計算的團(tuán)隊而言,RAPIDS是理想的選擇。
Amazon Web Services的大數(shù)據(jù)分析工作流
Amazon Web Services提供了一套非常適合于機(jī)器學(xué)習(xí)工作流程的大數(shù)據(jù)分析工具。通過啟用數(shù)據(jù)收集和轉(zhuǎn)換來協(xié)調(diào)和自動化機(jī)器學(xué)習(xí)任務(wù)的序列。使用Amazon Athena在AWS Glue中執(zhí)行查詢,聚合和準(zhǔn)備數(shù)據(jù),在Amazon SageMaker上執(zhí)行模型培訓(xùn),然后將模型部署到生產(chǎn)環(huán)境。大數(shù)據(jù)分析工作流可以在數(shù)據(jù)工程師和大數(shù)據(jù)分析家之間共享。
機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)
機(jī)器學(xué)習(xí)和人工智能,通常可互換用于商業(yè)目的,是解決需要準(zhǔn)確答案而不必要求可解釋答案的商業(yè)問題的理想選擇。例如,在乘車共享應(yīng)用程序中,如果您只是想預(yù)測在城市的給定部分中將要有多少用戶,或者需要多少輛車,那么您不必在乎為什么- -您只想獲得最準(zhǔn)確的數(shù)字。
本著開源的精神,用于自動化機(jī)器學(xué)習(xí)和深度學(xué)習(xí)工作流程的最佳資源是其他大數(shù)據(jù)分析家。與其他大數(shù)據(jù)分析家建立網(wǎng)絡(luò),閱讀他們正在發(fā)布的內(nèi)容,評估其他要素工程項目以及如何解決這些問題,查看其他人在做什么,嘗試對其進(jìn)行改進(jìn)和調(diào)整其技術(shù)要比依靠任何一個人都要有效得多。書籍,工具,博客文章(!)或個人,以改善您的機(jī)器學(xué)習(xí)工作流程。
效率-不一定更好
試圖追趕最新事物可能會損害您的大數(shù)據(jù)分析工作流程效率。
大多數(shù)大數(shù)據(jù)分析項目不需要先進(jìn)的方法?;ㄌ鄷r間擔(dān)心最前沿的問題,而不是做一些眾所周知的事情(可能會為您帶來99%的結(jié)果),可能會使您陷入無休止的研究周期,而沒有明確的解決方案。在大多數(shù)業(yè)務(wù)案例中,完成更多的工作要比追趕準(zhǔn)確性的最后2%更好。
重現(xiàn)性
可再現(xiàn)性是一個非常重要的問題,但也很難證明??芍貜?fù)性的總體目標(biāo)是說:這是我使用的數(shù)據(jù),這是我使用的代碼,如果您執(zhí)行相同的操作,您將獲得相同的正確答案。在大數(shù)據(jù)分析領(lǐng)域中,可重復(fù)性仍然存在重大挑戰(zhàn)。即使您可以對所編寫的代碼使用版本控制,也不必一定寫下所擁有的每個庫依賴關(guān)系,您使用的開源庫也可能會發(fā)生變化。在進(jìn)行大規(guī)模數(shù)據(jù)分析時,進(jìn)行版本控制也非常困難。缺少用于復(fù)制這些龐大數(shù)據(jù)集的基礎(chǔ)結(jié)構(gòu)的結(jié)果導(dǎo)致了一個易于更改的單一副本。
最安全的做法是使用Git版本控制,記下您正在使用的所有軟件包,對所有代碼進(jìn)行版本控制,至少,您可以遵循創(chuàng)建者的想法,并希望您可以擁有一份副本。數(shù)據(jù)集。
Python和R?
大數(shù)據(jù)分析工作流的最佳語言是……這取決于。R和Python是高級語言,它們在大數(shù)據(jù)分析項目中均具有優(yōu)勢。用于R和Python的軟件包通常在較低的一層,其中以非??焖俚恼Z言(例如C ++和Fortran)完成計算。差異往往在于應(yīng)用程序。R更像是一種學(xué)術(shù)性的,基于研究的統(tǒng)計學(xué)家的語言,而Python更適合于科學(xué)研究,大數(shù)據(jù)分析,建筑應(yīng)用程序和生產(chǎn)工程。Python對于大數(shù)據(jù)分析工作流可能是更可取的,因為通常認(rèn)為Python速度更快,數(shù)據(jù)處理更好,并且本質(zhì)上是面向?qū)ο蟮?。R可能較難學(xué)習(xí),但通常認(rèn)為它適合進(jìn)行臨時分析。R中的大數(shù)據(jù)分析工作流程和Python中的大數(shù)據(jù)分析工作流程都有優(yōu)點。
大數(shù)據(jù)分析工作流程的OmniSci優(yōu)勢
OmniSci建立在GPU加速的基礎(chǔ)上,從一開始就瞄準(zhǔn)其分析平臺的極高性能,而Immerse正是出于這種癡迷。Immerse為您提供的功能是,您可以查看比以往更大的數(shù)據(jù)并將其可視化,不僅可以在GPU上執(zhí)行計算,還可以渲染圖形。就您可以解決的問題規(guī)模而言,尤其是圍繞地理空間數(shù)據(jù)而言,OmniSci在那里具有優(yōu)勢,因為所有硬件都已充分利用其全部功能,無論是數(shù)學(xué),圖片還是整個頻譜。
從數(shù)據(jù)中獲得洞察力的愿望沒有絲毫放緩的跡象。隨著對大數(shù)據(jù)分析家的需求以驚人的速度增長,支持您的大數(shù)據(jù)分析團(tuán)隊和開發(fā)可靠的大數(shù)據(jù)分析工作流程的重要性也越來越重要。大數(shù)據(jù)分析是一門藝術(shù),擁有一支裝備精良,充滿靈感的團(tuán)隊,任何項目都可以轉(zhuǎn)化為有價值的,引人入勝的故事。
填寫下面表單即可預(yù)約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費! 怕學(xué)不會?助教全程陪讀,隨時解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc