每當您去進行大數據分析面試時,面試官都會問一些基本的問題。無論您是大數據分析領域的新手還是經驗豐富的人,都需要具備基本知識。因此,AAA教育整理了一些常見的基本大數據分析面試問題,和大家分享一下:
一、您對“大數據分析”一詞有什么了解?
答: 大數據分析是與復雜和大型數據集相關的術語。關系數據庫無法處理大數據分析,這就是為什么使用特殊的工具和方法對大量數據執(zhí)行操作的原因。大數據分析使公司能夠更好地了解其業(yè)務,并幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據分析還使公司能夠在數據的支持下做出更好的業(yè)務決策。
二、大數據分析的五個V是什么?
答:大數據分析的五個V如下:
卷–卷表示卷的數量,即以高速率增長的數據量,即以PB為單位的數據量
速度–速度是數據增長的速度。社交媒體在增長數據的速度中起著重要作用。
多樣性–多樣性是指不同的數據類型,即各種數據格式,例如文本,音頻,視頻等。
準確性–準確性是指可用數據的不確定性。由于大量數據帶來不完整和不一致,因此會出現準確性。
價值–價值是指將數據轉化為價值。通過將訪問的大數據分析轉化為價值,企業(yè)可以創(chuàng)造收入。
5 V的大數據分析
注意: 這是大數據分析采訪中提出的基本且重要的問題之一。如果您看到面試官有興趣了解更多信息,則可以選擇詳細解釋五個V。但是,如果詢問“大數據分析”一詞,甚至可以提及這些名稱。
三、告訴我們大數據分析和Hadoop之間的關系。
答: 大數據分析和Hadoop幾乎是同義詞。隨著大數據分析的興起,專門用于大數據分析操作的Hadoop框架也開始流行。專業(yè)人士可以使用該框架來分析大數據分析并幫助企業(yè)做出決策。
注意: 在大數據分析采訪中通常會問這個問題。 Ÿ歐可以進一步去回答這個問題,并試圖解釋的Hadoop的主要組成部分。
四、大數據分析分析如何有助于增加業(yè)務收入?
答:大數據分析對于企業(yè)來說已經變得非常重要。它可以幫助企業(yè)與眾不同,并增加收入。通過預測分析,大數據分析為企業(yè)提供了定制的建議。此外,大數據分析使企業(yè)能夠根據客戶的需求和偏好推出新產品。這些因素使企業(yè)獲得了更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司的收入可能會大幅增長5-20%。一些使用大數據分析來增加收入的受歡迎的公司是-沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。
五、解釋部署大數據分析解決方案應遵循的步驟。
答:以下是部署大數據分析解決方案的三個步驟:
1、資料提取
部署大數據分析解決方案的第一步是數據攝取,即從各種來源提取數據。數據源可以是Salesforce之類的CRM,SAP之類的企業(yè)資源計劃系統(tǒng),MySQL之類的RDBMS或任何其他日志文件,文檔,社交媒體源等。可以通過批處理作業(yè)或實時流來提取數據。然后將提取的數據存儲在HDFS中。
部署大數據分析解決方案的步驟
2、數據存儲
提取數據后,下一步是存儲提取的數據。數據可以存儲在HDFS或NoSQL數據庫(即HBase)中。HDFS存儲適用于順序訪問,而HBase適用于隨機讀取/寫入訪問。
3、數據處理
部署大數據分析解決方案的最后一步是數據處理。數據通過Spark,MapReduce,Pig等處理框架之一進行處理。
六、定義HDFS和YARN的各個組件
答: HDFS的兩個主要組成部分是-
NameNode –這是主節(jié)點,用于處理HDFS中數據塊的元數據信息
DataNode / Slave節(jié)點–這是一個充當從節(jié)點存儲數據以供NameNode處理和使用的節(jié)點
除了滿足客戶端請求之外,NameNode還執(zhí)行以下兩個角色之一:
CheckpointNode –它運行在與NameNode不同的主機上
BackupNode-這是一個只讀的NameNode,其中包含文件系統(tǒng)元數據信息(不包括塊位置)
YARN的兩個主要組成部分是:
ResourceManager –此組件接收處理請求,并根據處理需要相應地分配給相應的NodeManager。
NodeManager –在每個數據節(jié)點上執(zhí)行任務
答: 由于數據分析已成為業(yè)務的關鍵參數之一,因此,企業(yè)正在處理大量的結構化,非結構化和半結構化數據。在Hadoop以其以下功能為主要角色的情況下,分析非結構化數據非常困難
存儲
處理中
數據采集
此外,Hadoop是開源的,并且在商品硬件上運行。因此,它是企業(yè)的成本效益解決方案。
八、什么是fsck?
答: fsck代表文件系統(tǒng)檢查。這是HDFS使用的命令。此命令用于檢查不一致以及文件中是否存在任何問題。例如,如果文件缺少任何塊,則HDFS將通過此命令得到通知。
九、NAS(網絡附加存儲)和HDFS之間的主要區(qū)別是什么?
答: NAS(網絡附加存儲)和HDFS之間的主要區(qū)別–
HDFS在計算機集群上運行,而NAS在單臺計算機上運行。因此,數據冗余是HDFS中的常見問題。相反,對于NAS,復制協(xié)議是不同的。因此,數據冗余的機會要少得多。
對于HDFS,數據將作為數據塊存儲在本地驅動器中。對于NAS,它存儲在專用硬件中。
十、格式化NameNode的命令是什么?
答案: $ hdfs namenode -format
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動者數字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc