這大數(shù)據(jù)分析命令行工具有哪些是對(duì)十二種類(lèi)Unix操作系統(tǒng)命令行工具的簡(jiǎn)短概述,這些工具可用于大數(shù)據(jù)分析任務(wù)。該名單不包括任何一般的文件管理命令(pwd,ls,mkdir,rm,...)或遠(yuǎn)程會(huì)話(huà)管理工具(rsh,ssh,...),而是由公用事業(yè)這將是有用的從大數(shù)據(jù)分析的角度看,一般是涉及不同了數(shù)據(jù)檢查和處理的程度。它們也都包含在典型的類(lèi)Unix操作系統(tǒng)中。當(dāng)然,它是基本的,但是我鼓勵(lì)你在適當(dāng)?shù)那闆r下尋找其他命令示例。工具名稱(chēng)鏈接到Wikipedia條目,而不是手冊(cè)頁(yè),因?yàn)樵谖铱磥?lái),前者通常對(duì)新手更友好。
1、wget
wget是一種文件檢索實(shí)用程序,用于從遠(yuǎn)程位置下載文件。以其最基本的形式,wget用于下載遠(yuǎn)程文件:
2、cat
cat是用于將文件內(nèi)容輸出到標(biāo)準(zhǔn)輸出的工具。該名稱(chēng)來(lái)自串聯(lián)。更復(fù)雜的用例包括將文件組合在一起(實(shí)際串聯(lián)),將文件追加到另一個(gè)文件,對(duì)文件行編號(hào)等。
3、wc
該wc命令用于產(chǎn)生字?jǐn)?shù),行數(shù),字節(jié)數(shù)以及與文本文件相關(guān)的內(nèi)容。wc的默認(rèn)輸出在不帶選項(xiàng)的情況下運(yùn)行時(shí),是一行,由左至右,行數(shù),字?jǐn)?shù)(請(qǐng)注意,每行不間斷的單個(gè)字符串計(jì)為一個(gè)字),字符數(shù)和文件名。
4、head
head將文件的前n行(默認(rèn)情況下為10)輸出到標(biāo)準(zhǔn)輸出??梢允褂?n選項(xiàng)設(shè)置顯示的行數(shù)。
5、tail
有什么猜測(cè)tail嗎?
6、find
find是用于在文件系統(tǒng)中搜索特定文件的實(shí)用程序。以下內(nèi)容從當(dāng)前目錄(“。”)開(kāi)始的樹(shù)結(jié)構(gòu)中搜索以“ iris”開(kāi)頭并以常規(guī)文件類(lèi)型(“ -type f”組成的任何啞字符(“ -name'iris *””)結(jié)尾的任何文件”):
7、cut
cut用于從文件中切出一行文本。盡管可以使用多種標(biāo)準(zhǔn)來(lái)制作這些切片,但是cut可以用于從CSV文件中提取列數(shù)據(jù)。這將使用逗號(hào)作為字段分隔符(“ -d','”)輸出iris.csv文件的第五列(“ -f 5”):
8、uniq
uniq通過(guò)將相同的連續(xù)行折疊為一個(gè)副本,將文本文件的輸出修改為標(biāo)準(zhǔn)輸出。單獨(dú)看來(lái),這似乎并不太有趣,但是當(dāng)用于在命令行上構(gòu)建管道時(shí)(將一個(gè)命令的輸出插入另一個(gè)命令的輸入,依此類(lèi)推),這可能會(huì)變得有用。
以下內(nèi)容為我們提供了第五列中保存的虹膜數(shù)據(jù)集類(lèi)名稱(chēng)的唯一計(jì)數(shù)及其計(jì)數(shù):
9、awk
awk實(shí)際上不是“命令”,而是一種完整的編程語(yǔ)言。它用于處理和提取文本,并且可以從命令行以單行命令形式調(diào)用。
精通awk需要花費(fèi)一些時(shí)間,但是在此之前,這里是它可以完成的示例。考慮到我們的示例文件– iris.csv –相當(dāng)有限(特別是在涉及文本多樣性時(shí)),此行將調(diào)用awk,在給定文件(“ iris.csv”)中搜索字符串“ setosa”,并逐一打印到它遇到的項(xiàng)目(保存在$ 0變量中):
10、grep
grep 是另一種文本處理工具,用于字符串和正則表達(dá)式匹配。
如果你在命令行上花費(fèi)大量時(shí)間進(jìn)行文本處理,那么grep絕對(duì)是你會(huì)熟悉的工具。
11、sed
sed是一個(gè)流編輯器,是另一個(gè)文本處理和轉(zhuǎn)換工具,類(lèi)似于awk。我們?cè)谙旅媸褂么诵?,使用此行將其在iris.csv文件中出現(xiàn)的“ setosa”更改為“ iris-setosa”:
12、history
history 非常簡(jiǎn)單,但也很有用,尤其是當(dāng)你要復(fù)制在命令行中完成的某些數(shù)據(jù)準(zhǔn)備時(shí)。
在那里,你簡(jiǎn)單介紹了12種方便的命令行工具。這只是對(duì)命令行中大數(shù)據(jù)分析(或就此而言的其他任何目標(biāo))可能實(shí)現(xiàn)的一種嘗試。讓自己從鼠標(biāo)中解放出來(lái),觀察生產(chǎn)率的提高。
填寫(xiě)下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽(tīng)!怕錢(qián)不夠?可先就業(yè)掙錢(qián)后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話(huà):010-53672995 郵箱:bjaaa@aaaedu.cc