如何將Excel和Python和Pandas結(jié)合使用?為什么要學(xué)習(xí)在Python中使用Excel? Excel是最流行和廣泛使用的數(shù)據(jù)工具之一。很難找到一個(gè)不以某種方式與之合作的組織。從分析師到銷售副總裁,再到首席執(zhí)行官,各種專業(yè)人員都使用Excel進(jìn)行快速統(tǒng)計(jì)和嚴(yán)重的數(shù)據(jù)處理。
隨著Excel的普及,數(shù)據(jù)專業(yè)人員必須熟悉它。與Python的UI相比,使用Python或R處理數(shù)據(jù)具有明顯的優(yōu)勢(shì),因此找到一種使用代碼使用Excel的方法至關(guān)重要。值得慶幸的是,已經(jīng)有一個(gè)很棒的工具叫做,可以在Python中使用Excel pandas。
Pandas具有從Excel文件讀取各種數(shù)據(jù)的出色方法。您也可以將結(jié)果從Pandas導(dǎo)出回Excel,如果您的目標(biāo)受眾更喜歡的話。Pandas非常適合其他常規(guī)數(shù)據(jù)分析任務(wù),例如:
1)快速探索性數(shù)據(jù)分析(EDA)
2)繪制有吸引力的地塊
3)將數(shù)據(jù)輸入到scikit-learn等機(jī)器學(xué)習(xí)工具中
4)在數(shù)據(jù)上建立機(jī)器學(xué)習(xí)模型
5)將清理和處理過(guò)的數(shù)據(jù)帶入任意數(shù)量的數(shù)據(jù)工具
Pandas在自動(dòng)化數(shù)據(jù)處理任務(wù)方面比Excel更好,包括處理Excel文件。
在如何將Excel和Python和Pandas結(jié)合使用中,我們將向您展示如何使用Pandas中的Excel文件。我們將介紹以下概念。
1)使用必要的軟件設(shè)置計(jì)算機(jī)
2)將數(shù)據(jù)從Excel文件讀入Pandas
3)Pandas數(shù)據(jù)探索
4)使用matplotlib可視化庫(kù)可視化Pandas中的數(shù)據(jù)
5)在Pandas中處理和重塑數(shù)據(jù)
6)將數(shù)據(jù)從Pandas移動(dòng)到Excel
請(qǐng)注意,如何將Excel和Python和Pandas結(jié)合使用并未深入探討Pandas。要進(jìn)一步探索Pandas,請(qǐng)查看我們的課程。
系統(tǒng)先決條件
在如何將Excel和Python和Pandas結(jié)合使用中,我們將使用Python 3和Jupyter Notebook演示代碼。
除了Python和Jupyter Notebook,您還將需要以下Python模塊:
1)matplotlib –數(shù)據(jù)可視化
2)NumPy –數(shù)值數(shù)據(jù)功能
3)OpenPyXL –讀/寫Excel 2010 xlsx / xlsm文件
4)大Pandas–數(shù)據(jù)導(dǎo)入,清理,探索和分析
4)xlrd –讀取Excel數(shù)據(jù)
5)xlwt –寫入Excel
6)XlsxWriter –寫入Excel(xlsx)文件
設(shè)置所有模塊有多種方法。我們?cè)谙旅娼榻B三種最常見的方案。
1)如果通過(guò)Anaconda軟件包管理器安裝了Python ,則可以使用以下命令安裝所需的模塊conda install。例如,要安裝Pandas,您將執(zhí)行命令– conda install pandas。
2)如果您已經(jīng)在計(jì)算機(jī)上安裝了常規(guī)的非Anaconda Python,則可以使用來(lái)安裝所需的模塊pip。打開命令行程序并執(zhí)行命令pip install 以安裝模塊。您應(yīng)該用要安裝的模塊的實(shí)際名稱替換。例如,要安裝Pandas,您將執(zhí)行命令– pip install pandas。
3)如果尚未安裝Python,則應(yīng)通過(guò)Anaconda軟件包管理器進(jìn)行獲取。Anaconda提供了適用于Windows,Mac和Linux計(jì)算機(jī)的安裝程序。如果選擇完整的安裝程序,則將在一個(gè)軟件包中獲得所需的所有模塊以及Python和pandas。這是最簡(jiǎn)單,最快的入門方法。
數(shù)據(jù)集
在如何將Excel和Python和Pandas結(jié)合使用中,我們將使用由Kaggle的IMDB分?jǐn)?shù)數(shù)據(jù)創(chuàng)建的多頁(yè)Excel文件。
我們的Excel文件分為三頁(yè):“ 1900年代”,“ 2000年代”和“ 2010年代”。每張紙都包含那幾年的電影數(shù)據(jù)。
我們將使用此數(shù)據(jù)集來(lái)查找電影的收視率分布,可視化具有最高收視率和凈收入的電影,并計(jì)算有關(guān)電影的統(tǒng)計(jì)信息。我們將使用Python和pandas分析和探索這些數(shù)據(jù),從而展示pandas在Python中處理Excel數(shù)據(jù)的功能。
從Excel文件中讀取數(shù)據(jù)
我們需要首先將數(shù)據(jù)從Excel文件導(dǎo)入到Pandas中。為此,我們首先導(dǎo)入pandas模塊。
然后,我們使用Pandas的read_excel方法從Excel文件中讀取數(shù)據(jù)。調(diào)用此方法的最簡(jiǎn)單方法是傳遞文件名。如果未指定工作表名稱,則它將讀取索引中的第一張工作表(如下所示)。
在此,該read_excel方法將數(shù)據(jù)從Excel文件讀取到pandas DataFrame對(duì)象中。Pandas默認(rèn)將數(shù)據(jù)存儲(chǔ)在DataFrames中。然后,我們將此DataFrame存儲(chǔ)到名為的變量中movies。
Pandas有一個(gè)內(nèi)置DataFrame.head()方法,我們可以使用它輕松顯示DataFrame的前幾行。如果未傳遞任何參數(shù),它將顯示前五行。如果傳遞了一個(gè)數(shù)字,它將從頂部開始顯示相等的行數(shù)。
Excel文件通常具有多個(gè)工作表,并且讀取特定工作表或全部工作表的功能非常重要。為了簡(jiǎn)化此過(guò)程,pandasread_excel方法采用了一個(gè)稱為的參數(shù)sheetname,該參數(shù)告訴pandas從數(shù)據(jù)中讀取哪張紙。為此,您可以使用工作表名稱或工作表編號(hào)。工作表編號(hào)從零開始。如果sheetname未提供參數(shù),則默認(rèn)為零,Pandas將導(dǎo)入第一張紙。
默認(rèn)情況下,pandas將自動(dòng)分配一個(gè)從零開始的數(shù)字索引或行標(biāo)簽。如果您的數(shù)據(jù)沒(méi)有具有唯一值的列,可以用作更好的索引,則可能需要保留默認(rèn)索引。如果您認(rèn)為有一個(gè)列可以用作更好的索引,則可以通過(guò)將index_col屬性設(shè)置為列來(lái)覆蓋默認(rèn)行為。它使用一個(gè)數(shù)值來(lái)將單個(gè)列設(shè)置為索引,或者使用數(shù)值列表來(lái)創(chuàng)建一個(gè)多索引。
在下面的代碼中,我們通過(guò)將零傳遞給index_col參數(shù)來(lái)選擇第一列“標(biāo)題”作為索引(index = 0)。
如上所述,我們的Excel數(shù)據(jù)文件分為三頁(yè)。我們已經(jīng)閱讀了上面的DataFrame中的第一張表?,F(xiàn)在,使用相同的語(yǔ)法,我們還將閱讀其余兩頁(yè)。
由于所有三個(gè)工作表都具有相似的數(shù)據(jù),但記錄運(yùn)動(dòng)不同,因此我們將根據(jù)上面創(chuàng)建的所有三個(gè)數(shù)據(jù)幀創(chuàng)建一個(gè)單獨(dú)的數(shù)據(jù)幀。concat為此,我們將使用pandas方法,并傳入剛剛創(chuàng)建的三個(gè)DataFrame的名稱,并將結(jié)果分配給新的DataFrame對(duì)象movies。通過(guò)保持DataFrame名稱與以前相同,我們將覆蓋先前創(chuàng)建的DataFrame。
我們可以通過(guò)調(diào)用組合后的DataFrame中的行數(shù)來(lái)檢查該串聯(lián),方法是調(diào)用組合后的DataFrame中的方法shape,該方法將為我們提供行數(shù)和列數(shù)。
使用ExcelFile類讀取多張工作表
我們還可以使用ExcelFile類來(lái)處理來(lái)自同一Excel文件的多個(gè)工作表。我們首先使用來(lái)包裝Excel文件ExcelFile,然后將其傳遞給read_excelmethod。
如果您正在閱讀包含大量圖紙的Excel文件并創(chuàng)建大量DataFrame,ExcelFile則與相比,它更加便捷高效read_excel。使用ExcelFile,您只需傳遞一次Excel文件,然后就可以使用它來(lái)獲取DataFrame。使用時(shí)read_excel,您每次都會(huì)傳遞Excel文件,因此會(huì)為每張紙?jiān)俅渭虞d該文件。如果Excel文件中包含許多行數(shù)很多的工作表,這可能會(huì)極大地拖累性能。
探索數(shù)據(jù)
現(xiàn)在,我們已經(jīng)從Excel文件中讀取了電影數(shù)據(jù)集,我們可以開始使用Pandas進(jìn)行探索了。大PandasDataFrame以表格格式存儲(chǔ)數(shù)據(jù),就像Excel在表格中顯示數(shù)據(jù)的方式一樣。Pandas有很多內(nèi)置方法來(lái)探索我們從剛剛讀入的Excel文件中創(chuàng)建的DataFrame。
我們已經(jīng)head在上一節(jié)中介紹了該方法,該方法從DataFrame的頂部開始顯示幾行。讓我們看看在探索數(shù)據(jù)集時(shí)會(huì)派上用場(chǎng)的其他幾種方法。
我們可以使用該shape方法找出DataFrame的行數(shù)和列數(shù)。
這告訴我們我們的Excel文件具有5042條記錄和25列或觀察值。這對(duì)于報(bào)告記錄和列的數(shù)量并將其與源數(shù)據(jù)集進(jìn)行比較很有用。
我們可以使用該tail方法查看底部的行。如果未傳遞任何參數(shù),則僅返回底部的五行。
在Excel中,您可以根據(jù)一列或多列中的值對(duì)工作表進(jìn)行排序。在Pandas中,您可以使用該sort_values方法執(zhí)行相同的操作。例如,讓我們根據(jù)“總收入”列對(duì)電影數(shù)據(jù)幀進(jìn)行排序。
由于我們將數(shù)據(jù)按列中的值排序,因此我們可以做一些有趣的事情。例如,我們可以顯示總收入前10名電影。
我們還可以為《總收入》中的前十部電影創(chuàng)建情節(jié)。通過(guò)流行的數(shù)據(jù)可視化庫(kù)matplotlib,Pandas可以很容易地用繪圖和圖表可視化數(shù)據(jù)。用幾行代碼,您就可以開始繪圖。此外,由于您可以在代碼下直接放置圖表,因此matplotlib圖表在Jupyter Notebook中可以很好地工作。
首先,我們導(dǎo)入matplotlib模塊并設(shè)置matplotlib以在Jupyter Notebook中直接顯示圖。
我們將繪制一個(gè)條形圖,其中每個(gè)條形將代表前十部電影之一。為此,我們可以調(diào)用plot方法并將參數(shù)設(shè)置kind為barh。這告訴matplotlib您繪制水平條形圖。
讓我們創(chuàng)建一個(gè)IMDB分?jǐn)?shù)的直方圖,以檢查IMDB分?jǐn)?shù)在所有電影中的分布。直方圖是可視化數(shù)據(jù)集分布的好方法。我們使用plot電影讓我們創(chuàng)建一個(gè)IMDB分?jǐn)?shù)的直方圖,以檢查IMDB分?jǐn)?shù)在所有電影中的分布。直方圖是可視化數(shù)據(jù)集分布的好方法。我們使用plot電影數(shù)據(jù)幀中IMDB Scores系列的方法,并將其傳遞給參數(shù)。數(shù)據(jù)幀中IMDB Scores系列的方法,并將其傳遞給參數(shù)。
此數(shù)據(jù)可視化表明,大多數(shù)IMDB分?jǐn)?shù)介于6到8之間。
獲取有關(guān)數(shù)據(jù)的統(tǒng)計(jì)信息
Pandas有一些非常方便的方法來(lái)查看有關(guān)我們數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。例如,我們可以使用該describe方法來(lái)獲取數(shù)據(jù)集的統(tǒng)計(jì)摘要。
該describe方法為每個(gè)列顯示以下信息。
1)值的數(shù)量或數(shù)量
2)意思
3)標(biāo)準(zhǔn)偏差
4)最小,最大
5)25%,50%和75%的分位數(shù)
請(qǐng)注意,此信息僅針對(duì)數(shù)字值進(jìn)行計(jì)算。
我們還可以使用相應(yīng)的方法一次訪問(wèn)此信息。例如,要獲取特定列的均值,可以使用該mean列上的方法。
就像平均值一樣,我們要訪問(wèn)的每種統(tǒng)計(jì)信息都有可用的方法。您可以在我們的免費(fèi)Pandas備忘單上閱讀有關(guān)這些方法的信息。
讀取沒(méi)有標(biāo)題的文件并跳過(guò)記錄
在如何將Excel和Python和Pandas結(jié)合使用的前面,我們看到了一些方法來(lái)讀取一種特殊的Excel文件,該文件具有標(biāo)題并且沒(méi)有需要跳過(guò)的行。有時(shí),Excel工作表沒(méi)有任何標(biāo)題行。對(duì)于此類情況,您可以告訴Pandas不要將第一行視為標(biāo)題或列名。并且,如果Excel工作表的前幾行包含不應(yīng)讀取的數(shù)據(jù),則可以要求該read_excel方法從頂部開始跳過(guò)一定數(shù)量的行。
例如,查看此Excel文件的前幾行。
該文件顯然沒(méi)有標(biāo)題,并且前四行不是實(shí)際記錄,因此不應(yīng)讀入。通過(guò)將參數(shù)設(shè)置header為None,可以告訴read_excel沒(méi)有標(biāo)題,并且可以通過(guò)將參數(shù)設(shè)置skiprows為4來(lái)跳過(guò)前四行。
我們從工作表中跳過(guò)了四行,沒(méi)有任何行用作標(biāo)題。另外,請(qǐng)注意,可以在一個(gè)read語(yǔ)句中組合不同的選項(xiàng)。要跳過(guò)工作表底部的行,可以使用option skip_footer,它的作用與一樣skiprows,唯一的區(qū)別是行是從底部向上計(jì)數(shù)的。
前一個(gè)DataFrame中的列名稱是數(shù)字,并且由Pandas默認(rèn)分配。通過(guò)columns在DataFrame上調(diào)用方法并將列名作為列表傳遞,我們可以將列名重命名為描述性名稱。
現(xiàn)在,我們已經(jīng)了解了如何從Excel文件讀取行的子集,我們可以學(xué)習(xí)如何讀取列的子集。
讀取列的子集
盡管read_excel默認(rèn)為讀取和導(dǎo)入所有列,但是您可以選擇僅導(dǎo)入某些列。通過(guò)傳遞parse_cols = 6,我們告訴該read_excel方法僅讀取第一列,直到索引為六或前七個(gè)列(第一列的索引為零)。
或者,您可以傳入一個(gè)數(shù)字列表,這將使您可以導(dǎo)入特定索引處的列。
在列上應(yīng)用公式
Excel的常用功能之一是應(yīng)用公式從現(xiàn)有列值創(chuàng)建新列。在我們的Excel文件中,我們有“總收入”和“預(yù)算”列。我們可以通過(guò)從總收入中減去預(yù)算來(lái)獲得凈收入。然后,我們可以將此公式在Excel文件中應(yīng)用于所有行。我們也可以在Pandas中做到這一點(diǎn),如下所示。
上面,我們使用Pandas創(chuàng)建了一個(gè)名為“凈收入”的新列,并在其中填充了“總收入”和“預(yù)算”的差額。值得注意的是,Excel和Pandas在公式處理方式上的區(qū)別。在Excel中,公式存在于單元格中,并在數(shù)據(jù)更改時(shí)更新-使用Python,會(huì)進(jìn)行計(jì)算并存儲(chǔ)值-如果手動(dòng)更改了一部電影的總收入,則不會(huì)更新凈收入。
讓我們使用該sot_values方法按照創(chuàng)建的新列對(duì)數(shù)據(jù)進(jìn)行排序,并按“凈收入”顯示前十部電影。
Pandas數(shù)據(jù)透視表
高級(jí)Excel用戶還經(jīng)常使用數(shù)據(jù)透視表。數(shù)據(jù)透視表通過(guò)將數(shù)據(jù)分組到索引上并應(yīng)用諸如排序,求和或求平均之類的操作來(lái)匯總另一個(gè)表的數(shù)據(jù)。您也可以在Pandas中使用此功能。
我們需要首先確定將用作索引的一列或多列,以及將在其上應(yīng)用匯總公式的列。讓我們從小處開始,選擇Year作為索引列,選擇Gross Earnings作為匯總列,然后從該數(shù)據(jù)創(chuàng)建一個(gè)單獨(dú)的DataFrame。
現(xiàn)在pivot_table,我們調(diào)用該數(shù)據(jù)子集。該方法pivot_table帶有一個(gè)參數(shù)index。如前所述,我們要使用Year作為索引。
這為我們提供了一個(gè)樞紐分析表,其中按年份分組并匯總了總收入。注意,我們不需要明確指定“總收入”列,因?yàn)镻andas會(huì)自動(dòng)將其標(biāo)識(shí)為應(yīng)應(yīng)用匯總的值。
我們可以使用該數(shù)據(jù)透視表創(chuàng)建一些數(shù)據(jù)可視化。我們可以plot在DataFrame上調(diào)用該方法以創(chuàng)建線圖,并調(diào)用該show方法以在筆記本中顯示該圖。
我們看到了如何以單個(gè)列作為索引進(jìn)行數(shù)據(jù)透視。如果我們可以使用多列,事情將會(huì)變得更加有趣。讓我們創(chuàng)建另一個(gè)DataFrame子集,但是這次我們將選擇“國(guó)家/地區(qū)”,“語(yǔ)言”和“總收入”列。
我們將使用“國(guó)家”和“語(yǔ)言”列作為數(shù)據(jù)透視表的索引。我們將使用毛收入作為匯總表,但是,我們不需要像前面看到的那樣明確地指定它。
讓我們用條形圖可視化此數(shù)據(jù)透視表。由于此數(shù)據(jù)透視表中仍然有幾百條記錄,因此我們將只繪制其中的幾條。
將結(jié)果導(dǎo)出到Excel
如果您要與使用Excel的同事一起工作,則將Excel文件保存在Pandas之外非常重要。您可以使用pandasto_excel方法將pandas DataFrame導(dǎo)出或?qū)懭隕xcel文件。Pandasxlwt內(nèi)部使用Python模塊來(lái)寫入Excel文件。該to_excel方法在我們要導(dǎo)出的DataFrame上調(diào)用,我們還需要傳遞一個(gè)將寫入此DataFrame的文件名。
默認(rèn)情況下,索引也保存到輸出文件中。但是,有時(shí)索引不提供任何有用的信息。例如,moviesDataFrame具有數(shù)字自動(dòng)增量索引,該索引不是原始Excel數(shù)據(jù)的一部分。
您可以通過(guò)傳遞index-False來(lái)選擇跳過(guò)索引。
我們需要能夠使輸出文件看起來(lái)更好,然后才能將其發(fā)送給我們的同事。我們可以將pandasExcelWriter類與XlsxWriterPython模塊一起使用以應(yīng)用格式。
我們可以通過(guò)創(chuàng)建一個(gè)ExcelWriter對(duì)象來(lái)使用這些高級(jí)輸出選項(xiàng),并使用該對(duì)象寫入EXcel文件。
我們可以通過(guò)調(diào)用add_format要寫入的工作簿來(lái)應(yīng)用自定義項(xiàng)。在這里,我們將標(biāo)題格式設(shè)置為粗體。
最后,我們通過(guò)save在writer對(duì)象上調(diào)用方法來(lái)保存輸出文件。
例如,我們保存的數(shù)據(jù)的列標(biāo)題設(shè)置為粗體。保存的文件如下圖所示。
這樣,可以XlsxWriter將各種格式應(yīng)用于輸出的Excel文件。
結(jié)論
Pandas不能替代Excel。兩種工具在數(shù)據(jù)分析工作流程中都有自己的位置,并且可以成為非常出色的輔助工具。正如我們所展示的,Pandas可以執(zhí)行許多復(fù)雜的數(shù)據(jù)分析和操作,這取決于您的需要和專業(yè)知識(shí),可能超出僅使用Excel所能實(shí)現(xiàn)的范圍。在Excel上使用Python和Pandas的主要好處之一是,它可以通過(guò)編寫腳本并與自動(dòng)化數(shù)據(jù)工作流程集成來(lái)幫助您自動(dòng)化Excel文件處理。Pandas還具有從Excel文件讀取各種數(shù)據(jù)的出色方法。如果您的目標(biāo)受眾更喜歡將結(jié)果從Pandas導(dǎo)出回Excel,則也可以。
另一方面,Excel是一個(gè)如此廣泛使用的數(shù)據(jù)工具,忽略它不是一個(gè)明智的選擇。掌握Pandas和Excel方面的專業(yè)知識(shí)并使其協(xié)同工作,可以為您提供技能,幫助您在組織中脫穎而出。
填寫下面表單即可預(yù)約申請(qǐng)免費(fèi)試聽!怕錢不夠?可先就業(yè)掙錢后再付學(xué)費(fèi)! 怕學(xué)不會(huì)?助教全程陪讀,隨時(shí)解惑!擔(dān)心就業(yè)?一地學(xué)習(xí),可推薦就業(yè)!
?2007-2022/ m.lb577.com 北京漫動(dòng)者數(shù)字科技有限公司 備案號(hào): 京ICP備12034770號(hào) 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc