目錄
一. 導入pandas包
二. 資料讀取
三. Groupby函數使用
3.1 按照門水準進行透視分析,并提取樣品列進行求和。 3.2 按照門和屬進行透視,并輸出到data/ASV目錄下的phylum_1.xlsx檔案。
資料透視表(Pivot Table)是一種互動式的表,可以進行某些計算,如求和與計數等。所進行的計算與資料跟資料透視表中的排列有關。 之是以稱為資料透視表,是因為可以動态地改變它們的版面布置,以便按照不同方式分析資料,也可以重新安排行号、列标和頁字段。每一次改變版面布置時,資料透視表會立即按照新的布置重新計算資料。另外,如果原始資料發生更改,則可以更新資料透視表。 傳統的資料透視表一般是在excel中操作的,但excel操作比較麻煩,且excel讀取大資料容易造成電腦卡的現象。而使用Python的pandas包,可以友善的處理excel資料,這裡,我們介紹excel透視的替代方案,pandas的groupby函數。
一
導入pandas包
In [1]:
import pandas as pd
二
資料讀取
本次分析資料存放在目前運作目錄下的data/ASV目錄下,df.sample(5)随機顯示5行讀取到的資料。
In [2]:
df = pd.read_table('./data/ASV/subsample_asv.tax.xls')df.sample(5)
Out[2]:
三
Groupby函數使用
1.按照門水準進行透視分析,并提取樣品列進行求和。
to_excel("data/ASV/phylum.xlsx",index=True) 使得輸出資料儲存至data/ASV目錄下的phylum.xls檔案。
In [3]:
df.groupby('phylum').sum()
Out[3]:
In [4]:
df.groupby('phylum').sum().to_excel("data/ASV/phylum.xlsx",index=True)
Excel輸出檔案如下圖所示:
2.按照門和屬進行透視,并輸出到data/ASV目錄下的phylum_1.xlsx檔案。
In [5]:
df.groupby(['phylum','genus']).sum().to_excel("data/ASV/phylum_1.xlsx",index=True)
Excel輸出檔案如下圖所示:
使用agg對每列進行統計計算
In [6]:
df.groupby('phylum').agg(['mean','std','count','max'])
Out[6]:
In [7]:
df.groupby(['phylum','genus']).agg(['mean','std','count','max'])
Out[7]:
往期相關連結:
1、R基礎篇
excel不熟練怎麼辦,R來幫您(一)資料分類彙總 ;如何使用Rstudio練習R基礎教程 ;R相關軟體及R包安裝 ;【零基礎學繪圖】之氣泡圖繪制(六) ;【零基礎學繪圖】之繪制venn圖(五) ;【零基礎學繪圖】之繪制barplot柱狀圖圖(四) ;【零基礎學繪圖】之繪制heatmap圖(三) ;【零基礎學繪圖】之繪制PCA圖(二) ;【零基礎學繪圖】之alpha指數箱體圖繪制(一) ;
2、R進階
ggplot2參數設定麻煩?試試ggpar!;
【繪圖進階】之帶連線的箱體圖繪制(8);
【繪圖進階】之配對箱體圖繪制(七);
【繪圖進階】之通路與菌的相關性分析熱圖(六);
【繪圖進階】之lefse定制化繪圖(五);
【繪圖進階】之六種帶中心點的PCA 圖和三維PCA圖繪制(四);
【繪圖進階】之互動式可删減分組和顯示樣品名的PCA 圖(三);
【繪圖進階】之繪制PCA biplot圖(二);
【進階篇繪圖】之帶P值的箱體圖、小提琴圖繪制(一);
3.python基礎篇
Python入門到底有多簡單(一):資料讀寫與輸出;
4、資料送出
3分鐘學會微生物多樣性雲平台資料分析;
3分鐘學會CHIP-seq類實驗測序資料可視化 —IGV的使用手冊;
10分鐘搞定多樣性資料送出,最快半天内擷取登入号,史上最全的多樣性原始資料送出教程;
20分鐘搞定GEO上傳,史上最簡單、最詳細的GEO資料上傳攻略;
5、表達譜分析
表達譜分析(二)通路富集分析和基因互作網絡圖繪制 ; 如何對GEO資料進行差異分析 ; miRNA靶基因預測軟體__miRWalk 3.0 ;
6、醫學資料分析
KING: 樣本親緣關系鑒定工具 ;【WGS服務更新】人工智能軟體SpliceAI助力解讀罕見和未确診疾病中的非編碼突變 ;隐性疾病trio家系别忽視單親二倍展現象——天昊資料分析助力臨床疾病診斷新添UPD(單親二倍體)可視化分析工具 ;【昊工具】Oh My God! 太好用了吧!疾病或表型的關鍵基因查詢資料庫,我不允許你不知道Phenolyzer ; 天昊客戶服務中心 手機/微信号:18964693703
【本群将為大家提供】
分享生信分析方案
提供資料素材及分析軟體支援
定期開展生信分析線上講座
QQ号:1040471849
作者:大熊
稽核:有才
來源:天昊生信團