天天看點

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

目錄

一. 導入pandas包

二. 資料讀取

三. Groupby函數使用

    3.1 按照門水準進行透視分析,并提取樣品列進行求和。     3.2 按照門和屬進行透視,并輸出到data/ASV目錄下的phylum_1.xlsx檔案。

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

資料透視表(Pivot Table)是一種互動式的表,可以進行某些計算,如求和與計數等。所進行的計算與資料跟資料透視表中的排列有關。 之是以稱為資料透視表,是因為可以動态地改變它們的版面布置,以便按照不同方式分析資料,也可以重新安排行号、列标和頁字段。每一次改變版面布置時,資料透視表會立即按照新的布置重新計算資料。另外,如果原始資料發生更改,則可以更新資料透視表。 傳統的資料透視表一般是在excel中操作的,但excel操作比較麻煩,且excel讀取大資料容易造成電腦卡的現象。而使用Python的pandas包,可以友善的處理excel資料,這裡,我們介紹excel透視的替代方案,pandas的groupby函數。

導入pandas包

In [1]:

import pandas as pd
           

資料讀取

本次分析資料存放在目前運作目錄下的data/ASV目錄下,df.sample(5)随機顯示5行讀取到的資料。

In [2]:

df = pd.read_table('./data/ASV/subsample_asv.tax.xls')df.sample(5)
           

Out[2]:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

Groupby函數使用

1.按照門水準進行透視分析,并提取樣品列進行求和。

to_excel("data/ASV/phylum.xlsx",index=True) 使得輸出資料儲存至data/ASV目錄下的phylum.xls檔案。

In [3]:

df.groupby('phylum').sum()
           

Out[3]:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

In [4]:

df.groupby('phylum').sum().to_excel("data/ASV/phylum.xlsx",index=True)
           

Excel輸出檔案如下圖所示:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

2.按照門和屬進行透視,并輸出到data/ASV目錄下的phylum_1.xlsx檔案。

In [5]:

df.groupby(['phylum','genus']).sum().to_excel("data/ASV/phylum_1.xlsx",index=True)
           

Excel輸出檔案如下圖所示:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

使用agg對每列進行統計計算

In [6]:

df.groupby('phylum').agg(['mean','std','count','max'])
           

Out[6]:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

In [7]:

df.groupby(['phylum','genus']).agg(['mean','std','count','max'])
           

Out[7]:

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)
groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

往期相關連結:

1、R基礎篇

excel不熟練怎麼辦,R來幫您(一)資料分類彙總 ;如何使用Rstudio練習R基礎教程 ;R相關軟體及R包安裝 ;【零基礎學繪圖】之氣泡圖繪制(六) ;【零基礎學繪圖】之繪制venn圖(五) ;【零基礎學繪圖】之繪制barplot柱狀圖圖(四) ;【零基礎學繪圖】之繪制heatmap圖(三) ;【零基礎學繪圖】之繪制PCA圖(二) ;【零基礎學繪圖】之alpha指數箱體圖繪制(一) ;

2、R進階

ggplot2參數設定麻煩?試試ggpar!;

【繪圖進階】之帶連線的箱體圖繪制(8);

【繪圖進階】之配對箱體圖繪制(七);

【繪圖進階】之通路與菌的相關性分析熱圖(六);

【繪圖進階】之lefse定制化繪圖(五);

【繪圖進階】之六種帶中心點的PCA 圖和三維PCA圖繪制(四);

【繪圖進階】之互動式可删減分組和顯示樣品名的PCA 圖(三);

【繪圖進階】之繪制PCA biplot圖(二);

【進階篇繪圖】之帶P值的箱體圖、小提琴圖繪制(一);

3.python基礎篇

Python入門到底有多簡單(一):資料讀寫與輸出;

4、資料送出

3分鐘學會微生物多樣性雲平台資料分析;

3分鐘學會CHIP-seq類實驗測序資料可視化 —IGV的使用手冊;

10分鐘搞定多樣性資料送出,最快半天内擷取登入号,史上最全的多樣性原始資料送出教程;

20分鐘搞定GEO上傳,史上最簡單、最詳細的GEO資料上傳攻略;

5、表達譜分析

表達譜分析(二)通路富集分析和基因互作網絡圖繪制 ; 如何對GEO資料進行差異分析 ; miRNA靶基因預測軟體__miRWalk 3.0 ;

6、醫學資料分析

KING: 樣本親緣關系鑒定工具 ;【WGS服務更新】人工智能軟體SpliceAI助力解讀罕見和未确診疾病中的非編碼突變 ;隐性疾病trio家系别忽視單親二倍展現象——天昊資料分析助力臨床疾病診斷新添UPD(單親二倍體)可視化分析工具 ;【昊工具】Oh My God! 太好用了吧!疾病或表型的關鍵基因查詢資料庫,我不允許你不知道Phenolyzer ; 天昊客戶服務中心 手機/微信号:18964693703

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

【本群将為大家提供】

分享生信分析方案

提供資料素材及分析軟體支援

定期開展生信分析線上講座

groupby python_【Python入門到底有多簡單】之groupby資料分類彙總(二)

QQ号:1040471849

作者:大熊

稽核:有才

來源:天昊生信團