天天看点

Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

文章目录

  • 1. pandas 创建 Series 格式数据
  • 2. pandas 创建 dataframe 格式数据
  • 3. 使用pandas内置函数来分析数据
    • 3.1 describe()
    • 3.2 var / sum
    • 3.3 求相关性 corr
    • 3.4 计算协方差 cov
    • 3.5 skew 偏度(三阶矩)/kurt 峰度(四阶矩)

Pandas 是 Python数据分析的强有效的库,主要通过 Series 结构和 DataFrame 结构来进行数据表格的创建,并通过其内置的一些函数进行数据的统计和分析。

1. pandas 创建 Series 格式数据

import pandas

pd = pandas.Series([4,5,6,7],['1','2','3','4'])
print(pd)


           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

2. pandas 创建 dataframe 格式数据

import pandas as pd
data = pd.DataFrame([1,2],['0','1'],['data'])

print(data)

           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

或者:

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,['0','1'],['data1','data2','data3','data4'])

print(data)
           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

PS: pandas 的 dataframe结构任意取出一行或者一列,其结构都是 Series。

3. 使用pandas内置函数来分析数据

3.1 describe()

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
print(describe)
           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

describe()函数最终会呈现每一列数据的count(非空值的个数)、mean(这一列的均值)、std(这一列的标准差)、min(最小值)、25%(下四分位数)、50%(中位数)、75%(上四分位数)、max(最大值)

3.2 var / sum

import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
var = data.var()            #求方差
sum = data.sum()            #求和
print(var,'\n',sum,'\n')

           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

3.3 求相关性 corr

相关性的标准有 Pearson 和 spearman等

import pandas as pd
data = pd.DataFrame([range(1,8),range(2,9)])
print(data)
s1 = data.loc[0]
s2 = data.loc[1]
data.corr(method='pearson')
corr = s1.corr(s2)
print(corr)
           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

3.4 计算协方差 cov

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data,'\n')
cov = data[0].cov(data[1])
print(cov)
           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据

3.5 skew 偏度(三阶矩)/kurt 峰度(四阶矩)

import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data)
print(data.skew())
print(data.kurt())
           
Python数据分析之:Pandas的基本数据分析功能1. pandas 创建 Series 格式数据2. pandas 创建 dataframe 格式数据3. 使用pandas内置函数来分析数据