文章目录
- 1. pandas 创建 Series 格式数据
- 2. pandas 创建 dataframe 格式数据
- 3. 使用pandas内置函数来分析数据
-
- 3.1 describe()
- 3.2 var / sum
- 3.3 求相关性 corr
- 3.4 计算协方差 cov
- 3.5 skew 偏度(三阶矩)/kurt 峰度(四阶矩)
Pandas 是 Python数据分析的强有效的库,主要通过 Series 结构和 DataFrame 结构来进行数据表格的创建,并通过其内置的一些函数进行数据的统计和分析。
1. pandas 创建 Series 格式数据
import pandas
pd = pandas.Series([4,5,6,7],['1','2','3','4'])
print(pd)
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHLzsGVPlXQU9UeRpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLzYzM3IzM1EjM5AzNwAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
2. pandas 创建 dataframe 格式数据
import pandas as pd
data = pd.DataFrame([1,2],['0','1'],['data'])
print(data)
或者:
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,['0','1'],['data1','data2','data3','data4'])
print(data)
PS: pandas 的 dataframe结构任意取出一行或者一列,其结构都是 Series。
3. 使用pandas内置函数来分析数据
3.1 describe()
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
print(describe)
describe()函数最终会呈现每一列数据的count(非空值的个数)、mean(这一列的均值)、std(这一列的标准差)、min(最小值)、25%(下四分位数)、50%(中位数)、75%(上四分位数)、max(最大值)
3.2 var / sum
import pandas as pd
lst = [list(range(1,5)),list(range(6,10))]
data = pd.DataFrame(lst,index=['0','1'],columns=['data1','data2','data3','data4'])
describe = data.describe()
var = data.var() #求方差
sum = data.sum() #求和
print(var,'\n',sum,'\n')
3.3 求相关性 corr
相关性的标准有 Pearson 和 spearman等
import pandas as pd
data = pd.DataFrame([range(1,8),range(2,9)])
print(data)
s1 = data.loc[0]
s2 = data.loc[1]
data.corr(method='pearson')
corr = s1.corr(s2)
print(corr)
3.4 计算协方差 cov
import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data,'\n')
cov = data[0].cov(data[1])
print(cov)
3.5 skew 偏度(三阶矩)/kurt 峰度(四阶矩)
import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(6,5))
print(data)
print(data.skew())
print(data.kurt())