Pandas å¥é¨

ä¸¤ä¸ªæ°æ®ç±»åï¼seriesåDataFrame

Series

1. åå»ºSerieså¯¹è±¡

import pandas as pd
ser1 = pd.Series(data=[], index=[])

2. Serieså¯¹è±¡çå±æ§

ç´¢å¼ï¼ser1.index() â> ç´¢å¼çå¼ï¼ ser1.index.values
å¼ï¼ser1.values
å¤ææ¯å¦åå¨ç©ºå¼ï¼ser1.hasnans â>è¿åå¸å°å¼
å¤æç³»åä¸æ°æ®æ¯å¦ç¬ä¸æ äºï¼ ser1.is_unique â>è¿åå¸å°å¼
å¤ææ°æ®æ¯å¦åè°éå¢/éåï¼

ser1.is_monotonic_increasing / ser1.monotonic_decreasing

3. Serieså¯¹è±¡çæ¹æ³

è·åæè¿°æ§ç»è®¡ä¿¡æ¯ â>éä¸è¶å¿

æ±åï¼ser.sum()

å¹³åå¼ï¼ser.mean()

ä¸ä½æ°ï¼ser.median()

ä¼æ°ï¼ser.mode()
è·åæè¿°æ§ç»è®¡ä¿¡æ¯ â> ç¦»æ£è¶å¿
1. æå¤§å¼/æå°å¼ï¼ ser.max() / ser.min()
2. æ¹å·®ï¼ ser.var()
3. æ åå·®ï¼ser.std()
4. ååä½æ°ï¼ser.quantileï¼0.25/0.5/0.75ï¼
è·åå¤ä¸ªæè¿°æ§ä¿¡æ¯ï¼

ser.describeï¼ï¼
å»é
1. â>è¿åæ°ç»å¯¹è±¡ï¼ ser.unique()
2. â>è¿åSerieså¯¹è±¡ï¼ser.drop_duplicates( keep=firstï¼ inplace=False)
  - keepåæ°ï¼first --> ä¿çç¬¬ä¸æ¬¡åºç°çå¼ï¼
    
    â last -->ä¿çæåä¸æ¬¡åºç°çå¼ï¼
    
    â False --> å é¤æéå¤åºç°çå¼ï¼ä¸ä¸ªé½ä¸ç
  - inplaceåæ°ï¼Trueï¼å°±å°å é¤ï¼ååºåæ¹å
    
    â Falseï¼è¿åä¸ä¸ªæ°çåºåï¼ååºåä¸å
å»éååç´ çä¸ªæ°ï¼

ser.nunique() â >è¿åint
æ¯ä¸ªåç´ åºç°çé¢æ¬¡ï¼æé¢æ¬¡éåºæåï¼

ser.values_counts()

4. ç©ºå¼çå¤ç

å¤æç©ºå¼
- å¤æç©ºå¼ï¼ ser.isnull() â> è¿åå¸å°å¼ï¼æ¯ä¸ªå¼é½å¤æï¼è¿åå¸å°åºåï¼
- å¤æéç©ºå¼ï¼ ser.notnull() â> è¿åå¸å°å¼ï¼æ¯ä¸ªå¼é½å¤æï¼è¿åå¸å°åºåï¼
- åºç¨ï¼éè¿å¸å°ç´¢å¼çééç©ºå¼ï¼
  - serï¼ser.notnull( ) )
å é¤ç©ºå¼
- ser.dropna(inplace = True )
å é¤æå®æ°å¼ï¼ ser.dropï¼index=[0, 1, 2]ï¼
å¡«åç©ºå¼
- å¡«åæå®æ°å¼ï¼ser.fillnaï¼50ï¼
- å°±è¿å¡«åï¼ser.fillnaï¼method=ffill / bfillï¼
  - methodåæ°ï¼å®ä¹å¡«åæ¹å¼
    - ffill â> ç¨ç©ºå¼åé¢çæ°å¼å¡«å
    - bfill â> ç¨ç©ºå¼åé¢çæ°å¼å¡«å
  - ser.fillnaï¼ffillï¼.fillnaï¼bfillï¼ â> åç¨åé¢çå¼å¡«åï¼åç¨åé¢çå¼å¡«å

5. æåº

æç´¢å¼æåºï¼ser.sort_index(ascending = True)
æå¼æåºï¼ser.sort_values(ascending = Trueï¼
- ascendingåæ°ï¼True â> ååºæåï¼é»è®¤ï¼
  
  â False â> éåºæå
Top - N
- åNå¤§ï¼ ser.nlargestï¼3ï¼ â> å3å¤§
- åNå°ï¼ ser.nsmallestï¼3ï¼â> å3å°

6. æ å° â> map()

â ç±»ä¼¼äºpythonä¸mapé«é¶å½æ°çç¨æ³

â ç¤ºä¾ï¼

ser = pd.Series([40,74,64,54,32])
newser = ser.map(lambda x: x ** 0.5 * 10)

çº¿æ§å½ä¸åï¼

X â² = X i â X m i n X m a x â X m i n X' = \frac{X_i - X_{min}} {X_{max} - X_{min}} Xâ²=XmaxââXminâXiââXminââ

x_iä¸ºåºåä¸çå¼ï¼X_maxä¸ºåºåä¸æå¤§å¼ï¼X_minä¸ºåºåä¸æå°å¼

ç¨ä»£ç å®ç°ï¼
```
x_max, x_min = ser1.max(), ser1.min()
ser1.map(lambda x: (x - x_min) / (x_max - x_min))
           
```
é¶åå¼å½ä¸åï¼

X â² = X i â Î¼ Ï X' = \frac{X_i - \mu} {\sigma} Xâ²=ÏXiââÎ¼â

x_iä¸ºåºåä¸çå¼ï¼Î¼ä¸ºåºåå¹³åå¼ï¼Ïä¸ºåºåä¸çæ åå·®

ç¨ä»£ç å®ç°ï¼
```
Î¼, Ï = ser1.mean(), ser1.std()
ser1.map(lambda x: (x - Î¼) / Ï)
           
```

7. ç»å¾ â> polt()

è¡¥åï¼å¯¹æ°æ®è¿è¡æ±æ»

ser.groupbyï¼level= 0/1/2ï¼.sum( )
- levelåæ°ï¼æå çº§ææè¿è¡æ±æ»

æ±ç¶å¾

ser1.plot(kind='bar', color=['red','green','blue'])
plt.xticks(rotation=0)  # è®¾ç½®xè½´æ è¯åæ°´å¹³æ¹å
plt.grid(True, alpha=0.5, axis='y', linestyle=':')		# è®¾ç½®ç½æ ¼çº¿
plt.show()
# åæ°ï¼ kind --> å¾è¡¨çç±»åï¼ color --> å¾å½¢çé¢è²

é¥¼ç¶å¾

temp.plot(kind='pie', autopct='%.2f%%')
plt.ylabel('')  
plt.show()
# åæ°ï¼autopct --> æ°æ®æ æ³¨

DataFrame

1. åå»ºDataFrame

è¯»åcsvæä»¶åå»ºDataFrameå¯¹è±¡
```
df = pd.read_csv(
    r'D:\QianFeng.edu\Part5_BI\Day4\files\2018å¹´åäº¬ç§¯åè½æ·æ°æ®.csv',
    usecols=['name', 'birthday', 'company', 'score'],
    sep=',', 
    encoding='utf-8',
    skiprows = range(1, 11), 
    nrows=10
)
           
```
- åæ°ï¼
  - usecols â> è¦è¯»åçåå
  - sep â> æå®æä»¶çé¢åéç¬¦ï¼é»è®¤ä¸ºéå·
  - enconding â> æä»¶ç¼ç æ¹å¼ï¼é»è®¤ä¸ºutf-8
  - skiprows â> è·³è¿åªäºè¡ä¸åï¼ä¸ºè¡çå·ä½è¡å·ï¼å¯ä»¥æ¯listærange
  - nrows â> è¦åå¤å¥½è¡æ°æ®

è¯»åExcelæä»¶åå»ºDataFrameå¯¹è±¡

df = pd.read_excel(
    r'D:\QianFeng.edu\Part5_BI\Day4\files\2020å¹´éå®æ°æ®.xlsx',
    sheet_name='Sheet1',
    header=0,
    usecols=['éå®æ¥æ','éå®åºå','éå®æ¸ é','éå®æ°é']
)

åæ°ï¼
- sheet_name:è¦æå¼çsheetçåå
- header:æå®è¡¨å¤´æå¨çè¡ï¼é»è®¤ä¸º0è¡
- å¶ä»çä¸è¯»åCSVæä»¶ç¸å

éè¿SQLè¯»åæ°æ®åºæ°æ®åå»ºDataFrameæä»¶

import pymysql

conn = pymysql.connect(host='', port=3306,
                        user='root', password='123456',
                        database='hrs', charset='utf8mb4')

dept_df = pd.read_sql(
    'select dno as no, dname as name, dloc as location from tb_dept', 
    conn, 
    index_col='no')

åæ°ï¼indexââcolï¼æå®ç´¢å¼åï¼ä¸æå®åé»è®¤æ·»å 0,1,2â¦ä¸ºç´¢å¼

DataFrameçç¸å³æä½
1. æ¥çDataFrameçä¿¡æ¯
  
  df.info( )
2. æ¥çDataFrameå / åå è¡
  
  df.head( ï¼ / df.tail(ï¼
3. åDataFrameä¸çå
  - df.[âenameâ] â> df.[åå]
  - ä¹å¯éè¿è±å¼ç´¢å¼çæ¹æ³åå¤åï¼df.loc[ [ç´¢å¼1]ï¼[ç´¢å¼1] ] â> emp_df[ [âenameâ, âsalâ] ]
4. åDataFrameä¸çè¡
  - df.loc[1359] â> df.loc[ç´¢å¼]
  - ä¹å¯éè¿è±å¼ç´¢å¼çæ¹æ³åå¤è¡ï¼df.loc[ [ç´¢å¼1]ï¼[ç´¢å¼1] ] â> emp_df.loc[[1359,5566]]
  - åçåè¡ï¼df.loc[1359:3211]
5. ä¿®æ¹åå°çå¼
  
  df.loc[1359, âenameâ] = âè¡ä¸éâ â> df.loc[ç´¢å¼ï¼ åå] = å¼
6. ç»DataFrameæ·»å å
  
  df [åå] = å¼ â> è¥å¼ä¸ºå®å¼ï¼åä¼å¹¿æç»ææè¡ï¼è¥ä¸ºä¸ä¸ªåºåï¼åä¸æ¯ä¸è¡ä¸ä¸å¯¹åº
7. ç»DataFrameæ·»å è¡
  - æ·»å å¨é¨æ°æ®
    
    df.loc[8899] = [âé·æ´â,âå·¥ç¨å¸â,7800,20000,10000,20,âæªå©â] â >df .loc[ç´¢å¼] = åå«ææå¼çåºå
  - æ·»å é¨åæ°æ®ï¼æªç¥çæ°æ®ä¸ºé»è®¤ç¨NaN
    
    df. loc[7799] = {âenameâ:âçå¤§é¤â, âmgrâ: 3088, âsalâ: 5000} â > df.loc[ç´¢å¼] = åå«é¨åå¼çåå¸
8. å é¤å
  
  df.dropï¼columns = ååï¼ â> å é¤å¤åï¼ååä¸ºä¸ä¸ªåºå
9. å é¤è¡
  
  df.dropï¼index = ç´¢å¼ï¼ â> å é¤å¤è¡ï¼ç´¢å¼ä¸ºä¸ä¸ªåºå
10. ä¿®æ¹è¡¨å¤´
  
  df.renameï¼columns =åå«ä¿®æ¹ååååçåå¸ï¼ --> df.rename(columns={âenameâ:âå§åâ})
11. ä¿®æ¹DataFrameçè¡ / å é¡ºåº
  
  df. reindexï¼index / columns = åå« è¡ / å æ°é¡ºåºçåºåï¼ â> df.reindex(columns=[âenameâ,âjobâ,âsalâ,âcommâ,âdnoâ,âmgrâ,âå©å§»ç¶åµâ])
12. éç½®ç´¢å¼
  
  df. reset_indexï¼ï¼
13. è®¾ç½®ç´¢å¼
  
  df. set_index( éè®¾ç½®æç´¢å¼çåå )

Pandas 入门Pandas 入门

Pandas å¥é¨

Series

1. åå»ºSerieså¯¹è±¡

2. Serieså¯¹è±¡çå±æ§

3. Serieså¯¹è±¡çæ¹æ³

4. ç©ºå¼çå¤ç

5. æåº

6. æ å° â> map()

7. ç»å¾ â> polt()

DataFrame

1. åå»ºDataFrame

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

Pandas 入门Pandas 入门

Pandas å ¥é¨

Series

1. åå»ºSerieså¯¹è±¡

2. Serieså¯¹è±¡çå±æ§

3. Serieså¯¹è±¡çæ¹æ³

4. ç©ºå¼çå¤ç

5. æåº

6. æ å° â> map()

7. ç»å¾ â> polt()

DataFrame

1. åå»ºDataFrame

继续阅读

Pandas å¥é¨

1. åå»ºSerieså¯¹è±¡

2. Serieså¯¹è±¡çå±æ§

3. Serieså¯¹è±¡çæ¹æ³

4. ç©ºå¼çå¤ç

5. æåº

6. æ å° â> map()

7. ç»å¾ â> polt()

1. åå»ºDataFrame