加载数据的方法有很多,精力有限,根据数据类型分类掌握一致两种导入方法
1.读写文本格式的数据
pd.read_csv()
pd.read_table()
这一种应该是最常用的读取数据的方法了,根据数据的混乱程度可以在后面加上读取的限定方法,常用的如下:
导出文本文件:
data.to_csv()
2.读取/导出文本文件
with open('mydata.csv','r/w')as f:
3.json数据
import json
a=json.loads(obj)#导入json数据
ajson=json.dumps(data)#将文本转换成json对象
data=pd.read_json()#直接读取json数据为data对象
4.读取xml和html
pd.read_html()
5.读取Excel文件
#方法1
xlsx=pd.ExcelFile('name.xlsx')
#方法2
xlsx=pd.read_excel('name.xlsx')
6.从数据库中读取数据
与数据库建立连接,用SQL查询导入数据,分析数据时也可以之间用SQL语句查询,然后转换成DataFrame 形式,例:
#导入包
import pymysql
连接数据库
conn=pymysql.connect(host='localhost',port=3306,
user='root',password='123456',db='brazilian',charset='utf8')#db为数据库名
query='select * from new_orders_merged'#编写SQL语句
sql_data=pd.read_sql(query,conn)#执行SQL语句,从数据库中导入名为new_orders_merged的表
#sql语句
sql="""SELECT customer_state,ROUND(SUM(payment_value),2) AS "交易额"
FROM new_orders_merged
GROUP BY customer_state ORDER BY 交易额 DESC;"""
#建立游标
cursor= conn.cursor()
#执行sql语句
cursor.execute(sql)
#读取全部数据
state_pay=cursor.fetchall()
#转换数据类型
#转为list类型
state_pay_List=list(state_pay)
#转为DataFrame类型
state_pay_Data = pd.DataFrame(state_pay_List,columns=["state","交易额"])
state_pay_Data=state_pay_Data.set_index("state")
print(state_pay_Data)