天天看點

Scrapy爬蟲筆記【6-連接配接資料庫(一)】本部落格位址【http://blog.csdn.net/xiantian7】 資料庫基本概念簡介python操作mysql資料庫

本部落格位址【http://blog.csdn.net/xiantian7】

資料庫基本概念簡介

MySQL 為關系型資料庫(Relational Database Management System), 這種所謂的"關系型"可以了解為"表格"的概念, 一個關系型資料庫由一個或數個表格組成, 如圖所示的一個表格:

Scrapy爬蟲筆記【6-連接配接資料庫(一)】本部落格位址【http://blog.csdn.net/xiantian7】 資料庫基本概念簡介python操作mysql資料庫
  • 表頭(header): 每一列的名稱;
  • 列(row): 具有相同資料類型的資料的集合;
  • 行(col): 每一行用來描述某個人/物的具體資訊;
  • 值(value): 行的具體資訊, 每個值必須與該列的資料類型相同;
  • 鍵(key): 表中用來識别某個特定的人\物的方法, 鍵的值在目前列中具有唯一性。

鍵                就是資料表中的列或者列的組合。

主鍵          表中可以唯一确定本表中某行記錄的列或者列的組合。

                  例如或者身份證号碼唯一确定一個人;使用者ID+發票号碼唯一确認某次交易。

外鍵          表中的某列或者某些列的組合是其他表的主鍵。

                  其作用是為了建立和其他表的關聯關系。

連接配接          将幾個個有關聯的表(其中一個表的主鍵是其他表的外鍵)建立連接配接關系,形成一個臨時表以供它用。

                  建立連接配接的主鍵/外鍵是建立連接配接的依據。

内連接配接    将進行連接配接的表以建立連接配接的依據為中心,将這些表取交集,交集就是内連接配接的結果。

                  作用就是找出在兩張表中都有的記錄。

外連接配接    連接配接的動作和内連接配接一樣,結果不同。将表進行交集之後,取交集中的記錄以及某表中除交集之外的所有記錄。包括左連接配接和右連接配接。

                  例如A表左連接配接B表,實際上就是取交集在B表中所有字段的值+A表内容。

自連接配接    連接配接動作同上,隻不過是在一張表中進行。

                  這樣的情況适用于表中的2個字段互相有關聯,并且要對這種關聯進行處理時。

首先看看各種鍵的定義:

超鍵(super key):在關系中能唯一辨別元組的屬性集稱為關系模式的超鍵

候選鍵(candidate key):不含有多餘屬性的超鍵稱為候選鍵

主鍵(primary key):使用者選作元組辨別的一個候選鍵程式主鍵

外鍵(foreign key)如果關系模式R1中的某屬性集不是R1的主鍵,而是另一個關系R2的主鍵則該屬性集是關系模式R1的外鍵。

結合執行個體的具體解釋:

假設有如下兩個表:

學生(學号,姓名,性别,身份證号,教師編号)

教師(教師編号,姓名,工資)

超鍵:

由超鍵的定義可知,學生表中含有學号或者身份證号的任意組合都為此表的超鍵。如:(學号)、(學号,姓名)、(身份證号,性别)等。

候選鍵:

候選鍵屬于超鍵,它是最小的超鍵,就是說如果再去掉候選鍵中的任何一個屬性它就不再是超鍵了。學生表中的候選鍵為:(學号)、(身份證号)。

主鍵:

主鍵就是候選鍵裡面的一個,是人為規定的,例如學生表中,我們通常會讓“學号”做主鍵,教師表中讓“教師編号”做主鍵。

外鍵:

外鍵比較簡單,學生表中的外鍵就是“教師編号”。外鍵主要是用來描述兩個表的關系。

python操作mysql資料庫

下面以比較流行的Mysql資料庫為栗子,介紹一下Python操作資料庫的方法,後面再逐漸深入

python 标準資料庫接口為 Python DB-API,Python DB-API為開發人員提供了資料庫應用程式設計接口。

你可以通路Python資料庫接口及API檢視詳細的支援資料庫清單。

不同的資料庫你需要下載下傳不同的DB API子產品,例如你需要通路Oracle資料庫和Mysql資料,你需要下載下傳Oracle和MySQL資料庫子產品。

DB-API 是一個規範. 它定義了一系列必須的對象和資料庫存取方式, 以便為各種各樣的底層資料庫系統和多種多樣的資料庫接口程式提供一緻的通路接口 。

Python的DB-API,為大多數的資料庫實作了接口,使用它連接配接各資料庫後,就可以用相同的方式操作各資料庫。

Python DB-API使用流程:

  • 引入 API 子產品。
  • 擷取與資料庫的連接配接。
  • 執行SQL語句和存儲過程。
  • 關閉資料庫連接配接。

安裝MySQLdb的過程略,能夠把Scrapy裝上,那這個就是小菜一碟·· 

資料庫連接配接

連接配接資料庫前,請先确認以下事項:

  • 您已經建立了資料庫 TESTDB.
  • 在TESTDB資料庫中您已經建立了表 EMPLOYEE
  • EMPLOYEE表字段為 FIRST_NAME, LAST_NAME, AGE, SEX 和 INCOME。
  • 連接配接資料庫TESTDB使用的使用者名為 "testuser" ,密碼為 "test123",你可以可以自己設定或者直接使用root使用者名及其密碼,Mysql資料庫使用者授權請使用Grant指令。
  • 在你的機子上已經安裝了 Python MySQLdb 子產品。

建立資料庫

###
#!/usr/bin/python

import MySQLdb

# 打開資料庫連接配接
db = MySQLdb.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法擷取操作遊标 
cursor = db.cursor()

# 如果資料表已經存在使用 execute() 方法删除表。
cursor.execute("DROP TABLE IF EXISTS EMPLOYEE")

# 建立資料表SQL語句
sql = """CREATE TABLE EMPLOYEE (
         FIRST_NAME  CHAR(20) NOT NULL,
         LAST_NAME  CHAR(20),
         AGE INT,  
         SEX CHAR(1),
         INCOME FLOAT )"""

cursor.execute(sql)

# 關閉資料庫連接配接
db.close()
###
           

資料庫插入操作

###
#!/usr/bin/python

import MySQLdb

# 打開資料庫連接配接
db = MySQLdb.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法擷取操作遊标 
cursor = db.cursor()

# SQL 插入語句
sql = """INSERT INTO EMPLOYEE(FIRST_NAME,
         LAST_NAME, AGE, SEX, INCOME)
         VALUES ('Mac', 'Mohan', 20, 'M', 2000)"""
try:
   # 執行sql語句
   cursor.execute(sql)
   # 送出到資料庫執行
   db.commit()
except:
   # Rollback in case there is any error
   db.rollback()

# 關閉資料庫連接配接
db.close()

###
           

也可以寫成

###
#!/usr/bin/python

import MySQLdb

# 打開資料庫連接配接
db = MySQLdb.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法擷取操作遊标 
cursor = db.cursor()

# SQL 插入語句
sql = "INSERT INTO EMPLOYEE(FIRST_NAME, \
       LAST_NAME, AGE, SEX, INCOME) \
       VALUES ('%s', '%s', '%d', '%c', '%d' )" % \
       ('Mac', 'Mohan', 20, 'M', 2000)
try:
   # 執行sql語句
   cursor.execute(sql)
   # 送出到資料庫執行
   db.commit()
except:
   # 發生錯誤時復原
   db.rollback()

# 關閉資料庫連接配接
db.close()
###
           

資料庫查詢操作

Python查詢Mysql使用 fetchone() 方法擷取單條資料, 使用fetchall() 方法擷取多條資料。

  • fetchone(): 該方法擷取下一個查詢結果集。結果集是一個對象
  • fetchall():接收全部的傳回結果行.
  • rowcount: 這是一個隻讀屬性,并傳回執行execute()方法後影響的行數。

執行個體:

查詢EMPLOYEE表中salary(工資)字段大于1000的所有資料:

###
#!/usr/bin/python

import MySQLdb

# 打開資料庫連接配接
db = MySQLdb.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法擷取操作遊标 
cursor = db.cursor()

# SQL 查詢語句
sql = "SELECT * FROM EMPLOYEE \
       WHERE INCOME > '%d'" % (1000)
try:
   # 執行SQL語句
   cursor.execute(sql)
   # 擷取所有記錄清單
   results = cursor.fetchall()
   for row in results:
      fname = row[0]
      lname = row[1]
      age = row[2]
      sex = row[3]
      income = row[4]
      # 列印結果
      print "fname=%s,lname=%s,age=%d,sex=%s,income=%d" % \
             (fname, lname, age, sex, income )
except:
   print "Error: unable to fecth data"

# 關閉資料庫連接配接
db.close()
###
           

DB API中定義了一些資料庫操作的錯誤及異常,下表列出了這些錯誤和異常:

異常 描述
Warning 當有嚴重警告時觸發,例如插入資料是被截斷等等。必須是 StandardError 的子類。
Error 警告以外所有其他錯誤類。必須是 StandardError 的子類。
InterfaceError 當有資料庫接口子產品本身的錯誤(而不是資料庫的錯誤)發生時觸發。 必須是Error的子類。
DatabaseError 和資料庫有關的錯誤發生時觸發。 必須是Error的子類。
DataError 當有資料處理時的錯誤發生時觸發,例如:除零錯誤,資料超範圍等等。 必須是DatabaseError的子類。
OperationalError 指非使用者控制的,而是操作資料庫時發生的錯誤。例如:連接配接意外斷開、 資料庫名未找到、事務處理失敗、記憶體配置設定錯誤等等操作資料庫是發生的錯誤。 必須是DatabaseError的子類。
IntegrityError 完整性相關的錯誤,例如外鍵檢查失敗等。必須是DatabaseError子類。
InternalError 資料庫的内部錯誤,例如遊标(cursor)失效了、事務同步失敗等等。 必須是DatabaseError子類。
ProgrammingError 程式錯誤,例如資料表(table)沒找到或已存在、SQL語句文法錯誤、 參數數量錯誤等等。必須是DatabaseError的子類。
NotSupportedError 不支援錯誤,指使用了資料庫不支援的函數或API等。例如在連接配接對象上 使用.rollback()函數,然而資料庫并不支援事務或者事務已關閉。 必須是DatabaseError的子類。

流程詳解

0.引入MySQLdb庫

import MySQLdb

1.和資料庫建立連接配接

conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")

提供的connect方法用來和資料庫建立連接配接,接收數個參數,傳回連接配接對象.,當然也可以隐式的傳遞參數,像下面這個樣子:

conn=MySQLdb.connect("localhost","root","sa","mytable")

比較常用的參數包括

host:資料庫主機名.預設是用本地主機.

user:資料庫登陸名.預設是目前使用者.

passwd:資料庫登陸的秘密.預設為空.

db:要使用的資料庫名.沒有預設值.

port:MySQL服務使用的TCP端口.預設是3306.

然後,這個連接配接對象也提供了對事務操作的支援,标準的方法

commit() 送出

rollback() 復原

2.執行sql語句和接收傳回值

cursor=conn.cursor()

n=cursor.execute(sql,param)

首先,我們用使用連接配接對象獲得一個cursor對象,接下來,我們會使用cursor提供的方法來進行工作.這些方法包括兩大類:1.執行指令,2.接收傳回值

cursor用來執行指令的方法:

callproc(self, procname, args):用來執行存儲過程,接收的參數為存儲過程名和參數清單,傳回值為受影響的行數

execute(self, query, args):執行單條sql語句,接收的參數為sql語句本身和使用的參數清單,傳回值為受影響的行數

executemany(self, query, args):執行單條sql語句,但是重複執行參數清單裡的參數,傳回值為受影響的行數

nextset(self):移動到下一個結果集

cursor用來接收傳回值的方法:

fetchall(self):接收全部的傳回結果行.

fetchmany(self, size=None):接收size條傳回結果行.如果size的值大于傳回的結果行的數量,則會傳回cursor.arraysize條資料.

fetchone(self):傳回一條結果行.

scroll(self, value, mode='relative'):移動指針到某一行.如果mode='relative',則表示從目前所在行移動value條,如果mode='absolute',則表示從結果集的第一行移動value條.

下面的代碼是一個完整的例子.

###
#使用sql語句,這裡要接收的參數都用%s占位符.要注意的是,無論你要插入的資料是什麼類型,占位符永遠都要用%s
sql="insert into cdinfo values(%s,%s,%s,%s,%s)"

#param應該為tuple或者list
param=(title,singer,imgurl,url,alpha)

#執行,如果成功,n的值為1
n=cursor.execute(sql,param)

#再來執行一個查詢的操作
cursor.execute("select * from cdinfo")

#我們使用了fetchall這個方法.這樣,cds裡儲存的将會是查詢傳回的全部結果.每條結果都是一個tuple類型的資料,這些tuple組成了一個tuple
cds=cursor.fetchall()

#因為是tuple,是以可以這樣使用結果集
print cds[0][3]

#或者直接顯示出來,看看結果集的真實樣子
print cds

#如果需要批量的插入資料,就這樣做
sql="insert into cdinfo values(0,%s,%s,%s,%s,%s)"

#每個值的集合為一個tuple,整個參數集組成一個tuple,或者list
param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2))

#使用executemany方法來批量的插入資料.這真是一個很酷的方法!
n=cursor.executemany(sql,param)
###
           

需要注意的是(或者說是我感到奇怪的是),在執行完插入或删除或修改操作後,需要調用一下conn.commit()方法進行送出.這樣,資料才會真正保 存在資料庫中.我不清楚是否是我的mysql設定問題,總之,今天我在一開始使用的時候,如果不用commit,那資料就不會保留在資料庫中,但是,資料 确實在資料庫呆過.因為自動編号進行了累積,而且傳回的受影響的行數并不為0.

3.關閉資料庫連接配接

需要分别的關閉指針對象和連接配接對象.他們有名字相同的方法

cursor.close()

conn.close()

參考: 1、http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html#d1

             2、http://www.cnblogs.com/kitty74jh/archive/2007/03/19/679823.html

             3、http://www.w3cschool.cc/python/python-mysql.html

             4、http://mysql-python.sourceforge.net/MySQLdb.html#using-and-extending