天天看點

python爬蟲子產品_python的爬蟲架構包括哪些子產品?

一個成功的東西,他隻涵蓋一個整體内容嗎?肯定不是的,像我們使用的任何物品,都是通過一塊一塊内容搭建起來的,除了實體物品,還包括我們的語言程式python,作為最經常使用的爬蟲功能,大家有沒有對架構裡包含的子產品進行了解呢?難道子產品隻存在一個嗎?肯定不是,那不是的話,存在哪裡子產品呢?一起來看下吧~

1、Python标準庫——urllib子產品

功能:打開URL和http協定之類

執行個體代碼:#coding:utf-8

import urllib.request

import time

import platform

#清屏函數(無關緊要 可以不寫)

def clear():

print(u"内容過多 3秒後清屏")

time.sleep(3)

OS = platform.system()

if (OS == u'Windows'):

os.system('cls')

else:

os.system('clear')

#通路函數

def linkbaidu():

url = ''

try:

response = urllib.request.urlopen(url,timeout=3)

except urllib.URLError:

print(u'網絡位址錯誤')

exit()

with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:

response = urllib.request.urlopen(url,timeout=3)

fp.write(response.read())

print(u'擷取url資訊,response.geturl()\n:%s'%response.getrul())

print(u'擷取傳回代碼,response.getcode()\n:%s' % response.getcode())

print(u'擷取傳回資訊,response.info()\n:%s' % response.info())

print(u"擷取的網頁資訊經存與baidu.txt")

if __name__ =='main':

linkbaidu()

2、Python标準庫–logging子產品

logging子產品能夠代替print函數的功能,将标準輸出到日志檔案儲存起來,利用loggin子產品可以部分替代debug

3、re子產品

正規表達式

4、sys子產品

系統相關子產品

實際應用:

sys.argv(傳回一個清單,包含所有的指令行)

sys.exit(退出程式)

5、Scrapy架構

上述給大家講述了python的主要子產品,還給大家順帶着說了大緻的使用情況,希望大家可以根據以上描述,對這些子產品進行合理的應用哦~