天天看點

Python爬蟲抓取圖檔,網址從檔案中讀取

利用python抓取網絡圖檔的步驟:

1.根據給定的網址擷取網頁源代碼

2.利用正規表達式把源代碼中的圖檔位址過濾出來

def getimg(html):                                #下載下傳圖檔儲存在同目錄下的pictures檔案夾下

reg=r'src="(.+?\.jpg)" pic_ext'

imgre=re.compile(reg)

imglist=imgre.findall(html)

if not imglist:

print "not found"

else:

filepath=os.getcwd() +'\pictures'

print filepath

if os.path.exists(filepath) is False:

os.mkdir(filepath)

global x

for imgurl in imglist:

temp = filepath + '\%s.jpg' % x

print imgurl

urllib.urlretrieve(imgurl,temp)

x=x+1

x = 0

fp =file("img_path.txt")                          #所有網址都放在這個檔案裡

while True:

outline = fp.readline().strip('\n')

if len(outline)==0:

break

print outline

html=gethtml(outline)

getimg(html)

fp.close()