天天看点

Python爬虫抓取图片,网址从文件中读取

利用python抓取网络图片的步骤:

1.根据给定的网址获取网页源代码

2.利用正则表达式把源代码中的图片地址过滤出来

def getimg(html):                                #下载图片保存在同目录下的pictures文件夹下

reg=r'src="(.+?\.jpg)" pic_ext'

imgre=re.compile(reg)

imglist=imgre.findall(html)

if not imglist:

print "not found"

else:

filepath=os.getcwd() +'\pictures'

print filepath

if os.path.exists(filepath) is False:

os.mkdir(filepath)

global x

for imgurl in imglist:

temp = filepath + '\%s.jpg' % x

print imgurl

urllib.urlretrieve(imgurl,temp)

x=x+1

x = 0

fp =file("img_path.txt")                          #所有网址都放在这个文件里

while True:

outline = fp.readline().strip('\n')

if len(outline)==0:

break

print outline

html=gethtml(outline)

getimg(html)

fp.close()