这是爬虫系列的36篇,爬虫之路永无止境。
网站:阿里巴巴1688.com - 全球领先的采购批发平台,批发网
工具使用
开发工具:pycharm
开发环境:python3.7, windows10
使用工具包:requests,urllib, time, re, execjs
js混淆
正则表达式的使用
py执行js文件的应用
网页参数编码
爬取:海量产地工厂,就上1688找工厂
h(d.token + "&" + i + "&" + g + "&" + c.data)
在这个js代码前面打上断点,然后刷新页面,进行js调试。
d.token的生成 -> h5request -> 在接口的请求头里面 的cookie 包含 改参数
i = 时间戳
g = 固定参数
c.data =请求参数
h 为 js加密方法 把 hjs代码都扣下来 做一个单独的js文件。