2、分析&實作步驟
第一步:截獲
位址:
http://d.weibo.com/?topnav=1&mod=logo&wvr=6擷取關鍵名稱及連結(下面5行代碼非原創,效率非常高):
var selector='.WB_info';
var a=document.querySelectorAll(selector+' a');
for(var i =0; i < a.length; i++){
console.log(a[i].href+" "+a[i].innerText);
}
1
2
3
4
5
如下:
VM7557:5
http://weibo.com/rmwfjpd?refer_flag=1028035010_人民網福建頻道
http://company.verified.weibo.com/verify/orgapply http://sports.weibo.com/olympics2016 http://weibo.com/thepapernewsapp?refer_flag=1028035010_澎湃新聞
http://vip.weibo.com/personal?from=main http://weibo.com/globaltimes?refer_flag=1028035010_環球網
6
7
上述資訊存入:shehui.txt中。
第二步:取上述檔案第3列值,存入檔案shehui.info.
[root@laoyang process]# awk {'print $3'} shehui.txt | sort -n | uniq > shehui.info
第三步:逐行讀取,構造json檔案。
[root@laoyang process]# cat readProc.sh
#!/bin/sh
cat /dev/null > format.json
dos2unix shehui.info #格式化,去掉每行末尾的windows結束符"^M”
cat ./shehui.info | while read line
do
if [ -z "$line" ]; then
continue
fi
echo "{" >> format.json
echo "\"name\": \"$line\",">> format.json
echo "\"size\": 1455" >> format.json
echo "}," >> format.json
done
8
9
10
11
12
13
14
15
16
第四步:在
http://json.cn/驗證構造的json格式是否正确。
結語:
能用腳本實作的一定不要手寫,不要複制、粘貼。