天天看點

《懶人Shell腳本》之三——微網誌分類資訊擷取與格式化2、分析&實作步驟結語:

《懶人Shell腳本》之三——微網誌分類資訊擷取與格式化2、分析&實作步驟結語:

2、分析&實作步驟

第一步:截獲

位址:

http://d.weibo.com/?topnav=1&mod=logo&wvr=6
《懶人Shell腳本》之三——微網誌分類資訊擷取與格式化2、分析&實作步驟結語:

擷取關鍵名稱及連結(下面5行代碼非原創,效率非常高):

var selector='.WB_info';

var a=document.querySelectorAll(selector+' a');

for(var i =0; i < a.length; i++){

console.log(a[i].href+" "+a[i].innerText);

}

1

2

3

4

5

如下:

VM7557:5

http://weibo.com/rmwfjpd?refer_flag=1028035010_

人民網福建頻道

http://company.verified.weibo.com/verify/orgapply http://sports.weibo.com/olympics2016 http://weibo.com/thepapernewsapp?refer_flag=1028035010_

澎湃新聞

http://vip.weibo.com/personal?from=main http://weibo.com/globaltimes?refer_flag=1028035010_

環球網

6

7

上述資訊存入:shehui.txt中。

第二步:取上述檔案第3列值,存入檔案shehui.info.

[root@laoyang process]# awk {'print $3'} shehui.txt | sort -n | uniq > shehui.info

第三步:逐行讀取,構造json檔案。

[root@laoyang process]# cat readProc.sh

#!/bin/sh

cat /dev/null > format.json

dos2unix shehui.info      #格式化,去掉每行末尾的windows結束符"^M”

cat ./shehui.info | while read line

do

if [ -z "$line" ]; then

 continue

fi

echo "{" >> format.json

echo "\"name\": \"$line\",">> format.json

echo "\"size\": 1455" >> format.json

echo "}," >> format.json

done

8

9

10

11

12

13

14

15

16

第四步:在

http://json.cn/

驗證構造的json格式是否正确。

《懶人Shell腳本》之三——微網誌分類資訊擷取與格式化2、分析&amp;實作步驟結語:

結語:

能用腳本實作的一定不要手寫,不要複制、粘貼。

繼續閱讀