天天看點

爬蟲Larbin解析(一)——Larbin配置與使用

介紹

功能:網絡爬蟲

開發語言:c++

開發者:Sébastien Ailleret(法國)

特點:隻抓取網頁,高效(一個簡單的larbin的爬蟲可以每天擷取500萬的網頁)

安裝

安裝平台:Ubuntu 12.10

下載下傳:

安裝:

期間會出現錯誤,解決

1. adns檔案夾下internal.h檔案569-571行:

改為

2. 輸入sudo ./congure 出現錯誤

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/utils‘</code>

<code>makedepend -f- -I.. -Y *.cc 2&gt; /dev/null &gt; .depend</code>

<code>make[2]: *** [dep-in] 錯誤 127</code>

<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/utils‘</code>

<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/interf‘</code>

<code>&lt;span style=</code><code>"color: #ff0000;"</code><code>&gt;&lt;strong&gt;makedepend&lt;/strong&gt;&lt;/span&gt; -f- -I.. -Y *.cc 2&gt; /dev/null &gt; .depend</code>

<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/interf‘</code>

<code>make[2]: 正在進入目錄 `/home/byd/test/larbin-2.6.3/src/fetch‘</code>

<code>make[2]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src/fetch‘</code>

<code>make[1]: *** [dep] 錯誤 2</code>

<code>make[1]:正在離開目錄 `/home/byd/test/larbin-2.6.3/src‘</code>

<code>make: *** [dep] 錯誤 2</code>

上邊提示makedepend 有問題,于是輸入makedepend,提示

makedepend 沒安裝,但是可以通過

ok了。

3. 到/usr/include/c++/下CP一份iostream檔案到larbin的src目錄下。并将其名改為iostream.h,在檔案中添加一句

然後,繼續

運作

可以在浏覽器上輸入"localhost:8081"看目前爬蟲的運作狀況

爬蟲Larbin解析(一)——Larbin配置與使用

終止

 重新開機

 再次啟動larbin時出現錯誤(隻輸入指令

./larbin)

原因

當用戶端保持着與伺服器端的連接配接,這時伺服器端斷開,再開啟伺服器時會出現: Address

already in use

解決

可以看到(如下圖),殺死程序即可

其中

在Internet RFC标準中,Netstat的定義是:

Netstat是在核心中通路網絡及相關資訊的程式,它能提供TCP連接配接,TCP和UDP監聽,程序記憶體管理的相關報告

kill - 9 表示強制殺死該程序(最好少用,他是強制性的,即使是系統程序也會殺掉的)

配置

1、larbin.conf檔案

2、options.h

2.1

輸出模式

這些模式被定制在src/type.h中,可以在src/interf/useroutput.cc中定制自己的輸出模式。這個檔案中還有很多相關配置,更改後,需要重新編譯。

2.2 特定查詢

2.3

設定完要設定特定檔案的管理

可以通過"src/fetch/specbuf.cc" and "src/fetch/specbuf.h"

定義特定檔案的管理方式。

2.4 你要爬蟲做什麼

2.5 其他選項說明

2.6 效率和特征

2.7 Larbin怎麼工作

參考