天天看點

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

url采集工具_這款滲透工具堪比“蜜蜂采蜜”
傾注一生,隻為世間的點滴,這就是蜜蜂,用它渺小的身軀,采取世間芬芳。
superl-url

,是以作者名(superl)命名,目前為 4.0 版本,是一款開源的 URL 采集工具。因其功能齊全而廣知。

項目位址:https://github.com/super-l/superl-url

功能&簡介

  • 根據關鍵詞,對搜尋引擎内容檢索結果的網址内容進行采集的一款輕量級軟程式。
  • 程式主要運用于安全滲透測試項目,以及批量評估各類 CMS 系統 0DAY 的影響程度,同時也是批量采集自己擷取感興趣的網站的一個小程式。
  • 可自動從搜尋引擎采集相關網站的真實位址與标題等資訊,可儲存為檔案,自動去除重複URL。
  • 可以自定義忽略多條域名。

特色✨

  • 支援同時采集多個搜尋引擎(已内置了百度,搜狗,360),結構子產品化,友善進行擴充,可以無限添加。
  • 擷取到的是搜尋引擎的搜尋結果的真實 URL 位址。
  • 跨平台,采用 Python 開發,代碼完整開源。無捆綁後門風險,更新友善。網上大部分 URL 采集軟體為 WINDOWS 下的可執行檔案,并且很多都在搜尋引擎更新後無法正常使用。
  • 強大的過濾功能,可過濾多種頂級域名,可過濾指定标題中包含某關鍵子的URL,比如搜尋結果中過濾屬于 http://youku.com 的子域名 URL,支援 TXT 配置過濾。
  • 可自動去除重複的 URL。
  • 可靈活的通過配置檔案自定義要儲存的結果格式。比如隻輸出帶參數的原始真實 URL,或者隻輸出域名、同時輸出标題、搜尋引擎名稱等。
  • 可靈活的開啟與關閉參與采集的搜尋引擎,比如隻想使用百度,就把其他搜尋引擎參數設定為 False 即可。
  • 同時相容 python3 和 python2 運作。
  • 可分别自定義不同搜尋引擎每頁顯示數量(如果搜尋引擎自身支援的話)。
  • 支援多程序同時采集,每個搜尋引擎一個程序。
  • 可自定義每頁采集時間間隔,防止被檢測屏蔽。
  • 實時顯示采集到的網頁的【真實URL】以及【标題】。前面的【ID】對應的是目前頁搜尋引擎結果的第 X 條資料。
  • 儲存類型可自定義,目前支援儲存為本地txt,以及寫入遠端 MYSQL 資料庫!

使用 (Windows環境)

下載下傳

拉取項目源碼到本地:https://github.com/super-l/superl-url

如果是 python3,則:

pip install ConfigParser
pip install tldextract
           
url采集工具_這款滲透工具堪比“蜜蜂采蜜”

如果是 Python2,則:

pip install tldextract
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
           
如果提示子產品不存在,則根據提示進行安裝!

運作提示安裝第三方庫 pymysql

pip install pymysql
           
url采集工具_這款滲透工具堪比“蜜蜂采蜜”
start & test

成功運作的界面。

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

提示輸入【關鍵字】,然後是【搜尋頁數】,開始掃描,如下:

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

掃描結果儲存于根目錄下的 result 檔案夾裡。

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

自定義配置

根據需求自定義檔案 config.cfg:

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

自定義過濾域名 filter_domain.txt

自定義過濾的關鍵字 filter_title.txt

過濾規則如下:

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

如需儲存在 mysql 資料庫中,執行以下 sql 語句建立資料庫。

CREATE TABLE `search_data` (
    `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
    `engine` varchar(20) NOT NULL DEFAULT '',
    `keyword` varchar(100) NOT NULL DEFAULT '',
    `baseurl` varchar(255) NOT NULL DEFAULT '',
    `realurl` varchar(255) NOT NULL DEFAULT '',
    `urlparam` varchar(255) NOT NULL DEFAULT '',
    `webtitle` varchar(255) NOT NULL DEFAULT '',
    `create_time` int(10) NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
           

将查詢到的 URL 存入資料庫。

url采集工具_這款滲透工具堪比“蜜蜂采蜜”

注意事項⌛

Windows 下會出現相容錯誤問題,最優環境為 MAC

有關 superl-url 的内容就簡單介紹到這裡,向作者緻敬(

respect~

)。更多資訊請關注二向箔安全進行了解,最近推出了一系列免費的網絡安全技能包,學它漲姿勢。

url采集工具_這款滲透工具堪比“蜜蜂采蜜”