傾注一生,隻為世間的點滴,這就是蜜蜂,用它渺小的身軀,采取世間芬芳。superl-url
,是以作者名(superl)命名,目前為 4.0 版本,是一款開源的 URL 采集工具。因其功能齊全而廣知。
項目位址:https://github.com/super-l/superl-url功能&簡介
- 根據關鍵詞,對搜尋引擎内容檢索結果的網址内容進行采集的一款輕量級軟程式。
- 程式主要運用于安全滲透測試項目,以及批量評估各類 CMS 系統 0DAY 的影響程度,同時也是批量采集自己擷取感興趣的網站的一個小程式。
- 可自動從搜尋引擎采集相關網站的真實位址與标題等資訊,可儲存為檔案,自動去除重複URL。
- 可以自定義忽略多條域名。
特色✨
- 支援同時采集多個搜尋引擎(已内置了百度,搜狗,360),結構子產品化,友善進行擴充,可以無限添加。
- 擷取到的是搜尋引擎的搜尋結果的真實 URL 位址。
- 跨平台,采用 Python 開發,代碼完整開源。無捆綁後門風險,更新友善。網上大部分 URL 采集軟體為 WINDOWS 下的可執行檔案,并且很多都在搜尋引擎更新後無法正常使用。
- 強大的過濾功能,可過濾多種頂級域名,可過濾指定标題中包含某關鍵子的URL,比如搜尋結果中過濾屬于 http://youku.com 的子域名 URL,支援 TXT 配置過濾。
- 可自動去除重複的 URL。
- 可靈活的通過配置檔案自定義要儲存的結果格式。比如隻輸出帶參數的原始真實 URL,或者隻輸出域名、同時輸出标題、搜尋引擎名稱等。
- 可靈活的開啟與關閉參與采集的搜尋引擎,比如隻想使用百度,就把其他搜尋引擎參數設定為 False 即可。
- 同時相容 python3 和 python2 運作。
- 可分别自定義不同搜尋引擎每頁顯示數量(如果搜尋引擎自身支援的話)。
- 支援多程序同時采集,每個搜尋引擎一個程序。
- 可自定義每頁采集時間間隔,防止被檢測屏蔽。
- 實時顯示采集到的網頁的【真實URL】以及【标題】。前面的【ID】對應的是目前頁搜尋引擎結果的第 X 條資料。
- 儲存類型可自定義,目前支援儲存為本地txt,以及寫入遠端 MYSQL 資料庫!
使用 (Windows環境)
下載下傳拉取項目源碼到本地:https://github.com/super-l/superl-url
如果是 python3,則:
pip install ConfigParser
pip install tldextract
如果是 Python2,則:
pip install tldextract
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
如果提示子產品不存在,則根據提示進行安裝!
運作提示安裝第三方庫 pymysql
pip install pymysql
start & test 成功運作的界面。
提示輸入【關鍵字】,然後是【搜尋頁數】,開始掃描,如下:
掃描結果儲存于根目錄下的 result 檔案夾裡。
自定義配置
根據需求自定義檔案 config.cfg:
自定義過濾域名 filter_domain.txt
自定義過濾的關鍵字 filter_title.txt
過濾規則如下:
如需儲存在 mysql 資料庫中,執行以下 sql 語句建立資料庫。
CREATE TABLE `search_data` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`engine` varchar(20) NOT NULL DEFAULT '',
`keyword` varchar(100) NOT NULL DEFAULT '',
`baseurl` varchar(255) NOT NULL DEFAULT '',
`realurl` varchar(255) NOT NULL DEFAULT '',
`urlparam` varchar(255) NOT NULL DEFAULT '',
`webtitle` varchar(255) NOT NULL DEFAULT '',
`create_time` int(10) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
将查詢到的 URL 存入資料庫。
注意事項⌛
Windows 下會出現相容錯誤問題,最優環境為 MAC
有關 superl-url 的内容就簡單介紹到這裡,向作者緻敬(
respect~)。更多資訊請關注二向箔安全進行了解,最近推出了一系列免費的網絡安全技能包,學它漲姿勢。