天天看点

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

url采集工具_这款渗透工具堪比“蜜蜂采蜜”
倾注一生,只为世间的点滴,这就是蜜蜂,用它渺小的身躯,采取世间芬芳。
superl-url

,是以作者名(superl)命名,目前为 4.0 版本,是一款开源的 URL 采集工具。因其功能齐全而广知。

项目地址:https://github.com/super-l/superl-url

功能&简介

  • 根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序。
  • 程序主要运用于安全渗透测试项目,以及批量评估各类 CMS 系统 0DAY 的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序。
  • 可自动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。
  • 可以自定义忽略多条域名。

特色✨

  • 支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,方便进行扩展,可以无限添加。
  • 获取到的是搜索引擎的搜索结果的真实 URL 地址。
  • 跨平台,采用 Python 开发,代码完整开源。无捆绑后门风险,更新方便。网上大部分 URL 采集软件为 WINDOWS 下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。
  • 强大的过滤功能,可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL,比如搜索结果中过滤属于 http://youku.com 的子域名 URL,支持 TXT 配置过滤。
  • 可自动去除重复的 URL。
  • 可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实 URL,或者只输出域名、同时输出标题、搜索引擎名称等。
  • 可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度,就把其他搜索引擎参数设置为 False 即可。
  • 同时兼容 python3 和 python2 运行。
  • 可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)。
  • 支持多进程同时采集,每个搜索引擎一个进程。
  • 可自定义每页采集时间间隔,防止被检测屏蔽。
  • 实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页搜索引擎结果的第 X 条数据。
  • 保存类型可自定义,目前支持保存为本地txt,以及写入远程 MYSQL 数据库!

使用 (Windows环境)

下载

拉取项目源码到本地:https://github.com/super-l/superl-url

如果是 python3,则:

pip install ConfigParser
pip install tldextract
           
url采集工具_这款渗透工具堪比“蜜蜂采蜜”

如果是 Python2,则:

pip install tldextract
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
           
如果提示模块不存在,则根据提示进行安装!

运行提示安装第三方库 pymysql

pip install pymysql
           
url采集工具_这款渗透工具堪比“蜜蜂采蜜”
start & test

成功运行的界面。

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

提示输入【关键字】,然后是【搜索页数】,开始扫描,如下:

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

扫描结果保存于根目录下的 result 文件夹里。

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

自定义配置

根据需求自定义文件 config.cfg:

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

自定义过滤域名 filter_domain.txt

自定义过滤的关键字 filter_title.txt

过滤规则如下:

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

如需保存在 mysql 数据库中,执行以下 sql 语句创建数据库。

CREATE TABLE `search_data` (
    `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
    `engine` varchar(20) NOT NULL DEFAULT '',
    `keyword` varchar(100) NOT NULL DEFAULT '',
    `baseurl` varchar(255) NOT NULL DEFAULT '',
    `realurl` varchar(255) NOT NULL DEFAULT '',
    `urlparam` varchar(255) NOT NULL DEFAULT '',
    `webtitle` varchar(255) NOT NULL DEFAULT '',
    `create_time` int(10) NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
           

将查询到的 URL 存入数据库。

url采集工具_这款渗透工具堪比“蜜蜂采蜜”

注意事项⌛

Windows 下会出现兼容错误问题,最优环境为 MAC

有关 superl-url 的内容就简单介绍到这里,向作者致敬(

respect~

)。更多资讯请关注二向箔安全进行了解,最近推出了一系列免费的网络安全技能包,学它涨姿势。

url采集工具_这款渗透工具堪比“蜜蜂采蜜”