7款开源爬虫软件工具,助力数据抓取

一、爬虫是什么?

爬虫:是一种按照一定的规则,自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

1.QuickRecon

QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统

授权协议: GPLv3

开发语言: Python

操作系统: Windows Linux

擅长:查找子域名名称、收集电子邮件地址并寻找人际关系等功能

2.Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

授权协议: BSD

开发语言: Python

操作系统: 跨平台

github源代码

擅长:Twisted的异步处理框架,文档齐全

3.Methabot

Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。

授权协议: 未知

开发语言: C/C++

操作系统: Windows Linux

擅长:过速度优化、可抓取WEB、FTP及本地文件系统

源代码链接

4.Sinawler

国内第一个针对微博数据的爬虫程序!原名“微博爬虫”。

登录后,可以用户为起点,以该用户的关注人、粉丝为线索,关系搜集用户基本信息、微博数据、评论数据。

擅长:界面上提供参数设置,灵活方便

对爬虫控制,可随时暂停、继续、停止爬虫

授权协议: GPLv3

开发语言: C# .NET

操作系统: Windows

5.网络矿工

网站数据采集软件 网络矿工采集器(原soukey采摘)

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供

擅长:功能丰富

授权协议: BSD

开发语言: C# .NET

操作系统: Windows

6.ThinkUp

ThinkUp 是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。

授权协议: GPL

开发语言: PHP

操作系统: 跨平台

github源码

擅长:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现

7.微购

微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。

演示网址

授权协议: GPL

开发语言: PHP

操作系统: 跨平台

物联沃分享整理
物联沃-IOTWORD物联网 » 7款开源爬虫软件工具,助力数据抓取

发表评论