资源说明:爬虫采集器
---------------------------------------
版本:1.0
说明:
虽然软件名称叫爬虫采集器,但是只是WPX.NEWS工具集中的一个功能点,该WPX.NEWS工具集中现在有两个功能点:
1、密码管理器
2、爬虫采集器
运行环境支撑:JDK1.8+
运行命令:java -jar monitor.jar
=============================================
爬虫采集器的代理服务器自动获取配置说明:
------------------------------------------
使用爬虫采集器建议使用代理爬取(虽然速度很慢,也会出现无法爬取数据,但是胜在安全^_^),代理服务器的爬取配置如下(配置>代理服务器配置):
1、点击代理服务器自动获取,进入配置界面
2、配置界面中:
(1)采集项目名称自已填
(2)代理服务器采集目标,可以填:https://ip.jiangxianli.com/?page=1 (填多个,记得换行,一行一个地址)
(3)代理服务类型,可以填:table.layui-table tbody tr td:eq(3)
(4)代理服务器IP地址,可以填:table.layui-table tbody tr td:eq(0)
(5)代理服务器端口,可以填:table.layui-table tbody tr td:eq(1)
(6)代理服务器用户名,没有可以不填
(7)代理服务器密码,没有可以不填
(8)代理服务器位置,可以填:table.layui-table tbody tr td:eq(4)
3、点击添加代理服务器采集配置项,选中配置项,点启动,等待采集代理服务器
4、采集完成后,可以选择一个代理服务器,进行代理测试,测试速度,还有能不能用
5、选好了可用速度也可以的代理服务器后,保存下来,记得:选中默认使用该代理。不打勾用不了代理服务器。
==============================================
爬虫采集器的信息采集配置(添加采集项目)说明:
-----------------------------------------
1、采集项目称自已填
2、URL,可以填:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 (填多个,记得换行,一行一个地址)
3、采集范围,默认即可
4、采集链接规则,可以填:div.d_list_txt ul li span.c_tit a
5、分页链接规则,只有URL配置填写一个地址的时候起作用,目的是寻找多个采集链接地址。
6、子页面标题规则,可以填:h1.main-title
7、子页面内容规则,可以填:div.article
8、子页面分页链接规则,这是为了处理子页面内容存在多个分页才能显示完整内容,提供的配置项
点击保存,启动采集,可以看到数据了 ~~~~~~~~~~~~
---------------------------------------------------
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。