WPX.NEWS工具集:爬虫采集器和密码管理器
文件大小: 19881k
源码售价: 10 个金币 积分规则     积分充值
资源说明:爬虫采集器 --------------------------------------- 版本:1.0 说明: 虽然软件名称叫爬虫采集器,但是只是WPX.NEWS工具集中的一个功能点,该WPX.NEWS工具集中现在有两个功能点: 1、密码管理器 2、爬虫采集器 运行环境支撑:JDK1.8+ 运行命令:java -jar monitor.jar ============================================= 爬虫采集器的代理服务器自动获取配置说明: ------------------------------------------ 使用爬虫采集器建议使用代理爬取(虽然速度很慢,也会出现无法爬取数据,但是胜在安全^_^),代理服务器的爬取配置如下(配置>代理服务器配置): 1、点击代理服务器自动获取,进入配置界面 2、配置界面中: (1)采集项目名称自已填 (2)代理服务器采集目标,可以填:https://ip.jiangxianli.com/?page=1 (填多个,记得换行,一行一个地址) (3)代理服务类型,可以填:table.layui-table tbody tr td:eq(3) (4)代理服务器IP地址,可以填:table.layui-table tbody tr td:eq(0) (5)代理服务器端口,可以填:table.layui-table tbody tr td:eq(1) (6)代理服务器用户名,没有可以不填 (7)代理服务器密码,没有可以不填 (8)代理服务器位置,可以填:table.layui-table tbody tr td:eq(4) 3、点击添加代理服务器采集配置项,选中配置项,点启动,等待采集代理服务器 4、采集完成后,可以选择一个代理服务器,进行代理测试,测试速度,还有能不能用 5、选好了可用速度也可以的代理服务器后,保存下来,记得:选中默认使用该代理。不打勾用不了代理服务器。 ============================================== 爬虫采集器的信息采集配置(添加采集项目)说明: ----------------------------------------- 1、采集项目称自已填 2、URL,可以填:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 (填多个,记得换行,一行一个地址) 3、采集范围,默认即可 4、采集链接规则,可以填:div.d_list_txt ul li span.c_tit a 5、分页链接规则,只有URL配置填写一个地址的时候起作用,目的是寻找多个采集链接地址。 6、子页面标题规则,可以填:h1.main-title 7、子页面内容规则,可以填:div.article 8、子页面分页链接规则,这是为了处理子页面内容存在多个分页才能显示完整内容,提供的配置项 点击保存,启动采集,可以看到数据了 ~~~~~~~~~~~~ ---------------------------------------------------
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。