WPX.NEWS工具集：爬虫采集器和密码管理器 - 源码 - 源码 - 免费下载

WPX.NEWS工具集：爬虫采集器和密码管理器

文件大小： 19881k

源码售价： 10 个金币积分规则积分充值

资源说明：爬虫采集器 --------------------------------------- 版本：1.0 说明：虽然软件名称叫爬虫采集器，但是只是WPX.NEWS工具集中的一个功能点，该WPX.NEWS工具集中现在有两个功能点： 1、密码管理器 2、爬虫采集器运行环境支撑：JDK1.8+ 运行命令：java -jar monitor.jar ============================================= 爬虫采集器的代理服务器自动获取配置说明： ------------------------------------------ 使用爬虫采集器建议使用代理爬取（虽然速度很慢，也会出现无法爬取数据，但是胜在安全^_^），代理服务器的爬取配置如下（配置>代理服务器配置）： 1、点击代理服务器自动获取，进入配置界面 2、配置界面中：（1）采集项目名称自已填（2）代理服务器采集目标，可以填：https://ip.jiangxianli.com/?page=1 (填多个，记得换行，一行一个地址) （3）代理服务类型，可以填：table.layui-table tbody tr td:eq(3) （4）代理服务器IP地址，可以填：table.layui-table tbody tr td:eq(0) （5）代理服务器端口，可以填：table.layui-table tbody tr td:eq(1) （6）代理服务器用户名，没有可以不填（7）代理服务器密码，没有可以不填（8）代理服务器位置，可以填：table.layui-table tbody tr td:eq(4) 3、点击添加代理服务器采集配置项，选中配置项，点启动，等待采集代理服务器 4、采集完成后，可以选择一个代理服务器，进行代理测试，测试速度，还有能不能用 5、选好了可用速度也可以的代理服务器后，保存下来，记得：选中默认使用该代理。不打勾用不了代理服务器。 ============================================== 爬虫采集器的信息采集配置（添加采集项目）说明： ----------------------------------------- 1、采集项目称自已填 2、URL，可以填：https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1 (填多个，记得换行，一行一个地址) 3、采集范围，默认即可 4、采集链接规则，可以填：div.d_list_txt ul li span.c_tit a 5、分页链接规则，只有URL配置填写一个地址的时候起作用，目的是寻找多个采集链接地址。 6、子页面标题规则，可以填：h1.main-title 7、子页面内容规则，可以填：div.article 8、子页面分页链接规则，这是为了处理子页面内容存在多个分页才能显示完整内容，提供的配置项点击保存，启动采集，可以看到数据了 ~~~~~~~~~~~~ ---------------------------------------------------

部分文件列表（点击文件名可查看文件内容）

					
									本源码包内暂不包含可直接显示的源代码文件，请下载源码包。