b2c_crawler - 源码 - 源码 - 免费下载

b2c_crawler

文件大小： unknow

源码售价： 5 个金币积分规则积分充值

资源说明：fetch page and store in db

功能介绍
    1.th_crawl.pl       主程序。顺序读取列表页url，多线程抓取、解析、保存产品信息
    2.make_list_url.pl  制造列表页url。需根据不同网站编写专用函数
    3.data_picker.pm    解析网站html，获取所需数据。需根据不同网站编写对应代码（主要工作是替换正则，特殊情况具体分析：如图片验证码；ajax加载产品信息）
    4.data_saver.pm     保存数据到数据库。通用模块，无需改动
    5.utils.pm          简单工具包
    6.config.pm         主要是数据库配置

    *另有dump_process_list.pl，与主程序中的线程内代码保持一致，方便调试。


使用步骤
    1.perl make_list.url.pl
    插入网站所有列表页网址。
    2.perl th_crawl.pl 
    抓取、解析、保存产品信息

    推荐示例：
    保证守护进程，程序将轮询task_url表领取任务，插入或更新产品数据
    nohup perl th_crawl.pl &
    期望抓取或更新数据时，操作task_url表，新增或更新数据设置status=0
    perl make_list_url.pl 或 update task_url set status=0 where domain_id=6



注意事项
    1.若爬虫异常中断，需执行sql: update task_url set status=0 where status=1; 否则会有列表页不能被抓取和更新
    2.自行决定上一步操作的时机和方式
    

                                        author: dlad@wobu2.com
                                        2012年6月26日10:33:50

部分文件列表（点击文件名可查看文件内容）

					
									本源码包内暂不包含可直接显示的源代码文件，请下载源码包。