资源说明:推荐Replace Pioneer来做,能准确按需要提取,以提取(780)开头的号码为例,详细步骤:
1. 按ctrl-h打开Replace窗口
* 在Search for Pattern输入:
"\(780\)[\d\-]+"(不带双引号)
* 在Replace with Pattern输入:
"$match\n"(不带双引号)
* 去掉Print Unmatch Unit前面的勾
* 把屏幕下方,in page和out page中间的>号改选成>> Append,表示追加模式。
2. 点击Batch Replace按钮打开Batch Runner菜单。
3. 点击Pick Files选中需要处理的html文件,如果文件过多,可以用Search Files按钮搜索待处理文件。
4. 选中Set output filename,把右边的${FILENAME}删除(清空).
5. 点击Batch Replace即可把各文件里的(780)开头的号码全部提取到P1页,完成后选中P1页按ctrl-s存盘即可,后期还可以用Replace Pioneer进行删除重复行的工作。
注:
1. 如需提取其他号码,可自行修改(780)为其他值。
2. 第4步一定要清空${FILENAME},否则输出会直接写到原文件里。
3. 如果文件过多,可以考虑分次进行,或者把100个文件为一组合并为一个文件后再处理可能会提高速度。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。