HtmlParserGetLexerUrls.java
上传用户:cctqzzy
上传日期:2022-03-14
资源大小:12198k
文件大小:2k
源码类别:

搜索引擎

开发平台:

Java

  1. package chapter9;
  2. import org.htmlparser.util.*;
  3. import org.htmlparser.Parser;
  4. import org.htmlparser.filters.*;
  5. import org.htmlparser.tags.LinkTag;
  6. import org.htmlparser.NodeFilter;
  7. import org.htmlparser.nodes.TextNode;
  8. import org.htmlparser.lexer.*;
  9. import org.htmlparser.lexer.Stream;
  10. import org.htmlparser.Node;
  11. import java.io.*;
  12. import java.net.*;
  13. import org.htmlparser.http.ConnectionManager;
  14. import org.htmlparser.visitors.TextExtractingVisitor;
  15. import org.htmlparser.filters.TagNameFilter;
  16. import org.htmlparser.filters.HasSiblingFilter;
  17. import org.htmlparser.util.ParserException;
  18. public class HtmlParserGetLexerUrls {
  19.   public static void main (String[] args) throws ParserException
  20.   {
  21.   try {
  22.   getLexerUrls("http://www.bnu.edu.cn/","GB2312");
  23.   } catch(ParserException e)
  24.   {
  25.   e.printStackTrace();
  26.   }
  27.     }
  28.   
  29.   public static void getLexerUrls(String url , String pageEncoding) throws ParserException
  30.   { 
  31. Node node = null;
  32. Lexer lexer = null;
  33. try { 
  34. ConnectionManager connmgr;
  35. connmgr = Page.getConnectionManager();           // 生成链接管理器
  36.     lexer = new Lexer(connmgr.openConnection(url));  // 生成分析器
  37.     lexer.getPage().setEncoding(pageEncoding);       // 设置网页编码
  38. node = lexer.nextNode();
  39. while(node != null ) {                           // 循环遍历每个节点
  40.    System.out.println(node.toString());
  41.    node = lexer.nextNode();
  42.   }
  43. } catch (ParserException e) { 
  44.    e.printStackTrace();
  45.  }
  46.   }
  47.   
  48. }