PDFBoxHello.java
上传用户:cctqzzy
上传日期:2022-03-14
资源大小:12198k
文件大小:1k
源码类别:

搜索引擎

开发平台:

Java

  1. package chapter9;
  2. import java.io.*;
  3. import org.pdfbox.pdmodel.PDDocument;
  4. import org.pdfbox.pdfparser.PDFParser;
  5. import org.pdfbox.util.PDFTextStripper;
  6. public class PDFBoxHello {
  7. // 获取PDF内纯文本信息
  8. public String GetTextFromPdf(String filename) throws Exception
  9. {
  10. FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
  11. PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
  12. parser.parse();                                              // 执行PDF解析过程
  13. PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
  14. PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
  15. String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
  16. System.out.println("文件长度 : "+ contenttxt.length() +"n");
  17. return contenttxt;
  18. }
  19. public static void main(String args[])
  20. {
  21. PDFBoxHello pdfbox=new PDFBoxHello();                        // 生成PDFBoxHello对象
  22. try{
  23.                                                          // 获取文档纯文本内容
  24. String doctext = pdfbox.GetTextFromPdf("D:\workshop\docs\index.pdf");
  25. System.out.println("文件内容 : ");
  26. System.out.println(doctext);
  27. System.out.println("文件结束 . ");
  28. } catch(Exception e){
  29. e.printStackTrace();
  30. }
  31. }
  32. }