java：解析word文档（前程无忧简历），最好有代码案例？poi或者jacob解析都可以，有jar资源，求急。感谢

如题所述

举报该问题

推荐答案 2016-08-12

poi读取前程无忧的简历会打不开的，至少我以前读是这样的，因为他有时候是mht文件直接另存为word文档的，所以保险起见建议用jacob来读，如果他是doc或者是docx文档可以转化为html然后用jsoup来读取，效果挺好的

下面是转化的代码：

package com.java.doc;
import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
public class JacobRead {
   public static void extractDoc(String inputFIle, String outputFile) {
          boolean flag = false;

          // 打开Word应用程序
          ActiveXComponent app = new ActiveXComponent("Word.Application");
          try {
             // 设置word不可见
             app.setProperty("Visible", new Variant(false));
             // 打开word文件
             Dispatch doc1 = app.getProperty("Documents").toDispatch();
             Dispatch doc2 = Dispatch.invoke(
                   doc1,
                   "Open",
                   Dispatch.Method,
                   new Object[] { inputFIle, new Variant(false),
                         new Variant(true) }, new int[1]).toDispatch();
             // 作为txt格式保存到临时文件
             Dispatch.invoke(doc2, "SaveAs", Dispatch.Method, new Object[] {
                   outputFile, new Variant(7) }, new int[1]);
             // 关闭word
             Variant f = new Variant(false);
             Dispatch.call(doc2, "Close", f);
             flag = true;
          } catch (Exception e) {
             e.printStackTrace();
          } finally {
             app.invoke("Quit", new Variant[] {});
          }
          if (flag == true) {
             System.out.println("Transformed Successfully");
          } else {
             System.out.println("Transform Failed");
          }
       }

       public static void main(String[] args) {


           JacobRead.extractDoc("D:/xxxx简历.doc","D:/e.txt");
       }
}

当然，也可以转化为txt读取，这部分代码没保存，你可以到网上找找，和转化成html的方法大差不差。

然后下面是我以前写的poi读取的方式：

package TestHanLp;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;

public class Test {

private static String text = "";
public static String  Read(String path) throws Exception{
//解析docx格式的简历
if(path.toLowerCase().endsWith("docx")){

try {
OPCPackage oPCPackage = POIXMLDocument.openPackage(path);
        XWPFDocument xwpf = new XWPFDocument(oPCPackage);
        POIXMLTextExtractor ex = new XWPFWordExtractor(xwpf);
            text=ex.getText();
        oPCPackage.close();
        }
   catch (FileNotFoundException e)
       {
        e.printStackTrace();
       }
   catch (IOException e)
       {
        e.printStackTrace();
       }

}else {

//解析doc格式的简历
if(path.toLowerCase().endsWith("doc")){
FileInputStream fis = new FileInputStream(path);// 载入文档
WordExtractor wordExtractor = new WordExtractor(fis);
    String[] paragraph = wordExtractor.getParagraphText();
    StringBuffer stringBuffer = new StringBuffer();
    for (int i = 0; i < paragraph.length; i++) {
if (null != paragraph[i] && !"".equals(paragraph[i])) {
paragraph[i] = paragraph[i].substring(0, paragraph[i].length() - 1);// 去掉末尾符号
}
stringBuffer.append(paragraph[i]).append("\n");//将每一小段隔开
}
text = stringBuffer.toString();
}
}
return text ;
}
}

望题主采纳

对了，jacob读取word文档的效果比poi号，但运行速度不够，用的时候自己考虑考虑吧

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/jvvztXjeeXXvje7vWj.html

相似回答

java生成word文档的问题答：(1)将解压包中的jacob.dll(x86常用,x64)拷到jdk安装目录下的jre\bin文件夹或windows安装路径下的WINDOWS\system32文件夹下(2)将jacob.jar文件拷到classpath下即可常见问题解决:对于”java.lang.UnsatisfiedLinkError: C:\WINDOWS\system32\jacob-1.14.3-x86.dll: 由于应用程序配置不正确,应用程序未能启动。重新安装...

java 读取word 文件 并且在网页上显示急求答：使用这个库，只需简单几步即可完成转换。首先，你需要将Word文档加载到Java程序中，然后利用jacob-1.15-M4的API进行转换，最后生成的HTML文件可以直接在网页上展示。这种方式不仅省时省力，而且转换后的文件格式也相当不错。为了让大家更好地了解具体操作步骤，下面简单介绍一下整个流程。首先，确保你的项目...

Java调用com组件操作word使用总结答：( )web开发语言操作word的功能最好还是用第三方的控件看看这个SOAOFFICE 还可以使用js 写VBA呢二安装Jacob Jacob的安装非常的简单我们解开下载的jacob_ zip 在文件夹中找到jacob dll和jacob jar两个文件如果是 Jacob 则是jacob x dll( 位机和jacob x dll( 位)和 jacob jar两个文件 Jacob dll直接放到...

java 操作word 几种方式答：jacob包我觉得是最强大的，可以操作word，excel。因为调用的是微软底层的dll文件，需要在system32目录下放置 jacob.dll，然后在classpath里面添加jacob.jar文件。推荐使用1.9版本，之前1.8版本调用起来就算你的代码没有写错也会出现一些莫名其妙的异常。java2word也是调用微软的底层dll文件，有安装包，...

怎么用java导出word文档答：Word就开始支持XML格式。具体做法是先用Office 2003或2007编辑好Word文档的样式，然后另存为XML格式。接下来，将XML翻译为FreeMarker模板，最后用Java解析该模板并输出Doc格式。这种方法生成的Word文档完全符合Office标准，样式和内容控制非常便利，打印时也不会变形，生成的文档与Office中编辑的文档完全一致。

Java导出Word的5种方式答：1：Jacob Jacob是Java-COM Bridge的简称，它为Java与微软的COM组件之间建立桥梁，允许Java调用Office的COM接口，生成格式规范的Word文件。优点在于生成的文件格式规范，但只能在Windows服务器上运行，且需要预先安装Office软件。2：Apache POI Apache POI提供了一系列API，用于操作基于OLE 2 Compound Document ...

java操作word 的有哪几种方式答：在Java中读取Word文档时，有许多插件可供选择，如POI、java2Word、jacob和itext等。POI虽然功能强大，但无法直接读取格式，新的API还在研发阶段，稳定性不足，项目中不敢轻易尝试。java2Word和jacob则容易出现找不到注册的问题，我在不同机器上测试时，同样的操作有时会报错，有时又会顺利通过，即使寻求...

通过JSP如何把word文档中的内容按一定的格式录入到Oracle数据库中...答：JAVA读取word文件 1。读取word文件有两种方法，用jacob包，可以修改生成word文件内容。如果只读取word里的文本内容的话，可以用poi读取word文件，先到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/下载tm-extractors-0.4.jar包 2。读取word里的文本内容的示列代码 import java.io.*;im...

java读取word 转换html然后在转换txt怎么实现答：实现从Java读取Word文件转换为HTML并进一步转换为纯文本文件的过程，可以通过以下步骤进行。首先，选择合适的Java库来操作Word文件，比如Apache的POI库或jacob库。这些库可以帮助我们读取Word文件的内容及其格式。使用Apache POI库读取Word文件时，可以利用其提供的文档对象模型（DOM）来解析Word文档。具体来说，...