最近开始要做毕设了,题目是论文检索收集系统,需要提取论文doc文件中的信息,不能按照以往读txt文件的方式读取了,否则全是乱码,网上查找信息得知,需使用Apache的POI工具,在Apache官网下载到jar包,导入poi-scratchpad-3.7-20101029.jar和poi-3.7-20101029.jar文件。例子程序如下:
package iotest;
import java.io.FileInputStream;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class TestPoi {
public static void main(String args[]) throws Exception{
FileInputStream in = new FileInputStream ("D:/test/test2.doc");
WordExtractor extractor = new WordExtractor(in);
String str = extractor.getText();
System.out.println(str);
}
}