amferraz · May 8, 2014 12:09 · abhishekchaudhary996 · Nov 29, 2016 · vjvipulvj · Jan 17, 2017
diff --git a/Main.java b/Main.java
 package jusbrasil.test_tika;

 import java.io.ByteArrayInputStream;
 import java.io.ByteArrayOutputStream;
 import java.io.File;
 import java.io.IOException;

 import javax.xml.transform.OutputKeys;
 import javax.xml.transform.TransformerConfigurationException;
 import javax.xml.transform.sax.SAXTransformerFactory;
 import javax.xml.transform.sax.TransformerHandler;
 import javax.xml.transform.stream.StreamResult;

 import org.apache.tika.exception.TikaException;
 import org.apache.tika.metadata.Metadata;
 import org.apache.tika.parser.AutoDetectParser;
 import org.apache.tika.sax.ExpandedTitleContentHandler;
 import org.xml.sax.SAXException;

 import com.google.common.io.Files;

 public class Main {

  public static void main(String[] args) throws IOException, TransformerConfigurationException, SAXException,
      TikaException {

    byte[] file = Files.toByteArray(new File("/path/to/my/file.doc"));
    AutoDetectParser tikaParser = new AutoDetectParser();

    ByteArrayOutputStream out = new ByteArrayOutputStream();
    SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
    TransformerHandler handler = factory.newTransformerHandler();
    handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
    handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
    handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    handler.setResult(new StreamResult(out));
    ExpandedTitleContentHandler handler1 = new ExpandedTitleContentHandler(handler);

    tikaParser.parse(new ByteArrayInputStream(file), handler1, new Metadata());
    System.out.println(new String(out.toByteArray(), "UTF-8"));
  }
 }
	package jusbrasil.test_tika;

	import java.io.ByteArrayInputStream;
	import java.io.ByteArrayOutputStream;
	import java.io.File;
	import java.io.IOException;

	import javax.xml.transform.OutputKeys;
	import javax.xml.transform.TransformerConfigurationException;
	import javax.xml.transform.sax.SAXTransformerFactory;
	import javax.xml.transform.sax.TransformerHandler;
	import javax.xml.transform.stream.StreamResult;

	import org.apache.tika.exception.TikaException;
	import org.apache.tika.metadata.Metadata;
	import org.apache.tika.parser.AutoDetectParser;
	import org.apache.tika.sax.ExpandedTitleContentHandler;
	import org.xml.sax.SAXException;

	import com.google.common.io.Files;

	public class Main {

	public static void main(String[] args) throws IOException, TransformerConfigurationException, SAXException,
	TikaException {

	byte[] file = Files.toByteArray(new File("/path/to/my/file.doc"));
	AutoDetectParser tikaParser = new AutoDetectParser();

	ByteArrayOutputStream out = new ByteArrayOutputStream();
	SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
	TransformerHandler handler = factory.newTransformerHandler();
	handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
	handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
	handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
	handler.setResult(new StreamResult(out));
	ExpandedTitleContentHandler handler1 = new ExpandedTitleContentHandler(handler);

	tikaParser.parse(new ByteArrayInputStream(file), handler1, new Metadata());
	System.out.println(new String(out.toByteArray(), "UTF-8"));
	}
	}