jackrusher · July 26, 2012 14:49
diff --git a/gistfile1.clj b/gistfile1.clj
 (ns pdfbox.core
  (:import [org.apache.pdfbox.pdmodel PDDocument]
           [org.apache.pdfbox.util PDFMarkedContentExtractor TextPosition]
           [java.util ArrayList]))

 (defn parse-pdf [filename]
  (let [pages (.getAllPages (.getDocumentCatalog (PDDocument/load filename)))
        textpool (ArrayList.)
        extract-text (proxy [PDFMarkedContentExtractor] []
                       (processTextPosition [text]
                         (.add textpool text)))]
    (doseq [page pages]
      (when-let [contents (.getStream (.getContents page))]
        (.processStream extract-text page  (.findResources page) contents)))
    textpool))
	(ns pdfbox.core
	(:import [org.apache.pdfbox.pdmodel PDDocument]
	[org.apache.pdfbox.util PDFMarkedContentExtractor TextPosition]
	[java.util ArrayList]))

	(defn parse-pdf [filename]
	(let [pages (.getAllPages (.getDocumentCatalog (PDDocument/load filename)))
	textpool (ArrayList.)
	extract-text (proxy [PDFMarkedContentExtractor] []
	(processTextPosition [text]
	(.add textpool text)))]
	(doseq [page pages]
	(when-let [contents (.getStream (.getContents page))]
	(.processStream extract-text page (.findResources page) contents)))
	textpool))
No results found