emlyn · December 18, 2015 12:28
diff --git a/extract-text.clj b/extract-text.clj
 #_(defdeps [[net.htmlparser.jericho/jericho-html "3.1"]])
 
 (ns foo.preprocess
  (:import [java.io File BufferedInputStream FileInputStream]
           [net.htmlparser.jericho Source TextExtractor HTMLElementName]))

 (defn my-text-extractor [source]
  (proxy [TextExtractor] [source]
    (excludeElement [tag]
      (= (.getName tag) HTMLElementName/PRE))))

 (defn -main [fname]
  (let [file (java.io.File. fname)
        source (Source. (BufferedInputStream. (FileInputStream. file)))
        tex (my-text-extractor source)]
    (println (str tex))))

 (apply -main *command-line-args*)
	#_(defdeps [[net.htmlparser.jericho/jericho-html "3.1"]])

	(ns foo.preprocess
	(:import [java.io File BufferedInputStream FileInputStream]
	[net.htmlparser.jericho Source TextExtractor HTMLElementName]))

	(defn my-text-extractor [source]
	(proxy [TextExtractor] [source]
	(excludeElement [tag]
	(= (.getName tag) HTMLElementName/PRE))))

	(defn -main [fname]
	(let [file (java.io.File. fname)
	source (Source. (BufferedInputStream. (FileInputStream. file)))
	tex (my-text-extractor source)]
	(println (str tex))))

	(apply -main command-line-args)
No results found