allixender · August 29, 2015 10:32 · allixender · Aug 29, 2015
diff --git a/parallel-transcode.sh b/parallel-transcode.sh
 #!/bin/bash
 #ocrpdftotext
 # adjusted implementation of http://ubuntuforums.org/showthread.php?t=880471

 DPI=300
 TESS_LANG=eng

 FILENAME=${@}
 TMP_NAME=`basename "$FILENAME" .pdf`
 OUTPUT_FILENAME=${TMP_NAME}-out-${DPI}.txt

 PAGES=`pdfinfo "$FILENAME" | grep Pages | sed -r  "s/^[^0-9]*([0-9]+)$/\1/"`

 for i in `seq 1 $PAGES`; do
  convert -density ${DPI} -depth 8 -background white -flatten +matte ${FILENAME}\[$(($i - 1 ))\] "${TMP_NAME}-${i}.tif"
 done

 parallel "tesseract {} {.} " ::: ${TMP_NAME}-*.tif

 for i in `seq 1 $PAGES`; do cat ${TMP_NAME}-${i}.txt; done >> "${OUTPUT_FILENAME}"
	#!/bin/bash
	#ocrpdftotext
	# adjusted implementation of http://ubuntuforums.org/showthread.php?t=880471

	DPI=300
	TESS_LANG=eng

	FILENAME=${@}
	TMP_NAME=`basename "$FILENAME" .pdf`
	OUTPUT_FILENAME=${TMP_NAME}-out-${DPI}.txt

	PAGES=`pdfinfo "$FILENAME" \| grep Pages \| sed -r "s/^[^0-9]*([0-9]+)$/\1/"`

	for i in `seq 1 $PAGES`; do
	convert -density ${DPI} -depth 8 -background white -flatten +matte ${FILENAME}\[$(($i - 1 ))\] "${TMP_NAME}-${i}.tif"
	done

	parallel "tesseract {} {.} " ::: ${TMP_NAME}-*.tif

	for i in `seq 1 $PAGES`; do cat ${TMP_NAME}-${i}.txt; done >> "${OUTPUT_FILENAME}"
No results found