bartoszek · December 28, 2020 16:53 · bartoszek · Dec 28, 2020
diff --git a/pdf_unscramble.sh b/pdf_unscramble.sh
 #!/bin/bash

 #depends
 [[ $# != 1 ]] && { echo "useage: $(basename $0) pdf_file" >&2; exit 10; }
 for dep in pdftoppm tesseract pdfunite; do
        hash "$dep" || { echo "requires: $dep" >&2; exit 11; }
 done

 #tmp
 tmp=$(mktemp -d)
 trap "rm -rf $tmp" EXIT

 #pdf->png
 echo "Resterizing ..." >&2
 pdftoppm -png "$1" "$tmp/${1%.pdf}" 2>&1
 echo "OCRing ..." >&2
 #png->pdf
 imgs=("$tmp/${1%.pdf}"*.png)
 for img in "${imgs[@]}"; do
        echo -en "Page: $((++i))/${#imgs[@]}\r" >&2
        tesseract -l pol --psm 1 --oem 1 "$img" "${img%.png}" pdf 2>&1
 done
 #concat pdfs
 echo "Concating ..." >&2
 pdfunite "$tmp/${1%.pdf}"*.pdf "${1%.pdf}".copy.pdf 2>&
	#!/bin/bash

	#depends
	[[ $# != 1 ]] && { echo "useage: $(basename $0) pdf_file" >&2; exit 10; }
	for dep in pdftoppm tesseract pdfunite; do
	hash "$dep" \|\| { echo "requires: $dep" >&2; exit 11; }
	done

	#tmp
	tmp=$(mktemp -d)
	trap "rm -rf $tmp" EXIT

	#pdf->png
	echo "Resterizing ..." >&2
	pdftoppm -png "$1" "$tmp/${1%.pdf}" 2>&1
	echo "OCRing ..." >&2
	#png->pdf
	imgs=("$tmp/${1%.pdf}"*.png)
	for img in "${imgs[@]}"; do
	echo -en "Page: $((++i))/${#imgs[@]}\r" >&2
	tesseract -l pol --psm 1 --oem 1 "$img" "${img%.png}" pdf 2>&1
	done
	#concat pdfs
	echo "Concating ..." >&2
	pdfunite "$tmp/${1%.pdf}"*.pdf "${1%.pdf}".copy.pdf 2>&
No results found