lebedov · April 28, 2021 12:29 · sfinotti · Jun 27, 2022 · mara004 · Jun 22, 2023
diff --git a/jpype_pdf_text_stripper.py b/jpype_pdf_text_stripper.py
 #!/usr/bin/env python3

 """
 How to use pdfbox's PDFTextStripper class in Python.
 """

 import pathlib
 import pkg_resources
 import re
 import urllib.request

 import appdirs
 import jpype
 import jpype.imports
 import numpy as np

 # Replace with path to pdfbox jar file:
 a = appdirs.AppDirs('python-pdfbox')
 cache_dir = pathlib.Path(a.user_cache_dir)
 file_list = list(cache_dir.glob('pdfbox-app-*.jar'))
 def f(s):
    v = re.search('pdfbox-app-([\w\.\-]+)\.jar', s.name).group(1)
    return pkg_resources.parse_version(v)
 jpype.addClassPath(sorted(file_list, key=f)[-1])

 if not jpype.isJVMStarted():
    jpype.startJVM(jpype.getDefaultJVMPath(), '-Djava.awt.headless=true', convertStrings=False)
 from java.awt.image import BufferedImage
 from java.io import File
 from org.apache.pdfbox.pdmodel import PDDocument
 from org.apache.pdfbox.text import PDFTextStripper

 def extract_text(in_file):
    """
    Extract text of PDF file.

    Parameters
    ----------
    in_file : str
        Path to input PDF file.

    Returns
    -------
    text : str
        Extracted text.
    """

    doc = PDDocument.load(File(in_file))
    pdf_text_stripper = PDFTextStripper()
    text = pdf_text_stripper.getText(doc)
    return str(text)

 if __name__ == '__main__':
    import os
    import tempfile
    import urllib

    # Download sample multipage PDF:
    data = urllib.request.urlopen('https://researchtorevenue.files.wordpress.com/2015/04/1r41ai10801601_fong.pdf').read()
    fd, name = tempfile.mkstemp()
    f = open(name, 'wb')
    f.write(data)
    f.close()
    result = extract_text(name)
    os.unlink(name)
	#!/usr/bin/env python3

	"""
	How to use pdfbox's PDFTextStripper class in Python.
	"""

	import pathlib
	import pkg_resources
	import re
	import urllib.request

	import appdirs
	import jpype
	import jpype.imports
	import numpy as np

	# Replace with path to pdfbox jar file:
	a = appdirs.AppDirs('python-pdfbox')
	cache_dir = pathlib.Path(a.user_cache_dir)
	file_list = list(cache_dir.glob('pdfbox-app-*.jar'))
	def f(s):
	v = re.search('pdfbox-app-([\w\.\-]+)\.jar', s.name).group(1)
	return pkg_resources.parse_version(v)
	jpype.addClassPath(sorted(file_list, key=f)[-1])

	if not jpype.isJVMStarted():
	jpype.startJVM(jpype.getDefaultJVMPath(), '-Djava.awt.headless=true', convertStrings=False)
	from java.awt.image import BufferedImage
	from java.io import File
	from org.apache.pdfbox.pdmodel import PDDocument
	from org.apache.pdfbox.text import PDFTextStripper

	def extract_text(in_file):
	"""
	Extract text of PDF file.

	Parameters
	----------
	in_file : str
	Path to input PDF file.

	Returns
	-------
	text : str
	Extracted text.
	"""

	doc = PDDocument.load(File(in_file))
	pdf_text_stripper = PDFTextStripper()
	text = pdf_text_stripper.getText(doc)
	return str(text)

	if __name__ == '__main__':
	import os
	import tempfile
	import urllib

	# Download sample multipage PDF:
	data = urllib.request.urlopen('https://researchtorevenue.files.wordpress.com/2015/04/1r41ai10801601_fong.pdf').read()
	fd, name = tempfile.mkstemp()
	f = open(name, 'wb')
	f.write(data)
	f.close()
	result = extract_text(name)
	os.unlink(name)