84adam · January 2, 2020 18:12
diff --git a/pdf_url_text.py b/pdf_url_text.py
 import requests
 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
 from pdfminer.converter import TextConverter
 from pdfminer.layout import LAParams
 from pdfminer.pdfpage import PDFPage
 from io import StringIO, BytesIO

 def convert_pdf_to_txt(url, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)
    output = StringIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    r = requests.get(url)
    infile = BytesIO(r.content)

    for page in PDFPage.get_pages(infile, pagenums):
        interpreter.process_page(page)
    infile.close()
    converter.close()
    text = output.getvalue()
    output.close()
    return text

 if __name__ == '__main__':
    url = input("Enter URL of PDF from which to extract text: ")
    # Example URL: https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf
    # Output: 
    # >>> Dummy PDF file

    output = convert_pdf_to_txt(url)
    print(output)
	import requests
	from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
	from pdfminer.converter import TextConverter
	from pdfminer.layout import LAParams
	from pdfminer.pdfpage import PDFPage
	from io import StringIO, BytesIO

	def convert_pdf_to_txt(url, pages=None):
	if not pages:
	pagenums = set()
	else:
	pagenums = set(pages)
	output = StringIO()
	manager = PDFResourceManager()
	converter = TextConverter(manager, output, laparams=LAParams())
	interpreter = PDFPageInterpreter(manager, converter)

	r = requests.get(url)
	infile = BytesIO(r.content)

	for page in PDFPage.get_pages(infile, pagenums):
	interpreter.process_page(page)
	infile.close()
	converter.close()
	text = output.getvalue()
	output.close()
	return text

	if __name__ == '__main__':
	url = input("Enter URL of PDF from which to extract text: ")
	# Example URL: https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf
	# Output:
	# >>> Dummy PDF file

	output = convert_pdf_to_txt(url)
	print(output)
No results found