gusanthiago · May 26, 2017 18:34
diff --git a/getFile.py b/getFile.py
 """
 Extract PDF text using PDFMiner. Adapted from
 http://stackoverflow.com/questions/5725278/python-help-using-pdfminer-as-a-library
 """
 # nao esqueca de instalar a biblioteca Pedro
 # modificado de acordo com a doc == https://github.com/euske/pdfminer/

 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter#process_pdf
 from pdfminer.pdfpage import PDFPage
 from pdfminer.converter import TextConverter
 from pdfminer.layout import LAParams

 from cStringIO import StringIO

 def pdf_to_text(pdfname):

    rsrcmgr = PDFResourceManager()
    sio = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    fp = file(pdfname, 'rb')
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
    fp.close()

    text = sio.getvalue()

    device.close()
    sio.close()

    return text
 # http://www.bcb.gov.br/pec/GCI/PORT/readout/R20170519.pdf
 # extrai o arquivo e jogue na pasta
 url = "R20170519.pdf"
 print(pdf_to_text(url))
	"""
	Extract PDF text using PDFMiner. Adapted from
	http://stackoverflow.com/questions/5725278/python-help-using-pdfminer-as-a-library
	"""
	# nao esqueca de instalar a biblioteca Pedro
	# modificado de acordo com a doc == https://github.com/euske/pdfminer/

	from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter#process_pdf
	from pdfminer.pdfpage import PDFPage
	from pdfminer.converter import TextConverter
	from pdfminer.layout import LAParams

	from cStringIO import StringIO

	def pdf_to_text(pdfname):

	rsrcmgr = PDFResourceManager()
	sio = StringIO()
	codec = 'utf-8'
	laparams = LAParams()
	device = TextConverter(rsrcmgr, sio, codec=codec, laparams=laparams)
	interpreter = PDFPageInterpreter(rsrcmgr, device)

	fp = file(pdfname, 'rb')
	for page in PDFPage.get_pages(fp):
	interpreter.process_page(page)
	fp.close()

	text = sio.getvalue()

	device.close()
	sio.close()

	return text
	# http://www.bcb.gov.br/pec/GCI/PORT/readout/R20170519.pdf
	# extrai o arquivo e jogue na pasta
	url = "R20170519.pdf"
	print(pdf_to_text(url))