fiorentinogiuseppe · January 17, 2020 18:33
diff --git a/get_ocr_documents.py b/get_ocr_documents.py
 def get_ocr_documents(images):
    """
    Percorre as imagens do PDF `lendo-as` com o pytesseract convertendo 
    imagem em `string`.
    
    Parameters
    ----------
    images : PIL.Image.Image
        Imagens, resultados da conversão do PDF.
    Returns
    -------
    String
        Um texto contendo todas as leituras das paginas
    """ 
    
    pages_text = []
    for image in images:
      #https://stackoverflow.com/questions/44619077/pytesseract-ocr-multiple-config-options
      pages_text.append(pytesseract.image_to_string(image, config='--psm 4' ,lang='eng'))
    return ''.join(pages_text)
	def get_ocr_documents(images):
	"""
	Percorre as imagens do PDF `lendo-as` com o pytesseract convertendo
	imagem em `string`.

	Parameters
	----------
	images : PIL.Image.Image
	Imagens, resultados da conversão do PDF.
	Returns
	-------
	String
	Um texto contendo todas as leituras das paginas
	"""

	pages_text = []
	for image in images:
	#https://stackoverflow.com/questions/44619077/pytesseract-ocr-multiple-config-options
	pages_text.append(pytesseract.image_to_string(image, config='--psm 4' ,lang='eng'))
	return ''.join(pages_text)