SumindaD · June 28, 2019 07:54
diff --git a/WritePDFResultToS3.py b/WritePDFResultToS3.py
 import json
 import boto3
 import os

 def getJobResults(jobId):

    pages = []

    textract = boto3.client('textract')
    response = textract.get_document_text_detection(JobId=jobId)
    
    pages.append(response)

    nextToken = None
    if('NextToken' in response):
        nextToken = response['NextToken']

    while(nextToken):

        response = textract.get_document_text_detection(JobId=jobId, NextToken=nextToken)

        pages.append(response)
        nextToken = None
        if('NextToken' in response):
            nextToken = response['NextToken']

    return pages

 def lambda_handler(event, context):
    notificationMessage = json.loads(json.dumps(event))['Records'][0]['Sns']['Message']
    
    pdfTextExtractionStatus = json.loads(notificationMessage)['Status']
    pdfTextExtractionJobTag = json.loads(notificationMessage)['JobTag']
    pdfTextExtractionJobId = json.loads(notificationMessage)['JobId']
    pdfTextExtractionDocumentLocation = json.loads(notificationMessage)['DocumentLocation']
    
    pdfTextExtractionS3ObjectName = json.loads(json.dumps(pdfTextExtractionDocumentLocation))['S3ObjectName']
    pdfTextExtractionS3Bucket = json.loads(json.dumps(pdfTextExtractionDocumentLocation))['S3Bucket']
    
    print(pdfTextExtractionJobTag + ' : ' + pdfTextExtractionStatus)
    
    pdfText = ''
    
    if(pdfTextExtractionStatus == 'SUCCEEDED'):
        response = getJobResults(pdfTextExtractionJobId)
        
        for resultPage in response:
            for item in resultPage["Blocks"]:
                if item["BlockType"] == "LINE":
                    pdfText += item["Text"] + '\n'
                    
        s3 = boto3.client('s3')
        
        outputTextFileName = os.path.splitext(pdfTextExtractionS3ObjectName)[0] + '.txt'
        s3.put_object(Body=pdfText, Bucket=pdfTextExtractionS3Bucket, Key=outputTextFileName)
	import json
	import boto3
	import os

	def getJobResults(jobId):

	pages = []

	textract = boto3.client('textract')
	response = textract.get_document_text_detection(JobId=jobId)

	pages.append(response)

	nextToken = None
	if('NextToken' in response):
	nextToken = response['NextToken']

	while(nextToken):

	response = textract.get_document_text_detection(JobId=jobId, NextToken=nextToken)

	pages.append(response)
	nextToken = None
	if('NextToken' in response):
	nextToken = response['NextToken']

	return pages

	def lambda_handler(event, context):
	notificationMessage = json.loads(json.dumps(event))['Records'][0]['Sns']['Message']

	pdfTextExtractionStatus = json.loads(notificationMessage)['Status']
	pdfTextExtractionJobTag = json.loads(notificationMessage)['JobTag']
	pdfTextExtractionJobId = json.loads(notificationMessage)['JobId']
	pdfTextExtractionDocumentLocation = json.loads(notificationMessage)['DocumentLocation']

	pdfTextExtractionS3ObjectName = json.loads(json.dumps(pdfTextExtractionDocumentLocation))['S3ObjectName']
	pdfTextExtractionS3Bucket = json.loads(json.dumps(pdfTextExtractionDocumentLocation))['S3Bucket']

	print(pdfTextExtractionJobTag + ' : ' + pdfTextExtractionStatus)

	pdfText = ''

	if(pdfTextExtractionStatus == 'SUCCEEDED'):
	response = getJobResults(pdfTextExtractionJobId)

	for resultPage in response:
	for item in resultPage["Blocks"]:
	if item["BlockType"] == "LINE":
	pdfText += item["Text"] + '\n'

	s3 = boto3.client('s3')

	outputTextFileName = os.path.splitext(pdfTextExtractionS3ObjectName)[0] + '.txt'
	s3.put_object(Body=pdfText, Bucket=pdfTextExtractionS3Bucket, Key=outputTextFileName)