lincank · September 11, 2012 06:38 · xerofdv · Feb 16, 2016
diff --git a/pdfform.py b/pdfform.py
 """
 collect fillable form data from all pdf files in the input directory,
 and generate a "output.csv" file in the input directory

 Dependency: pdfminer
 Install: pip install pdfminer


 Usage:

 python pdfform.py <input dir>

 like:
 python pdfform.py "C:/pdfs/"

 """
 import sys, os, re
 from pdfminer.pdfparser import PDFParser, PDFDocument
 from pdfminer.pdftypes import resolve1

 def get_fields(file_path):
 	"""
 	extract all field data from a pdf file
 	"""

 	parser = PDFParser(file_path)
 	doc = PDFDocument()
 	parser.set_document(doc)
 	doc.set_parser(parser)
 	doc.initialize()

 	return resolve1(doc.catalog['AcroForm'])['Fields']


 def get_record_value_string(dir_name, file_name):
 	"""
 	get a response form values as a string, separated by ','
 	"""
 	fp = open(os.path.join(dir_name, file_name), 'rb')
 	fields = get_fields(fp)

 	# initialize value list  with file_name
 	record_values = [file_name]
 	for i in fields:
 		field = resolve1(i)
 		name, value = field.get('T'), field.get('V')
 		record_values.append(",%s" % str(value).replace(",", "_"))

 	fp.close()
 	# convert to string
 	return ''.join(record_values)


 def get_record_header_string(dir_name, file_name):
 	"""
 	get field headers, return as a string
 	"""
 	fp = open(os.path.join(dir_name, file_name), 'rb')
 	fields = get_fields(fp)

 	record_fields = []
 	for i in fields:
 		field = resolve1(i)
 		name, value = field.get('T'), field.get('V')
 		record_fields.append(",%s" % name)

 	fp.close()
 	# convert to string
 	return ''.join(record_fields)


 ###### main program starts here ######

 # get only pdf files
 regx = re.compile("\\.pdf$", re.IGNORECASE)

 # input directory, e.g., "C:\pdfs\"
 input_dir_path = sys.argv[1]
 output_path = os.path.join(input_dir_path, "output.csv")

 # get all pdf files in directory
 filenames = filter(regx.search, os.listdir(input_dir_path))
 output_file = open(output_path, "w")

 # write header to output
 output_file.write("%s\n" % get_record_header_string(input_dir_path, filenames[0]))

 # fill in form data from files
 for f in filenames:
 	output_file.write("%s\n" % get_record_value_string(input_dir_path, f))

 output_file.close()
	"""
	collect fillable form data from all pdf files in the input directory,
	and generate a "output.csv" file in the input directory

	Dependency: pdfminer
	Install: pip install pdfminer


	Usage:

	python pdfform.py <input dir>

	like:
	python pdfform.py "C:/pdfs/"

	"""
	import sys, os, re
	from pdfminer.pdfparser import PDFParser, PDFDocument
	from pdfminer.pdftypes import resolve1

	def get_fields(file_path):
	"""
	extract all field data from a pdf file
	"""

	parser = PDFParser(file_path)
	doc = PDFDocument()
	parser.set_document(doc)
	doc.set_parser(parser)
	doc.initialize()

	return resolve1(doc.catalog['AcroForm'])['Fields']


	def get_record_value_string(dir_name, file_name):
	"""
	get a response form values as a string, separated by ','
	"""
	fp = open(os.path.join(dir_name, file_name), 'rb')
	fields = get_fields(fp)

	# initialize value list with file_name
	record_values = [file_name]
	for i in fields:
	field = resolve1(i)
	name, value = field.get('T'), field.get('V')
	record_values.append(",%s" % str(value).replace(",", "_"))

	fp.close()
	# convert to string
	return ''.join(record_values)


	def get_record_header_string(dir_name, file_name):
	"""
	get field headers, return as a string
	"""
	fp = open(os.path.join(dir_name, file_name), 'rb')
	fields = get_fields(fp)

	record_fields = []
	for i in fields:
	field = resolve1(i)
	name, value = field.get('T'), field.get('V')
	record_fields.append(",%s" % name)

	fp.close()
	# convert to string
	return ''.join(record_fields)


	###### main program starts here ######

	# get only pdf files
	regx = re.compile("\\.pdf$", re.IGNORECASE)

	# input directory, e.g., "C:\pdfs\"
	input_dir_path = sys.argv[1]
	output_path = os.path.join(input_dir_path, "output.csv")

	# get all pdf files in directory
	filenames = filter(regx.search, os.listdir(input_dir_path))
	output_file = open(output_path, "w")

	# write header to output
	output_file.write("%s\n" % get_record_header_string(input_dir_path, filenames[0]))

	# fill in form data from files
	for f in filenames:
	output_file.write("%s\n" % get_record_value_string(input_dir_path, f))

	output_file.close()
No results found