simonwo · July 20, 2020 20:10
diff --git a/docxtables2json.py b/docxtables2json.py
 #!/usr/bin/env python3

 from sys import stdout, stderr, argv
 import os.path
 import json

 try:
    from docx import Document
 except ImportError:
    print("Maybe you should $ pip install python-docx", file=stderr)
    raise

 for path in argv[1:]:
    directory, filename = os.path.split(path)
    basename, extension = os.path.splitext(filename)

    with open(path, 'rb') as input_file:
        document = Document(input_file)
        for index, table in enumerate(document.tables):
            headers = [cell.text for cell in table.rows[0].cells]
            outpath = os.path.join(directory, f"{basename}table-{index}.json")
            numrows = len(table.rows) - 1 # Content rows

            print(outpath, file=stdout)
            with open(outpath, 'w') as outputfile:
                outputfile.write('[') # Instead of building a massive JSON

                for index, row in enumerate(table.rows[1:]):
                    values = [cell.text for cell in row.cells]
                    data = dict(zip(headers, values))
                    json.dump(data, outputfile)
                    if index != numrows - 1:
                        outputfile.write(',')

                outputfile.write(']')
	#!/usr/bin/env python3

	from sys import stdout, stderr, argv
	import os.path
	import json

	try:
	from docx import Document
	except ImportError:
	print("Maybe you should $ pip install python-docx", file=stderr)
	raise

	for path in argv[1:]:
	directory, filename = os.path.split(path)
	basename, extension = os.path.splitext(filename)

	with open(path, 'rb') as input_file:
	document = Document(input_file)
	for index, table in enumerate(document.tables):
	headers = [cell.text for cell in table.rows[0].cells]
	outpath = os.path.join(directory, f"{basename}table-{index}.json")
	numrows = len(table.rows) - 1 # Content rows

	print(outpath, file=stdout)
	with open(outpath, 'w') as outputfile:
	outputfile.write('[') # Instead of building a massive JSON

	for index, row in enumerate(table.rows[1:]):
	values = [cell.text for cell in row.cells]
	data = dict(zip(headers, values))
	json.dump(data, outputfile)
	if index != numrows - 1:
	outputfile.write(',')

	outputfile.write(']')