sergiolucero · March 20, 2021 23:18 · fearx135 · Aug 19, 2020 · DiegoIdeas · Mar 20, 2021
diff --git a/serverl_pdf2csv.py b/serverl_pdf2csv.py
 import csv, glob, fitz

 def pdf2csv(fn):

    csv_fn = fn.replace('.pdf','.csv')
    region = int(fn[1:3])   # A04101.pdf -> 4

    with open(csv_fn,'w') as fw:
        writer = csv.writer(fw)
        writer.writerow(['nombre','rut','genero','direccion',
                     'mesa','region','comuna'])

        for page in fitz.open(fn):
            text = page.getText()
            data = text[text.index('de'):].split(chr(10))[14:]

            nombres = [n for n in data[::5] if len(n)>1]
            ruts = data[1::5]
            genedire = data[2::5]
            gens = [gd[:5] for gd in genedire]
            dirs = [gd[6:] for gd in genedire]
            comuna = data[3]
            mesas = data[4::5]

            zipd = zip(nombres,ruts,gens,dirs,mesas)
            for nombre, rut, gene, dire, mesa in zipd:
                writer.writerow([nombre,rut,gene,dire,mesa,region,comuna])

 if __name__ == '__main__':
    for fn in list(glob.glob('A*.pdf'))[:5]:
        print(fn)
        pdf2csv(fn)
	import csv, glob, fitz

	def pdf2csv(fn):

	csv_fn = fn.replace('.pdf','.csv')
	region = int(fn[1:3]) # A04101.pdf -> 4

	with open(csv_fn,'w') as fw:
	writer = csv.writer(fw)
	writer.writerow(['nombre','rut','genero','direccion',
	'mesa','region','comuna'])

	for page in fitz.open(fn):
	text = page.getText()
	data = text[text.index('de'):].split(chr(10))[14:]

	nombres = [n for n in data[::5] if len(n)>1]
	ruts = data[1::5]
	genedire = data[2::5]
	gens = [gd[:5] for gd in genedire]
	dirs = [gd[6:] for gd in genedire]
	comuna = data[3]
	mesas = data[4::5]

	zipd = zip(nombres,ruts,gens,dirs,mesas)
	for nombre, rut, gene, dire, mesa in zipd:
	writer.writerow([nombre,rut,gene,dire,mesa,region,comuna])

	if __name__ == '__main__':
	for fn in list(glob.glob('A*.pdf'))[:5]:
	print(fn)
	pdf2csv(fn)