elvisgs · January 7, 2019 16:23
diff --git a/split_publicacoes.py b/split_publicacoes.py
 import csv
 import itertools
 import json
 import os
 import operator
 import re
 import sys


 cwd = '/home/elvis/playground/stm'
 csv.field_size_limit(sys.maxsize)

 path_csv = os.path.join(cwd, 'publicacoes-stm.csv')


 def divide_publicacoes():
    with open(path_csv, 'r') as csv_file:
        csv_reader = csv.DictReader(csv_file)
        grouped = itertools.groupby(csv_reader, 
                                    operator.itemgetter('nome_jornal_edicao'))
        for group, items in grouped:
            items = list(map(renomear_chaves, items))
            data, nro_edicao = obtem_data_e_numero_edicao(group)

            print(f'{data} ({nro_edicao}): {len(items)} publicações')
            
            json_content = json.dumps(items, indent=2, ensure_ascii=False)
            json_path = path_csv.replace('.csv', f'_{data}_{nro_edicao}.json')
            with open(json_path, 'w') as json_file:
                json_file.write(json_content)


 def obtem_data_e_numero_edicao(jornal):
    match = re.search(r'(\d{2}/\d{2}/\d{4}) Nº (\d+)', jornal)
    return '-'.join(reversed(match[1].split('/'))), match[2]


 def renomear_chaves(publicacao):
    publicacao['codigo'] = publicacao.pop('cod_publicacao')
    publicacao['textoprocesso'] = publicacao.pop('texto_processo')
    publicacao['textodespacho'] = publicacao.pop('texto_despacho')
    return publicacao


 if __name__ == '__main__':
    divide_publicacoes()
	import csv
	import itertools
	import json
	import os
	import operator
	import re
	import sys


	cwd = '/home/elvis/playground/stm'
	csv.field_size_limit(sys.maxsize)

	path_csv = os.path.join(cwd, 'publicacoes-stm.csv')


	def divide_publicacoes():
	with open(path_csv, 'r') as csv_file:
	csv_reader = csv.DictReader(csv_file)
	grouped = itertools.groupby(csv_reader,
	operator.itemgetter('nome_jornal_edicao'))
	for group, items in grouped:
	items = list(map(renomear_chaves, items))
	data, nro_edicao = obtem_data_e_numero_edicao(group)

	print(f'{data} ({nro_edicao}): {len(items)} publicações')

	json_content = json.dumps(items, indent=2, ensure_ascii=False)
	json_path = path_csv.replace('.csv', f'_{data}_{nro_edicao}.json')
	with open(json_path, 'w') as json_file:
	json_file.write(json_content)


	def obtem_data_e_numero_edicao(jornal):
	match = re.search(r'(\d{2}/\d{2}/\d{4}) Nº (\d+)', jornal)
	return '-'.join(reversed(match[1].split('/'))), match[2]


	def renomear_chaves(publicacao):
	publicacao['codigo'] = publicacao.pop('cod_publicacao')
	publicacao['textoprocesso'] = publicacao.pop('texto_processo')
	publicacao['textodespacho'] = publicacao.pop('texto_despacho')
	return publicacao


	if __name__ == '__main__':
	divide_publicacoes()