FdelMazo · October 30, 2019 19:16
diff --git a/tmdbdump_to_csv.py b/tmdbdump_to_csv.py
 #!/usr/bin/env python

 # 1. Download TMDB's database with @galli-leo's script
 #    https://gist.github.com/galli-leo/6398f9128ffc20af70c6c7eedfeb0a65
 # 2. Run python3 tmdbdump_to_csv.py

 import pandas as pd
 import numpy as np
 import json
 import os

 def jsonToDict(filename):
    f = open(filename)
    dic = json.loads(f.read())
    dic['tmdb_id'] = os.path.basename(filename).split('.')[0]
    f.close()
    return dic

 files = os.listdir('TMDBDUMP')
 files.sort(key=lambda x: int(x.split('.')[0]))

 dics = []
 for i,f in enumerate(files, 1):
    print("Dumping {} ({} of {})".format(f,i,len(files)))
    dics.append(jsonToDict('TMDBDUMP/'+f))

 print("Creating dataset...")

 df = pd.DataFrame(dics)

 df['tmdb_id'] = pd.to_numeric(df['tmdb_id'])
 df = df.set_index('tmdb_id')

 print("Sorting...")
 df = df.sort_index()

 fname = f"tmdbdump.csv"
 print(f"Saving as {fname} ...")
 df.to_csv(fname)
 print("Done!")
	#!/usr/bin/env python

	# 1. Download TMDB's database with @galli-leo's script
	# https://gist.github.com/galli-leo/6398f9128ffc20af70c6c7eedfeb0a65
	# 2. Run python3 tmdbdump_to_csv.py

	import pandas as pd
	import numpy as np
	import json
	import os

	def jsonToDict(filename):
	f = open(filename)
	dic = json.loads(f.read())
	dic['tmdb_id'] = os.path.basename(filename).split('.')[0]
	f.close()
	return dic

	files = os.listdir('TMDBDUMP')
	files.sort(key=lambda x: int(x.split('.')[0]))

	dics = []
	for i,f in enumerate(files, 1):
	print("Dumping {} ({} of {})".format(f,i,len(files)))
	dics.append(jsonToDict('TMDBDUMP/'+f))

	print("Creating dataset...")

	df = pd.DataFrame(dics)

	df['tmdb_id'] = pd.to_numeric(df['tmdb_id'])
	df = df.set_index('tmdb_id')

	print("Sorting...")
	df = df.sort_index()

	fname = f"tmdbdump.csv"
	print(f"Saving as {fname} ...")
	df.to_csv(fname)
	print("Done!")