durandom · June 26, 2020 09:14
diff --git a/hive_schema.py b/hive_schema.py
 def hive_schema(filename):
    nl = ',\n'
    diag_parq = fastparquet.ParquetFile(filename)
    data = diag_parq.schema.text
    schema = filter(None, data.split('\n')[1:])
    schema = [re.sub(r'^[^a-z]+', '        ', l) for l in schema]
    schema = [re.sub(r':', '', l) for l in schema]
    schema = [re.sub(r'BYTE_ARRAY.*', 'STRING', l) for l in schema]
    schema = [re.sub(r'INT64, TIMESTAMP_MICROS.*', 'TIMESTAMP', l) for l in schema]
    schema = [re.sub(r'INT64, TIMESTAMP_MILLIS.*', 'TIMESTAMP', l) for l in schema]
    schema = [re.sub(r'INT64, TIME_MICROS.*', 'BIGINT', l) for l in schema]
    schema = [re.sub(r'INT64.*', 'BIGINT', l) for l in schema]
    schema = [re.sub(r'DOUBLE.*', 'DOUBLE', l) for l in schema]
    schema = [re.sub(r'BOOLEAN.*', 'BOOLEAN', l) for l in schema]
    table = re.sub(r'([^.]+)\..*', r'\1', filename)
    template = f"""
    CREATE EXTERNAL TABLE IF NOT EXISTS <TABLE_NAME>.{table} (
    {nl.join(schema)}
    )
    STORED AS PARQUET
    LOCATION 's3a://<SECRET_KEY>:<SECRET>@<BUCKET>/<PATH>/';
    """
    return template
	def hive_schema(filename):
	nl = ',\n'
	diag_parq = fastparquet.ParquetFile(filename)
	data = diag_parq.schema.text
	schema = filter(None, data.split('\n')[1:])
	schema = [re.sub(r'^[^a-z]+', ' ', l) for l in schema]
	schema = [re.sub(r':', '', l) for l in schema]
	schema = [re.sub(r'BYTE_ARRAY.*', 'STRING', l) for l in schema]
	schema = [re.sub(r'INT64, TIMESTAMP_MICROS.*', 'TIMESTAMP', l) for l in schema]
	schema = [re.sub(r'INT64, TIMESTAMP_MILLIS.*', 'TIMESTAMP', l) for l in schema]
	schema = [re.sub(r'INT64, TIME_MICROS.*', 'BIGINT', l) for l in schema]
	schema = [re.sub(r'INT64.*', 'BIGINT', l) for l in schema]
	schema = [re.sub(r'DOUBLE.*', 'DOUBLE', l) for l in schema]
	schema = [re.sub(r'BOOLEAN.*', 'BOOLEAN', l) for l in schema]
	table = re.sub(r'([^.]+)\..*', r'\1', filename)
	template = f"""
	CREATE EXTERNAL TABLE IF NOT EXISTS <TABLE_NAME>.{table} (
	{nl.join(schema)}
	)
	STORED AS PARQUET
	LOCATION 's3a://<SECRET_KEY>:<SECRET>@<BUCKET>/<PATH>/';
	"""
	return template
No results found