oskarryn · May 22, 2021 15:39
diff --git a/generate_synthetic_df.py b/generate_synthetic_df.py
 from scipy.stats import skewnorm
 import numpy as np

 from pyspark.sql import SparkSession
 spark = SparkSession.builder.getOrCreate()

 def generate_cycle_randomly(unit_id, cycle, model_variant, label):
    temp = 50+skewnorm.rvs(-8, size=1).item() + np.random.normal(0, 5)
    pressure = np.random.uniform(900,1200) + np.random.normal(0, 50)
    return (unit_id, cycle, model_variant, round(temp, 2), round(pressure, 2), label)

 def generate_cycles(unit_id, model_variant, init_rul):
    res = []
    rul = init_rul
    for cycle, vals in enumerate(range(rul)):
        res.append(generate_cycle_randomly(unit_id=unit_id, cycle=cycle, model_variant=model_variant, label=rul))
        rul -= 1
    return res

 data = generate_cycles(unit_id=0, model_variant='A', init_rul=45) + generate_cycles(unit_id=1, model_variant='B', init_rul=40)
 df = spark.createDataFrame(data, schema=["unit_id", "cycle", "model_variant", "temp", "pressure", "label"])
	from scipy.stats import skewnorm
	import numpy as np

	from pyspark.sql import SparkSession
	spark = SparkSession.builder.getOrCreate()

	def generate_cycle_randomly(unit_id, cycle, model_variant, label):
	temp = 50+skewnorm.rvs(-8, size=1).item() + np.random.normal(0, 5)
	pressure = np.random.uniform(900,1200) + np.random.normal(0, 50)
	return (unit_id, cycle, model_variant, round(temp, 2), round(pressure, 2), label)

	def generate_cycles(unit_id, model_variant, init_rul):
	res = []
	rul = init_rul
	for cycle, vals in enumerate(range(rul)):
	res.append(generate_cycle_randomly(unit_id=unit_id, cycle=cycle, model_variant=model_variant, label=rul))
	rul -= 1
	return res

	data = generate_cycles(unit_id=0, model_variant='A', init_rul=45) + generate_cycles(unit_id=1, model_variant='B', init_rul=40)
	df = spark.createDataFrame(data, schema=["unit_id", "cycle", "model_variant", "temp", "pressure", "label"])