devoxel · May 16, 2025 17:57
diff --git a/README.md b/README.md
diff --git a/estimate_error.py b/estimate_error.py
 import numpy as np
 import random

 # --- Simulation Parameters ---
 total_duration_days = 30
 interval_minutes = 5

 # Calculate the number of intervals in the total duration
 num_intervals = int((total_duration_days * 24 * 60) / interval_minutes)

 num_monte_carlo_runs = 1000  # Number of simulation runs

 # Example of a very spiky load

 # Probability of being in Regime A for any given interval
 prob_regime_A = 0.2

 volume_A_k, volume_A_theta = 100, 5  # Mean volume: k*theta = 500 requests per 5 min
 success_A_alpha, success_A_beta = (90.0, 10.0) # ~ 10% failure rate

 # Regime B: Low Volume, High Error
 volume_B_k, volume_B_theta = 10, 5  # Mean volume: k*theta = 50 requests per 5 min
 success_B_alpha, success_B_beta = (99.9, 0.1) # 1% failure rate

 # --- Run the Monte Carlo Simulation ---
 bias_results = []

 print(f"Starting Monte Carlo simulation with {num_monte_carlo_runs} runs...")
 print(f"Each run simulates {total_duration_days} days, divided into {num_intervals} intervals of {interval_minutes} minutes.")

 count_a = 0
 count_b = 0

 for run in range(num_monte_carlo_runs):
    num_requests_total = 0
    num_success_total = 0
    buckets = []

    for i in range(num_intervals):
        # Determine which regime this interval is in
        current_regime = "A" if random.random() < prob_regime_A else "B"
        # Ensure volume is non-negative

        # Generate volume based on the current regime
        if current_regime == "A":
            num_requests = int(np.random.gamma(volume_A_k, volume_A_theta))
            count_a += num_requests
            success_rate = np.random.beta(success_A_alpha, success_A_beta)
        else:  # Regime B
            num_requests = int(np.random.gamma(volume_B_k, volume_B_theta))
            count_b += num_requests
            success_rate = np.random.beta(success_B_alpha, success_B_beta)

        num_requests = max(1, num_requests)

        num_success = int(round(num_requests * success_rate))
        num_success = min(num_success, num_requests)

        # Calculate the 5m success ratio for this interval (what Prometheus records)
        ratio_5m = num_success / num_requests
        buckets.append(ratio_5m)

        # Accumulate totals for the true overall ratio
        num_requests_total += num_requests
        num_success_total += num_success


    biased_metric = np.sum(buckets) / len(buckets)
    true_metric = num_success_total / num_requests_total

    bias = biased_metric - true_metric
    bias_results.append(bias)

    if (run + 1) % 100 == 0:
        print(f"A events = {count_a}, B events = {count_b}")
        print( f"true = {true_metric}, agg = {biased_metric}, total_success = {num_success_total}, total_fail = {num_requests_total}")
        print(f"Completed {run + 1}/{num_monte_carlo_runs} runs.")


 mean_bias = np.mean(bias_results)
 median_bias = np.median(bias_results)
 std_dev_bias = np.std(bias_results)
 percentile_5 = np.percentile(bias_results, 5)
 percentile_95 = np.percentile(bias_results, 95)

 print(f"Mean Bias (Biased Metric - True Metric): {mean_bias:.6f}")
 print(f"Median Bias:                             {median_bias:.6f}")
 print(f"Standard Deviation of Bias:              {std_dev_bias:.6f}")
 print(f"5th Percentile of Bias:                  {percentile_5:.6f}")
 print(f"95th Percentile of Bias:                 {percentile_95:.6f}")
	import numpy as np
	import random

	# --- Simulation Parameters ---
	total_duration_days = 30
	interval_minutes = 5

	# Calculate the number of intervals in the total duration
	num_intervals = int((total_duration_days * 24 * 60) / interval_minutes)

	num_monte_carlo_runs = 1000 # Number of simulation runs

	# Example of a very spiky load

	# Probability of being in Regime A for any given interval
	prob_regime_A = 0.2

	volume_A_k, volume_A_theta = 100, 5 # Mean volume: k*theta = 500 requests per 5 min
	success_A_alpha, success_A_beta = (90.0, 10.0) # ~ 10% failure rate

	# Regime B: Low Volume, High Error
	volume_B_k, volume_B_theta = 10, 5 # Mean volume: k*theta = 50 requests per 5 min
	success_B_alpha, success_B_beta = (99.9, 0.1) # 1% failure rate

	# --- Run the Monte Carlo Simulation ---
	bias_results = []

	print(f"Starting Monte Carlo simulation with {num_monte_carlo_runs} runs...")
	print(f"Each run simulates {total_duration_days} days, divided into {num_intervals} intervals of {interval_minutes} minutes.")

	count_a = 0
	count_b = 0

	for run in range(num_monte_carlo_runs):
	num_requests_total = 0
	num_success_total = 0
	buckets = []

	for i in range(num_intervals):
	# Determine which regime this interval is in
	current_regime = "A" if random.random() < prob_regime_A else "B"
	# Ensure volume is non-negative

	# Generate volume based on the current regime
	if current_regime == "A":
	num_requests = int(np.random.gamma(volume_A_k, volume_A_theta))
	count_a += num_requests
	success_rate = np.random.beta(success_A_alpha, success_A_beta)
	else: # Regime B
	num_requests = int(np.random.gamma(volume_B_k, volume_B_theta))
	count_b += num_requests
	success_rate = np.random.beta(success_B_alpha, success_B_beta)

	num_requests = max(1, num_requests)

	num_success = int(round(num_requests * success_rate))
	num_success = min(num_success, num_requests)

	# Calculate the 5m success ratio for this interval (what Prometheus records)
	ratio_5m = num_success / num_requests
	buckets.append(ratio_5m)

	# Accumulate totals for the true overall ratio
	num_requests_total += num_requests
	num_success_total += num_success


	biased_metric = np.sum(buckets) / len(buckets)
	true_metric = num_success_total / num_requests_total

	bias = biased_metric - true_metric
	bias_results.append(bias)

	if (run + 1) % 100 == 0:
	print(f"A events = {count_a}, B events = {count_b}")
	print( f"true = {true_metric}, agg = {biased_metric}, total_success = {num_success_total}, total_fail = {num_requests_total}")
	print(f"Completed {run + 1}/{num_monte_carlo_runs} runs.")


	mean_bias = np.mean(bias_results)
	median_bias = np.median(bias_results)
	std_dev_bias = np.std(bias_results)
	percentile_5 = np.percentile(bias_results, 5)
	percentile_95 = np.percentile(bias_results, 95)

	print(f"Mean Bias (Biased Metric - True Metric): {mean_bias:.6f}")
	print(f"Median Bias: {median_bias:.6f}")
	print(f"Standard Deviation of Bias: {std_dev_bias:.6f}")
	print(f"5th Percentile of Bias: {percentile_5:.6f}")
	print(f"95th Percentile of Bias: {percentile_95:.6f}")