dbalabka · May 1, 2021 11:19
diff --git a/bootstrap_compare_dist.py b/bootstrap_compare_dist.py
 from typing import Tuple

 import numpy as np
 import time
 import numba
 from scipy.stats import mannwhitneyu


 @numba.njit(parallel=True, fastmath=True, nogil=True)
 def compare_dist(z: np.ndarray, y: np.ndarray, n_samples: int = 10_000) -> Tuple[np.ndarray, float, float]:
    n = z.shape[0]
    m = y.shape[0]
    x = np.concatenate((z, y))

    t_obs = z.mean() - y.mean()
    t = np.zeros(n_samples)
    for i in numba.prange(n_samples):
        x_ = np.random.choice(x, n + m)
        t[i] = x_[:n].mean() - x_[m:].mean()
    return t, t_obs, float(np.sum(np.greater_equal(t, t_obs)) / n_samples)

 np.random.seed(42)

 size = 100_000

 z = np.random.normal(0.00005, 0.5, size)
 y = np.random.normal(0, 0.5, size)
 n_samples = 10_000

 start = time.time()
 t = compare_dist(z, y, n_samples)
 print(f'p-value: {t[2]}')
 end = time.time()
 print(end - start)

 start = time.time()
 t = mannwhitneyu(z, y)
 print(f'p-value: {t[1]}')
 end = time.time()
 print(end - start)

 # Numba debug
 # bootstrap.compare_dist.parallel_diagnostics(level=4)
 # bootstrap.compare_dist.inspect_types()
	from typing import Tuple

	import numpy as np
	import time
	import numba
	from scipy.stats import mannwhitneyu


	@numba.njit(parallel=True, fastmath=True, nogil=True)
	def compare_dist(z: np.ndarray, y: np.ndarray, n_samples: int = 10_000) -> Tuple[np.ndarray, float, float]:
	n = z.shape[0]
	m = y.shape[0]
	x = np.concatenate((z, y))

	t_obs = z.mean() - y.mean()
	t = np.zeros(n_samples)
	for i in numba.prange(n_samples):
	x_ = np.random.choice(x, n + m)
	t[i] = x_[:n].mean() - x_[m:].mean()
	return t, t_obs, float(np.sum(np.greater_equal(t, t_obs)) / n_samples)

	np.random.seed(42)

	size = 100_000

	z = np.random.normal(0.00005, 0.5, size)
	y = np.random.normal(0, 0.5, size)
	n_samples = 10_000

	start = time.time()
	t = compare_dist(z, y, n_samples)
	print(f'p-value: {t[2]}')
	end = time.time()
	print(end - start)

	start = time.time()
	t = mannwhitneyu(z, y)
	print(f'p-value: {t[1]}')
	end = time.time()
	print(end - start)

	# Numba debug
	# bootstrap.compare_dist.parallel_diagnostics(level=4)
	# bootstrap.compare_dist.inspect_types()