zacharysyoung · February 20, 2023 17:58
diff --git a/README.md b/README.md
diff --git a/filter.py b/filter.py
 import csv
 import sys
 import time

 from datetime import datetime

 START_DT = datetime(2000, 1, 1, 11)
 END_DT = datetime(2010, 1, 1, 14)


 def meets_my_condition(row):
    dt = datetime.strptime(row[0] + row[1], r"%Y%m%d%H:%M:%S")
    return dt >= START_DT and dt <= END_DT


 n = int(sys.argv[1])
 in_ct = 0
 out_ct = 0
 fname_in = f"test-{n}.csv"
 fname_out = f"test-{n}-out.csv"

 beg_t = time.perf_counter()
 f_in = open(fname_in, newline="")
 f_out = open(fname_out, "w", newline="")

 reader = csv.reader(f_in)
 writer = csv.writer(f_out)

 for row in reader:
    in_ct += 1
    if meets_my_condition(row):
        writer.writerow(row)
        out_ct += 1

 f_in.close()
 f_out.close()
 end_t = time.perf_counter()

 print(f"| {fname_out} | filtered {in_ct-out_ct:_} rows | {START_DT} | {END_DT} | {round(end_t-beg_t,2)} |")
diff --git a/gen.py b/gen.py
 import csv
 import sys
 import time

 from datetime import datetime, timedelta

 # Generate a test file of n-sized rows, starting at Jan 1, 1900 and
 # incrementing each row by an hour

 BASE_DT = datetime(1900, 1, 1)

 n = int(sys.argv[1])
 dt = datetime(1, 1, 1)  # declare value outside loop so we can print its final value at the end
 fname = f"test-{n}.csv"

 beg_t = time.perf_counter()
 with open(fname, "w", newline="") as f:
    writer = csv.writer(f)
    for i in range(n):
        dt = BASE_DT + timedelta(hours=i)
        ymd = dt.strftime(r"%Y%m%d")
        hms = dt.strftime(r"%H:%M:%S")
        writer.writerow([ymd, hms])
 end_t = time.perf_counter()

 print(f"| {fname} | generated {n:_} rows | {BASE_DT} | {dt} | {round(end_t-beg_t,2)} |")
diff --git a/run_test.py b/run_test.py
 from subprocess import run

 print("| Test N | row specs | DT Start | DT End | time (s) |")
 print("| ------ | --------- | -------- | ------ | -------- |")
 for x in [100_000, 1_000_000, 10_000_000]:
    n = str(x)
    run(["python3", "gen.py", n])
    run(["python3", "filter.py", n])
Test N	row specs	DT Start	DT End	time (s)
test-100000.csv	generated 100_000 rows	1900-01-01 00:00:00	1911-05-30 15:00:00	0.31
test-100000-out.csv	filtered 100_000 rows	2000-01-01 11:00:00	2010-01-01 14:00:00	0.29
test-1000000.csv	generated 1_000_000 rows	1900-01-01 00:00:00	2014-01-29 15:00:00	2.97
test-1000000-out.csv	filtered 912_324 rows	2000-01-01 11:00:00	2010-01-01 14:00:00	2.93
test-10000000.csv	generated 10_000_000 rows	1900-01-01 00:00:00	3040-10-17 15:00:00	29.96
test-10000000-out.csv	filtered 9_912_324 rows	2000-01-01 11:00:00	2010-01-01 14:00:00	29.70
	import csv
	import sys
	import time

	from datetime import datetime

	START_DT = datetime(2000, 1, 1, 11)
	END_DT = datetime(2010, 1, 1, 14)


	def meets_my_condition(row):
	dt = datetime.strptime(row[0] + row[1], r"%Y%m%d%H:%M:%S")
	return dt >= START_DT and dt <= END_DT


	n = int(sys.argv[1])
	in_ct = 0
	out_ct = 0
	fname_in = f"test-{n}.csv"
	fname_out = f"test-{n}-out.csv"

	beg_t = time.perf_counter()
	f_in = open(fname_in, newline="")
	f_out = open(fname_out, "w", newline="")

	reader = csv.reader(f_in)
	writer = csv.writer(f_out)

	for row in reader:
	in_ct += 1
	if meets_my_condition(row):
	writer.writerow(row)
	out_ct += 1

	f_in.close()
	f_out.close()
	end_t = time.perf_counter()

	print(f"\| {fname_out} \| filtered {in_ct-out_ct:_} rows \| {START_DT} \| {END_DT} \| {round(end_t-beg_t,2)} \|")
	from subprocess import run

	print("\| Test N \| row specs \| DT Start \| DT End \| time (s) \|")
	print("\| ------ \| --------- \| -------- \| ------ \| -------- \|")
	for x in [100_000, 1_000_000, 10_000_000]:
	n = str(x)
	run(["python3", "gen.py", n])
	run(["python3", "filter.py", n])