ivan-krukov · August 29, 2015 14:18
diff --git a/README.md b/README.md
diff --git a/randomize.py b/randomize.py
 #!/usr/bin/python2
 import sys
 import random
 import csv

 #Generate two columns of random variables, called 'a' and 'b'
 def generate_data(variables = ['a','b'],
        samples = 10,
        generator = random.gauss,
        generator_args = {'mu':1, 'sigma':2}):
    data = [[{v:generator(**generator_args)} for v in variables] for s in range(samples)]
    return data

 #Read data from a csv file
 def read_data(input_file):
    data = []
    with open(input_file) as csvfile:
        reader = csv.DictReader(csvfile)
        for row in reader:
            data.append(row)
    return data

 #Write data to a csv file
 def write_data(data,output_file, labels = ['a','b','label']):
    with open(output_file,'w') as csvfile:
        writer = csv.DictWriter(csvfile, labels)
        writer.writeheader()
        for d in data:
            writer.writerow(d)

 #Shuffle data; label first half labels[0], second - labels[1]
 def relabel_half(data, labels = ['test','control']):
    random.shuffle(data)
    half = len(data)/2
    for i,d in enumerate(data):
        if i < half:
            d['label'] = labels[0]
        else:
            d['label'] = labels[1]
    return data

 if __name__ == '__main__':
    input_file = sys.argv[1]
    data = read_data(input_file)
    for i in range(int(sys.argv[2])):
        r = relabel_half(data)
        write_data(r, "relabel_"+str(i))
	#!/usr/bin/python2
	import sys
	import random
	import csv

	#Generate two columns of random variables, called 'a' and 'b'
	def generate_data(variables = ['a','b'],
	samples = 10,
	generator = random.gauss,
	generator_args = {'mu':1, 'sigma':2}):
	data = [[{v:generator(**generator_args)} for v in variables] for s in range(samples)]
	return data

	#Read data from a csv file
	def read_data(input_file):
	data = []
	with open(input_file) as csvfile:
	reader = csv.DictReader(csvfile)
	for row in reader:
	data.append(row)
	return data

	#Write data to a csv file
	def write_data(data,output_file, labels = ['a','b','label']):
	with open(output_file,'w') as csvfile:
	writer = csv.DictWriter(csvfile, labels)
	writer.writeheader()
	for d in data:
	writer.writerow(d)

	#Shuffle data; label first half labels[0], second - labels[1]
	def relabel_half(data, labels = ['test','control']):
	random.shuffle(data)
	half = len(data)/2
	for i,d in enumerate(data):
	if i < half:
	d['label'] = labels[0]
	else:
	d['label'] = labels[1]
	return data

	if __name__ == '__main__':
	input_file = sys.argv[1]
	data = read_data(input_file)
	for i in range(int(sys.argv[2])):
	r = relabel_half(data)
	write_data(r, "relabel_"+str(i))