durka · May 17, 2018 05:18
diff --git a/gistfile1.py b/gistfile1.py
    N = sum(map(len, cats.values()))
    splits = map(lambda (tr,te): te, StratifiedKFold(n_splits=5, shuffle=True).split(np.zeros(N), reduce(lambda a,b: a+b, map(lambda (c,s): [c]*len(s), cats.items()))))
    stats = {'train': dict(), 'test': dict()}
    for cat, surfs in cats.items():
        print cat
        for i, (row, props, rates) in enumerate(surfs):
            for s in range(4):
                if i in splits[s]:
                    mode = 0 # train
                    fold = s
                    break
            else:
                if i in splits[4]:
                    mode = 1 # test
                    fold = None
                else:
                    raise 'index not in any split: %d' % i
	N = sum(map(len, cats.values()))
	splits = map(lambda (tr,te): te, StratifiedKFold(n_splits=5, shuffle=True).split(np.zeros(N), reduce(lambda a,b: a+b, map(lambda (c,s): [c]*len(s), cats.items()))))
	stats = {'train': dict(), 'test': dict()}
	for cat, surfs in cats.items():
	print cat
	for i, (row, props, rates) in enumerate(surfs):
	for s in range(4):
	if i in splits[s]:
	mode = 0 # train
	fold = s
	break
	else:
	if i in splits[4]:
	mode = 1 # test
	fold = None
	else:
	raise 'index not in any split: %d' % i