prrao87 · May 24, 2020 06:07
diff --git a/preprocess_joblib.py b/preprocess_joblib.py
 from joblib import Parallel, delayed

 def chunker(iterable, total_length, chunksize):
    return (iterable[pos: pos + chunksize] for pos in range(0, total_length, chunksize))

 def flatten(list_of_lists):
    "Flatten a list of lists to a combined list"
    return [item for sublist in list_of_lists for item in sublist]

 def process_chunk(texts):
    preproc_pipe = []
    for doc in nlp.pipe(texts, batch_size=20):
        preproc_pipe.append(lemmatize_pipe(doc))
    return preproc_pipe

 def preprocess_parallel(texts, chunksize=100):
    executor = Parallel(n_jobs=7, backend='multiprocessing', prefer="processes")
    do = delayed(process_chunk)
    tasks = (do(chunk) for chunk in chunker(texts, len(df_preproc), chunksize=chunksize))
    result = executor(tasks)
    return flatten(result)
	from joblib import Parallel, delayed

	def chunker(iterable, total_length, chunksize):
	return (iterable[pos: pos + chunksize] for pos in range(0, total_length, chunksize))

	def flatten(list_of_lists):
	"Flatten a list of lists to a combined list"
	return [item for sublist in list_of_lists for item in sublist]

	def process_chunk(texts):
	preproc_pipe = []
	for doc in nlp.pipe(texts, batch_size=20):
	preproc_pipe.append(lemmatize_pipe(doc))
	return preproc_pipe

	def preprocess_parallel(texts, chunksize=100):
	executor = Parallel(n_jobs=7, backend='multiprocessing', prefer="processes")
	do = delayed(process_chunk)
	tasks = (do(chunk) for chunk in chunker(texts, len(df_preproc), chunksize=chunksize))
	result = executor(tasks)
	return flatten(result)