schaunwheeler · May 6, 2020 16:39 · iridiumblue · Apr 27, 2019
diff --git a/doc_to_spans.py b/doc_to_spans.py
 from spacy import load as spacy_load

 # This loads the largest English corpus, which must be downloaded
 # separate from package installation. Other choices are available.
 nlp = spacy_load('en_core_web_lg')


 def doc_to_spans(list_of_texts, join_string=' ||| '):
    all_docs = nlp(' ||| '.join(list_of_texts))
    split_inds = [i for i, token in enumerate(all_docs) if token.text == '|||'] + [len(all_docs)]
    new_docs = [all_docs[(i + 1 if i > 0 else i):j] for i, j in zip([0] + split_inds[:-1], split_inds)]
    return new_docs
	from spacy import load as spacy_load

	# This loads the largest English corpus, which must be downloaded
	# separate from package installation. Other choices are available.
	nlp = spacy_load('en_core_web_lg')


	def doc_to_spans(list_of_texts, join_string=' \|\|\| '):
	all_docs = nlp(' \|\|\| '.join(list_of_texts))
	split_inds = [i for i, token in enumerate(all_docs) if token.text == '\|\|\|'] + [len(all_docs)]
	new_docs = [all_docs[(i + 1 if i > 0 else i):j] for i, j in zip([0] + split_inds[:-1], split_inds)]
	return new_docs