seanbehan · February 24, 2018 13:44
diff --git a/get-words-from-epubs.py b/get-words-from-epubs.py
 from glob import glob
 from os.path import basename
 from zipfile import ZipFile, is_zipfile
 from re import findall
 from nltk.corpus import words

 ROOT_PATH = '/Volumes/USB20FD/downloads/*.epub'
 WORDS = set(words.words())

 groups = (group for group in zip(*(iter(glob(ROOT_PATH)),)*100))
 zips = ((ZipFile(file) for file in group if is_zipfile(file)) for group in groups)
 files = (((z.open(f.filename).read() for f in z.infolist() if '.html' in f.filename) for z in zip) for zip in zips)
 texts = ((((WORDS & set(findall(r'[\w]+', t.lower()))) for t in txt) for txt in text) for text in files)

 corpus = set()
 for text in texts:
    for txt in text:
        for t in txt:
            corpus = (corpus | t)
    print (float(len(corpus)) / float(len(WORDS)))*100
    print "-"*75
	from glob import glob
	from os.path import basename
	from zipfile import ZipFile, is_zipfile
	from re import findall
	from nltk.corpus import words

	ROOT_PATH = '/Volumes/USB20FD/downloads/*.epub'
	WORDS = set(words.words())

	groups = (group for group in zip((iter(glob(ROOT_PATH)),)100))
	zips = ((ZipFile(file) for file in group if is_zipfile(file)) for group in groups)
	files = (((z.open(f.filename).read() for f in z.infolist() if '.html' in f.filename) for z in zip) for zip in zips)
	texts = ((((WORDS & set(findall(r'[\w]+', t.lower()))) for t in txt) for txt in text) for text in files)

	corpus = set()
	for text in texts:
	for txt in text:
	for t in txt:
	corpus = (corpus \| t)
	print (float(len(corpus)) / float(len(WORDS)))*100
	print "-"*75
No results found