magnusnissel · October 1, 2024 08:38 · KarimJedda · Oct 23, 2015 · KarimJedda · Oct 23, 2015
diff --git a/lexical_diversity_yule.py b/lexical_diversity_yule.py
 import collections
 import re

 def tokenize(s):
    tokens = re.split(r"[^0-9A-Za-z\-'_]+", s)
    return tokens

 def get_yules(s):
    """ 
    Returns a tuple with Yule's K and Yule's I.
    (cf. Oakes, M.P. 1998. Statistics for Corpus Linguistics.
    International Journal of Applied Linguistics, Vol 10 Issue 2)

    In production this needs exception handling.
    """
    tokens = tokenize(s)
    token_counter = collections.Counter(tok.upper() for tok in tokens)
    m1 = sum(token_counter.values())
    m2 = sum([freq ** 2 for freq in token_counter.values()])
    i = (m1*m1) / (m2-m1)
    k = 1/i * 10000
    return (k, i)
	import collections
	import re

	def tokenize(s):
	tokens = re.split(r"[^0-9A-Za-z\-'_]+", s)
	return tokens

	def get_yules(s):
	"""
	Returns a tuple with Yule's K and Yule's I.
	(cf. Oakes, M.P. 1998. Statistics for Corpus Linguistics.
	International Journal of Applied Linguistics, Vol 10 Issue 2)

	In production this needs exception handling.
	"""
	tokens = tokenize(s)
	token_counter = collections.Counter(tok.upper() for tok in tokens)
	m1 = sum(token_counter.values())
	m2 = sum([freq ** 2 for freq in token_counter.values()])
	i = (m1*m1) / (m2-m1)
	k = 1/i * 10000
	return (k, i)