iamalbert · September 29, 2016 08:43
diff --git a/normalizeText.py b/normalizeText.py
 FULL2HALF = {
    r'　' : r' ',  # full space and halfspace
    r'！' : r'!', r'＂' : r'"', r'＃' : r'#', r'＄' : r'$', r'％' : r'%',
    r'＆' : r'&', r'＇' : r"'", r'（' : r'(', r'）' : r')', r'＊' : r'*',
    r'＋' : r'+', r'，' : r',', r'－' : r'-', r'．' : r'.', r'／' : r'/',
    r'０' : r'0', r'１' : r'1', r'２' : r'2', r'３' : r'3', r'４' : r'4',
    r'５' : r'5', r'６' : r'6', r'７' : r'7', r'８' : r'8', r'９' : r'9',
    r'：' : r':', r'；' : r';', r'＜' : r'<', r'＝' : r'=', r'＞' : r'>',
    r'？' : r'?', r'＠' : r'@', r'Ａ' : r'A', r'Ｂ' : r'B', r'Ｃ' : r'C',
    r'Ｄ' : r'D', r'Ｅ' : r'E', r'Ｆ' : r'F', r'Ｇ' : r'G', r'Ｈ' : r'H',
    r'Ｉ' : r'I', r'Ｊ' : r'J', r'Ｋ' : r'K', r'Ｌ' : r'L', r'Ｍ' : r'M',
    r'Ｎ' : r'N', r'Ｏ' : r'O', r'Ｐ' : r'P', r'Ｑ' : r'Q', r'Ｒ' : r'R',
    r'Ｓ' : r'S', r'Ｔ' : r'T', r'Ｕ' : r'U', r'Ｖ' : r'V', r'Ｗ' : r'W',
    r'Ｘ' : r'X', r'Ｙ' : r'Y', r'Ｚ' : r'Z', r'［' : r'[', r'＼' : '\\',   # since r'\' is a syntax error
    r'］' : r']', r'＾' : r'^', r'＿' : r'_', r'｀' : r'`', r'ａ' : r'a',
    r'ｂ' : r'b', r'ｃ' : r'c', r'ｄ' : r'd', r'ｅ' : r'e', r'ｆ' : r'f',
    r'ｇ' : r'g', r'ｈ' : r'h', r'ｉ' : r'i', r'ｊ' : r'j', r'ｋ' : r'k',
    r'ｌ' : r'l', r'ｍ' : r'm', r'ｎ' : r'n', r'ｏ' : r'o', r'ｐ' : r'p',
    r'ｑ' : r'q', r'ｒ' : r'r', r'ｓ' : r's', r'ｔ' : r't', r'ｕ' : r'u',
    r'ｖ' : r'v', r'ｗ' : r'w', r'ｘ' : r'x', r'ｙ' : r'y', r'ｚ' : r'z',
    r'｛' : r'{', r'｜' : r'|', r'｝' : r'}', r'～' : r'~',
 }

 _FULL2HALF = { ord(h): f for h,f in FULL2HALF.items() }

 def full2half(s):
    return s.translate(_FULL2HALF)
 def normalizedText(sent):
    sent = re.sub(URL_REG, "<URL>", sent)
    sent = html.unescape(sent)
    sent = HanziConv.toTraditional(full2half(sent))

    sent = re.sub(r"((.)\2{3,})", r"\2\2\2", sent)
    sent = re.sub(r"\s+", r" ", sent)

    arr = re.findall(LING_REG, sent)
    isCJK = [ re.match(CJK_REG, chunk) for chunk in arr ]

    char = []
    seg = []

    for i, chunk in enumerate(arr):
        if isCJK[i]:
            seg.extend( jieba.cut(chunk) )
            char.extend( chunk )
        else:
            if chunk == " ":
                if 0 < i < len(arr)-1 and isCJK[i-1] and isCJK[i+1]:
                    seg.append( chunk )
                    char.append( chunk )
            else:
                seg.append( chunk )
                char.append( chunk )

    return char, seg
	FULL2HALF = {
	r'　' : r' ', # full space and halfspace
	r'！' : r'!', r'＂' : r'"', r'＃' : r'#', r'＄' : r'$', r'％' : r'%',
	r'＆' : r'&', r'＇' : r"'", r'（' : r'(', r'）' : r')', r'＊' : r'*',
	r'＋' : r'+', r'，' : r',', r'－' : r'-', r'．' : r'.', r'／' : r'/',
	r'０' : r'0', r'１' : r'1', r'２' : r'2', r'３' : r'3', r'４' : r'4',
	r'５' : r'5', r'６' : r'6', r'７' : r'7', r'８' : r'8', r'９' : r'9',
	r'：' : r':', r'；' : r';', r'＜' : r'<', r'＝' : r'=', r'＞' : r'>',
	r'？' : r'?', r'＠' : r'@', r'Ａ' : r'A', r'Ｂ' : r'B', r'Ｃ' : r'C',
	r'Ｄ' : r'D', r'Ｅ' : r'E', r'Ｆ' : r'F', r'Ｇ' : r'G', r'Ｈ' : r'H',
	r'Ｉ' : r'I', r'Ｊ' : r'J', r'Ｋ' : r'K', r'Ｌ' : r'L', r'Ｍ' : r'M',
	r'Ｎ' : r'N', r'Ｏ' : r'O', r'Ｐ' : r'P', r'Ｑ' : r'Q', r'Ｒ' : r'R',
	r'Ｓ' : r'S', r'Ｔ' : r'T', r'Ｕ' : r'U', r'Ｖ' : r'V', r'Ｗ' : r'W',
	r'Ｘ' : r'X', r'Ｙ' : r'Y', r'Ｚ' : r'Z', r'［' : r'[', r'＼' : '\\', # since r'\' is a syntax error
	r'］' : r']', r'＾' : r'^', r'＿' : r'_', r'｀' : r'`', r'ａ' : r'a',
	r'ｂ' : r'b', r'ｃ' : r'c', r'ｄ' : r'd', r'ｅ' : r'e', r'ｆ' : r'f',
	r'ｇ' : r'g', r'ｈ' : r'h', r'ｉ' : r'i', r'ｊ' : r'j', r'ｋ' : r'k',
	r'ｌ' : r'l', r'ｍ' : r'm', r'ｎ' : r'n', r'ｏ' : r'o', r'ｐ' : r'p',
	r'ｑ' : r'q', r'ｒ' : r'r', r'ｓ' : r's', r'ｔ' : r't', r'ｕ' : r'u',
	r'ｖ' : r'v', r'ｗ' : r'w', r'ｘ' : r'x', r'ｙ' : r'y', r'ｚ' : r'z',
	r'｛' : r'{', r'｜' : r'\|', r'｝' : r'}', r'～' : r'~',
	}

	_FULL2HALF = { ord(h): f for h,f in FULL2HALF.items() }

	def full2half(s):
	return s.translate(_FULL2HALF)
	def normalizedText(sent):
	sent = re.sub(URL_REG, "<URL>", sent)
	sent = html.unescape(sent)
	sent = HanziConv.toTraditional(full2half(sent))

	sent = re.sub(r"((.)\2{3,})", r"\2\2\2", sent)
	sent = re.sub(r"\s+", r" ", sent)

	arr = re.findall(LING_REG, sent)
	isCJK = [ re.match(CJK_REG, chunk) for chunk in arr ]

	char = []
	seg = []

	for i, chunk in enumerate(arr):
	if isCJK[i]:
	seg.extend( jieba.cut(chunk) )
	char.extend( chunk )
	else:
	if chunk == " ":
	if 0 < i < len(arr)-1 and isCJK[i-1] and isCJK[i+1]:
	seg.append( chunk )
	char.append( chunk )
	else:
	seg.append( chunk )
	char.append( chunk )

	return char, seg
No results found