yokawasa · May 15, 2017 04:05
diff --git a/ud_normalize_ja.py b/ud_normalize_ja.py
 # -*- coding: utf-8 -*-
 import unicodedata

 """
 unicodedata.normalizeのNFKC（Normalization Form Compatibility Composition）で半角カタカナ、全角英数、濁音、特殊文字などなどを正規化
 """
 data = u"㈱㍉㌶ （％＆！？＠＃）ｶﾀｶﾅｻﾞｻﾞｻﾞｻﾞｻﾞｱ"
 normal = unicodedata.normalize('NFKD', data).encode('utf-8', 'ignore')
 print normal
	# -- coding: utf-8 --
	import unicodedata

	"""
	unicodedata.normalizeのNFKC（Normalization Form Compatibility Composition）で半角カタカナ、全角英数、濁音、特殊文字などなどを正規化
	"""
	data = u"㈱㍉㌶（％＆！？＠＃）ｶﾀｶﾅｻﾞｻﾞｻﾞｻﾞｻﾞｱ"
	normal = unicodedata.normalize('NFKD', data).encode('utf-8', 'ignore')
	print normal