youzaka · April 13, 2011 15:57
diff --git a/gistfile1.py b/gistfile1.py
 #!/usr/bin/env python2.6
 # -*- coding: utf-8 -*-

 import codecs
 import csv
 import os
 import re
 import sys

 directory = sys.argv[1]

 # "ㇷ゚"が2文字扱いされるので、一旦削除
 motoneta = list(u'アイウエオカクケシスツトヌハヒフヘホムヤユヨラリルレロワ')
 sutegana = list(u'ァィゥェォヵㇰヶㇱㇲッㇳㇴㇵㇶㇷㇸㇹㇺャュョㇻㇼㇽㇾㇿヮ')
 table = dict(zip(motoneta, sutegana))
 to_sutegana = lambda x: ''.join([table.get(char, char) for char in x])

 regex = re.compile(u'^[%s]+$' % ''.join(motoneta))

 total = set()
 count = dict()
 os.chdir(directory)
 for name in os.listdir(directory):
    if not name.endswith('.csv'):
        continue
    reader = csv.reader(codecs.open(name, 'r', 'euc_jp'))
    for item in reader:
        item = map(unicode, item)
        total.add(item[0])
        if regex.match(item[11]) and item[9] in (u'基本形', u'*') :
            count[item[0]] = item[11]

 for k, v in sorted(count.items(), key=lambda x: len(x[1])):
    print k, v, to_sutegana(v)

 print "%d / %d = %f %%" % (len(count), len(total), len(count) * 100.0 / len(total))
	#!/usr/bin/env python2.6
	# -- coding: utf-8 --

	import codecs
	import csv
	import os
	import re
	import sys

	directory = sys.argv[1]

	# "ㇷ゚"が2文字扱いされるので、一旦削除
	motoneta = list(u'アイウエオカクケシスツトヌハヒフヘホムヤユヨラリルレロワ')
	sutegana = list(u'ァィゥェォヵㇰヶㇱㇲッㇳㇴㇵㇶㇷㇸㇹㇺャュョㇻㇼㇽㇾㇿヮ')
	table = dict(zip(motoneta, sutegana))
	to_sutegana = lambda x: ''.join([table.get(char, char) for char in x])

	regex = re.compile(u'^[%s]+$' % ''.join(motoneta))

	total = set()
	count = dict()
	os.chdir(directory)
	for name in os.listdir(directory):
	if not name.endswith('.csv'):
	continue
	reader = csv.reader(codecs.open(name, 'r', 'euc_jp'))
	for item in reader:
	item = map(unicode, item)
	total.add(item[0])
	if regex.match(item[11]) and item[9] in (u'基本形', u'*') :
	count[item[0]] = item[11]

	for k, v in sorted(count.items(), key=lambda x: len(x[1])):
	print k, v, to_sutegana(v)

	print "%d / %d = %f %%" % (len(count), len(total), len(count) * 100.0 / len(total))
No results found