Created
July 30, 2020 10:19
-
-
Save polm/b305d500df28f190e346d50447682ec6 to your computer and use it in GitHub Desktop.
mecab-python3で-Ochasenを再現する方法
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
# -Ochasen の出力フォーマットを直接指定する | |
import MeCab | |
import ipadic | |
CHASEN_ARGS = r' -F "%m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n"' | |
CHASEN_ARGS += r' -U "%m\t%m\t%m\t%F-[0,1,2,3]\t\t\n"' | |
tagger = MeCab.Tagger(ipadic.MECAB_ARGS + CHASEN_ARGS) | |
print(tagger.parse("図書館にいた事がバレた")) | |
# 出力 | |
""" | |
図書館 トショカン 図書館 名詞-一般 | |
に ニ に 助詞-格助詞-一般 | |
いた事 イタコト いた事 名詞-一般 | |
が ガ が 助詞-格助詞-一般 | |
バレ バレ バレる 動詞-自立 一段 連用形 | |
た タ た 助動詞 特殊・タ 基本形 | |
EOS | |
""" |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
因みにこのやり方は非推奨です。fugashiを使うと辞書の各フィールドを簡単に取得できるので、わざわざTSVを処理する必要がありません。ipadicも10年ほど放置されているので非推奨です。