Skip to content

Instantly share code, notes, and snippets.

@polm
Created July 30, 2020 10:19
Show Gist options
  • Save polm/b305d500df28f190e346d50447682ec6 to your computer and use it in GitHub Desktop.
Save polm/b305d500df28f190e346d50447682ec6 to your computer and use it in GitHub Desktop.
mecab-python3で-Ochasenを再現する方法
# -Ochasen の出力フォーマットを直接指定する
import MeCab
import ipadic
CHASEN_ARGS = r' -F "%m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n"'
CHASEN_ARGS += r' -U "%m\t%m\t%m\t%F-[0,1,2,3]\t\t\n"'
tagger = MeCab.Tagger(ipadic.MECAB_ARGS + CHASEN_ARGS)
print(tagger.parse("図書館にいた事がバレた"))
# 出力
"""
図書館 トショカン 図書館 名詞-一般
に ニ に 助詞-格助詞-一般
いた事 イタコト いた事 名詞-一般
が ガ が 助詞-格助詞-一般
バレ バレ バレる 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
EOS
"""
@polm
Copy link
Author

polm commented Jul 31, 2023

因みにこのやり方は非推奨です。fugashiを使うと辞書の各フィールドを簡単に取得できるので、わざわざTSVを処理する必要がありません。ipadicも10年ほど放置されているので非推奨です。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment