Skip to content

Instantly share code, notes, and snippets.

View polm's full-sized avatar

Paul O'Leary McCann polm

View GitHub Profile
@polm
polm / chasen.py
Created July 30, 2020 10:19
mecab-python3で-Ochasenを再現する方法
# -Ochasen の出力フォーマットを直接指定する
import MeCab
import ipadic
CHASEN_ARGS = r' -F "%m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n"'
CHASEN_ARGS += r' -U "%m\t%m\t%m\t%F-[0,1,2,3]\t\t\n"'
tagger = MeCab.Tagger(ipadic.MECAB_ARGS + CHASEN_ARGS)
print(tagger.parse("図書館にいた事がバレた"))
# 出力
1. Transformersを使う場合
最新版のTransformersはそもそもmecab-python3を使っていません。こちらを実行してください。
pip install transformers[ja]
2. Neologdを使う場合
mecab-python3のバージョンが古いです。まずmecab-python3を更新します。
@polm
polm / fugashi-exe.md
Created July 16, 2021 14:04
PythonでMeCabを含むexeを作る方法

PythonでMeCabを含むexeを作る方法

Linuxで動作確認済みです。

まずvirtualenvでpipで必要なライブラリをインストールします。fugashiを使用していますがこの場合mecab-python3でも変わりません。

# MeCab関係
pip install fugashi unidic-lite
# EXEを作成するやつ

pip install pyinstaller

@polm
polm / check.py
Created October 12, 2021 10:59
Check differences with degree tokenization changes
# script to test degree tokenization related changes.
# https://github.com/explosion/spaCy/pull/9155
import spacy
langs = ("af am ar az bg bn ca cs da de el en es et eu fa fi fr ga grc gu he hi "
"hr hu hy id is it ja kn ko ky lb lij lt lv mk ml mr nb ne nl pl pt ro "
"ru sa si sk sl sq sr sv ta te th ti tl tn tr tt uk ur vi xx yo zh").split()
check = ("°c °f °k °C °F °K °c. °f. °k. °C. °F. °K. 1°c 1°f 1°k 1°C 1°F 1°K 1°c. "
"1°f. 1°k. 1°C. 1°F. 1°K.").split()