tfdf.py
- 各単語のTerm Frequency, Document Frequencyを計算する。
- MeCab, mecab-ipadic-neologdによる分かち書きを行う。
- 動詞は原形に変換してから集計する。
- アルファベットはスペースで分割し、小文字に変換する。
- 記号のみの単語や、平仮名・片仮名のみからなる1文字の単語は削除する。
tfdf_kana.py
tfdf.py
の原形変換部分を、元の表現のまま平仮名に変換する処理に置換してから集計したもの。
df_song.py
tfdf.py
により求めたdf上位150件の単語を多く含む楽曲を集計する。
df_song_kana.py
df_song.py
のdf集計時の処理をtfdf_kana.py
と同じロジックにしたもの。
歌詞テキストの整形(テキストの文字コードがUTF-8かつスペースを含まないファイル名なら不要)
$ brew install nkf rename
$ find . -name "*.txt" -print0 | xargs -0 nkf -w --overwrite
$ rename 's/ /_/g' *
MeCabのインストール
$ brew install mecab
$ pip3.4 install mecab-python3
MeCab用辞書のインストール
$ brew install git curl xz
$ git clone --depth 1 [email protected]:neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n
$ ls
aqours_heroes.txt mattete.txt tfdf.py
...
$ python3.4 tfdf.py tf > tf.md
$ python3.4 tfdf.py df > df.md