#正規化
- 制御文字の変換もしくは除去
- 全角-半角英数字の変換
- 半角英数字の大文字 - 文字変換
- 全角-半角カタカナの変換
- Unicode正規化
- http://ja.wikipedia.org/wiki/Unicode%E6%AD%A3%E8%A6%8F%E5%8C%96
- http://www.javainthebox.net/laboratory/JavaSE6/normalizer/normalizer.html
- 情報ソース固有の文字列
- Twitter(@, RT, etc…)
- URL
- EDICT(カタカナ <-> 英語)
- http://www.csse.monash.edu.au/~jwb/edict.html
- 表記ゆれ辞書
- http://www2.ninjal.ac.jp/lrc/index.php?%A1%D8%C9%BD%B5%AD%C5%FD%B9%E7%BC%AD%BD%F1%A1%D9
- http://tansi.sourceforge.jp/
- スペルチェック
- 類似度(編集距離)ベース
- http://wiki.apache.org/lucene-java/SpellChecker
- WordNet
- http://nlpwww.nict.go.jp/wn-ja/
- Wikipedia
- http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8
- 他にも色々ありそうだけれど思いつかない