Skip to content

Instantly share code, notes, and snippets.

@yswallow
Created June 19, 2015 04:29
Show Gist options
  • Select an option

  • Save yswallow/aa382ac3e7b365266ed7 to your computer and use it in GitHub Desktop.

Select an option

Save yswallow/aa382ac3e7b365266ed7 to your computer and use it in GitHub Desktop.

日本語入力システムの予測変換辞書を用いた文書圧縮

動機

  • 入力が楽→入力する文字数が少ない→入力した文字と変換キーを押した回数を記録すれば(文字列については)高効率に圧縮できるんじゃね?
  • 圧縮したあとの文字列も日本語風になるからそれを既存の圧縮方式でさらに圧縮することも可能(?)

実装

  • 入力文字は半角カナで、変換キー押下回数はそのまま数字で。英数字や珍しい漢字、特異な顔文字は制御文字に挟んで平文で。

Google IMEがクローズドソースだった場合

  • 入力中の文字はJavaScriptで取得できる(検索サイトのように
  • 出力もキーボードをエミュレートすればできる
  • 問題は_変換中の候補をどうやって取得するか_

Google IMEはオープンソース

google/mozc 内部のAPIを叩けば実装できそう(?)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment