Skip to content

Instantly share code, notes, and snippets.

@ymkjp
Last active August 29, 2015 14:22
Show Gist options
  • Select an option

  • Save ymkjp/8637a1ad70b648fe43dc to your computer and use it in GitHub Desktop.

Select an option

Save ymkjp/8637a1ad70b648fe43dc to your computer and use it in GitHub Desktop.

日本語文章の難易度推定システムの作成

内容

文中の語彙および係り受け解析を用いて与えられた日本語文章の難易度を推定する。 劉・内田 (2012) では語彙および2つの文節の係り受け距離を用いた難易度推定が提案され、評価実験では72.2%という精度を出している。しかし、特定レベルの教材での判定精度が46.7%にとどまっており、原因として構文解析器の精度の低さが指摘されているため、CaboCha, KNP, EDA, J.DepP などの精度を事前に比較調査する。 また、一文あたりの平均単語数および総単語数中の各レベルの単語数を元にした難易度判定式で 79% の精度を出している川村・北村 (2013) の手法も取り入れる。

研究の背景

現在、日本語学習の教材の作成には金銭的・時間的なコストがかかるため、十分な量の教材が用意されていない。 そこで、文章の難易度を推定できるシステムを作成することでWebのニュース記事などを自動的に難易度別に振り分け、学習者のレベルにあった文章を提供することができるようになる。

目的

与えられた文章の難易度を自動的に推定することにより、日本語学習の支援となる付加データを提供する。

方法

難易度を推定するにあたり、日本語能力試験の教科書および専門書と白書をコーパスとし、これらの文章から評価実験用のデータを除いて訓練データを用意する。 訓練データについて次の3つの指標を用いた重回帰分析を行い、難易度推定式を導出する。 1つめに、訓練データから形態素解析器 MeCab を用い単語の切り出しを行い、旧日本語能力試験の出題基準をもとにして、総単語数のうち各級の単語数の割合を求め、これを語彙の難易度の特徴量とする。 2つめに、一文あたりの平均単語数を特徴量とする。 3つめに、予備調査で精度の高かった構文解析器を用いて、訓練データから係り受けの距離と係り受けの総数を求める。短い距離の係り受け関係が多い文章は構文的に易しく、長い距離の係り受け関係が多い文章は難しいと考えられるため、係り受けの距離別に4つのカテゴリーに分け、それぞれの係り受けの数を総数で割ることでカテゴリー別の相対頻度を求め、これを構文の複雑さを表す特徴量とする。 上記の手順により得られた難易度推定式を評価実験用データで検証する。

参考文献

  • 川村よし子・北村達也, 日本語学習者のための文章の難易度判定システムの構築と運用実験, Journal CAJLE Vol.14, 18-30, CAJLE (2013)
  • 劉志宇・内田理, 日本語を学習する外国人を対象とした日本語テキスト難易度推定手法,情報処理学会研究報告 2011号, 1-5, 情報処理学会 (2012)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment