Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パターン認識と自然言語処理の 技術を用いた ライティング自動評価の試み

パターン認識と自然言語処理の 技術を用いた ライティング自動評価の試み

シンポジウム「第二言語ライティング研究の現代的課題 ―アジア圏英語学習者コーパスから考える」(2012年12月15日、中央大学)

Yuichiro Kobayashi

December 15, 2012
Tweet

More Decks by Yuichiro Kobayashi

Other Decks in Research

Transcript

  1. 自己紹介 2 •  小林雄一郎(こばやし ゆういちろう) –  日本学術振興会 特別研究員 (PD) –  立命館大学 衣笠総合研究機構 研究員 – 

    学術博士(言語文化学、大阪大学) •  現在の主な研究テーマ –  パターン認識と自然言語処理の技術を用いた習熟度判 定(科学研究費補助金) –  データマイニングによる誤り分析と辞書開発に向けた基 礎研究(立命館大学研究推進プログラム) –  統計処理環境Rを用いたテキストマイニング技術(趣味)      etc.
  2. 自己紹介 3 •  最近は、日本語の計量分析も。。。 –  現代文学の著者推定 –  古典文学における個人文体とジャンル文体の関係 –  方言データにおけるアクセント推定

    –  政治家の演説の時系列分析 –  日本語作文の特徴分析 –  大規模均衡コーパスにおけるジャンル分析 –  アニメのスクリプトを用いたソーシャルネットワーク分析    etc. etc.
  3. 自動評価の方法 6 •  英語力テスト –  熟練した教師や採点者が、学習者の英作文や発話を評 価するという形式 –  熟練した採点者を育成するには、かなりの時間が必要 – 

    いかに熟練した採点者たちが厳密な基準に基づいて評 価を下したとしても、複数の採点者の評価が一致しないこ ともある •  客観的な評価基準と統計モデルを用いて習熟度を 推定する技術を開発することは、非常に有意義
  4. 自動評価の方法 8 •  自動評価システムの信頼性 –  コンピュータが確率的に評価をするので、ときに間違えた り、人間による評価結果と一致しないこともある –  しかし、人間同士の結果も一致するとは限らない – 

    どれがコンピュータによる評価? (Page 2003)
 (表中の値は、相関係数) A B C D E A .51 .51 .44 .57 B .51 .53 .56 .61 C .51 .53 .48 .49 D .44 .56 .48 .49 E .57 .61 .49 .59 答えは、Cが コンピュータ
  5. 自動評価の方法 9 •  自然言語処理 –  電子化された言語データから、単語、構文、文法、意味、 談話、誤りなどの言語情報を自動的に抽出 •  パターン認識 – 

    あらかじめ用意した正解データ
 と分析項目(e.g. 特徴表現リス
 ト)から、ライティングの評価基
 準を自動的に抽出 –  その基準に基づいて、未知の
 データを自動的に評価
  6. 自動評価の方法 11 •  説明変数の重要性 –  どのような分類手法を使うかより、何を手がかり(説明変 数)として評価を行うかが重要 –  言い換えれば、説明変数は分析の「視点」 NNS

    NS NNS NNS NNS NNS NS NS NS NS 視点A 視点 B NNS グループ NS グループ NNS NS NNS NNS NNS NNS NS NS NS NS 視点A 視点 B NNS グループ NS グループ 最も各グループが分 離して見える「視点」 を探すことが重要   【イメージ図】    NSとNNSの2グループの 英作文を自動分類
  7. 自動評価の方法 12 •  英作文の評価 –  テキスト全体に対する評定者の印象に基づく全体的評価 (holistic scoring) –  作文を語彙や文法などの項目別に評定していく分析的評

    価 (analytical scoring) –  ある特定の要因(修辞的特徴など)がどの程度作文に反 映されているかを基準とする特定要因の評価 (primary trait scoring) –  このうち、比較的実用性が高く、多くのテストや評価で使 用されているのは全体的評価 –  英作文の自動採点システムにおいても、表面的な特徴を 用いた英作文の全体的評価
  8. 自動評価の方法 13 •  杉浦 (2008) –  自由英作文における様々な言語的特徴を算出し、英語教 育の専門家による評価スコアを予測する重回帰モデルを 作成 – 

    流暢さを表す総語数、統語的複雑さを表す文あたりの従 属節数と平均文長、談話的特徴を表す文あたりの接続語 句数が評価スコアに影響を与えていると報告 •  水本 (2008) –  専門家による評価スコアを予測する重回帰モデルを作成 –  総語数、Flesch-Kincaid Grade Level、平均単語長が予測 に役立つと報告
  9. 自動評価の方法 14 •  今回の実験 –  日本人大学生の英作文を対象 –  表面的な特徴を説明変数 –  ランダムフォレストで自動評価

    (pilot study) •  別の実験で用いた説明変数 –  使用語彙の意味情報(e.g. 小林・金丸 2012) –  構文情報・文法情報(e.g. 小林・田中・冨浦 2012) –  談話情報(e.g. 小林・田中・冨浦 2011)      etc. –  初級者の英作文評価には表面的特徴、中級者には構文 情報、上級者には談話情報が有効であるという印象
  10. 自動評価の方法 15 •  ランダムフォレスト (Breiman 2001) –  1) 与えられたデータセットから、N 組のブートストラップサ

    ンプルを作成 –  2) 各々のブートストラップサンプルデータを用いて、未剪 定の最大の決定・回帰木を生成(但し、分岐のノードは、 ランダムサンプリングされた変数のうち最善のものを使 用) –  3) 全ての結果を統合し(回帰問題では平均、分類問題で は多数決)、新しい予測・分類器を構築      ↓ –  ランダムフォレスト = 決定木 + アンサンブル学習
  11. 自動評価の方法 17 •  アンサンブル学習 –  必ずしも精度の高くない分類器を複数組み合わせること で、分類精度を向上させる手法      ↓ –  つまりは、こういうこと

    ... •  「三人寄れば文殊の知恵」(日本語) •  「三個臭皮匠、賽過一個諸葛亮」(中国語) •  "Two heads are better than one"(英語)
  12. 自動評価の方法 18 Tree  1 Tree  2 … Tree  N Forest

    Result  1 Result  2 … Result  N Sample  1 Sample  2 … Sample  N and we or our also but then may ・ ・ ・ CLASS 1 1.67 1.70 0.19 0.15 0.22 0.37 0.07 0.32 ・ ・ ・ jp 2 2.61 1.63 0.26 0.26 0.33 0.00 0.00 0.07 ・ ・ ・ jp 3 2.92 0.52 0.73 0.24 0.10 0.14 0.49 0.17 ・ ・ ・ jp 4 3.45 0.78 0.33 0.62 0.21 0.08 0.08 0.12 ・ ・ ・ jp 5 1.99 0.19 0.56 0.00 0.08 0.04 0.08 0.15 ・ ・ ・ jp 6 2.51 1.12 0.37 0.34 0.16 0.08 0.08 0.23 ・ ・ ・ jp ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 301 2.49 1.03 0.23 0.33 0.05 0.14 0.56 0.09 ・ ・ ・ us 302 1.94 1.25 0.34 0.28 0.19 0.06 0.09 0.06 ・ ・ ・ us 303 3.00 0.45 0.39 0.22 0.15 0.13 0.05 0.10 ・ ・ ・ us 304 2.66 1.18 0.63 0.54 0.16 0.39 0.15 0.18 ・ ・ ・ us 305 2.25 0.64 0.25 0.24 0.21 0.11 0.24 0.07 ・ ・ ・ us 306 2.53 0.82 0.66 0.18 0.22 0.13 0.19 0.10 ・ ・ ・ us Training  data Random  Forest(s) Ensemble  learning Regression  /  classifica>on Bootstrap
  13. 自動評価の方法 19 •  ランダムフォレストの利点 –  1) 精度が高い –  2) 大きいデータに効率的に作用し、何百・何千の変数を

    扱うことができる –  3) 分類に用いる変数の重要度を推定する –  4) 欠損値の推測、多くの欠損値を持つデータの正確さの 維持に有効である –  5) 分類問題における各クラスの個体数がアンバランスで あるデータにおいてもエラーのバランスが保たれる –  6) 外的基準がないデータにも適用できる(個体の類似度 の計算など)       etc.
  14. 実験データ 21 •  日本人大学生による課題英作文 –  合計69本 –  国立大学の学部2年生を対象 –  2011年の10月から11月にかけて、2回に分けて収集

    –  Criterionのサイトで提供されているTOEFL形式の問題サ ンプルから、“expository essay”と“persuasive essay”の 問題を1問ずつ選出して使用 –  指定語数は300語から350語 –  制限時間30分 –  自動評価システムであるe-raterによる評価を受け、評価 に満足しない場合には、一度だけ同じ条件でe-raterによ る評価を参考に英作文を書き直すことが可能
  15. 実験データ 22 •  作文課題 –  “New Product” (expository essay) – 

    Question: If you could invent something new, what product would you develop? Use specific details to explain why this invention is needed. –  “Money on Technology” (persuasive essay) –  Question: Some people think that governments should spend as much money as possible on developing or buying computer technology. Other people disagree and think that this money should be spent on more basic needs. Which one of these opinions do you agree with? Use specific reasons and details to support your answer.
  16. 実験データ 23 •  Criterion –  非営利団体であるETS (Educational Testing Service) が

    提供しているライティング指導におけるフィードバック支援 ツール –  ETSにより開発されたTOEFLテストのライティング自動採 点システムe-rater –  利用者の英作文をe-raterが10秒以内に採点 –  英作文中の誤りを「構成(organization & development)」、 「文体 (style)」、「構造(mechanics)」、「語法 (usage)」、「文 法 (grammar)」の5つの観点から分析 –  Criterionの与えるフィードバックと教師によるフィードバッ クの相関は、0.97 (Attali & Burstein 2006) や0.64~0.67 (Weigle 2010)
  17. 実験データ 25 •  実験データの概要 –  全体的に評価の高い作文が多い –  今回提出された英作文の中には評価が1点のものはなし –  自動判定実験では一般的に300本以上の作文データが

    必要 (Elliot 2003) と言われるが、それよりもかなり少ない –  説明変数:12種類の言語的特徴(後述) –  目的変数:e-raterによる5段階のレベル L2 L3 L4 L5 L6 3 (4.45%) 8 (11.59%) 17 (24.64%) 33 (47.83%) 8 (11.58%)
  18. 実験データ 26 –  (1) 総語数 (Token) –  (2) 異語数 (Type)

    –  (3) 異語率 (TTR) –  (4) 平均単語長 (MLW) –  (5) 平均文長 (MLS) –  (6) 助動詞の頻度 (Modal) –  (7) 冠詞の頻度 (Article) –  (8) 代名詞の頻度 (Pronoun) –  (9) 等位接続詞の頻度 (Coordinate) –  (10) 従属接続詞の頻度 (Subordinate) –  (11) 関係詞の頻度 (Relative) –  (12) 受動態の頻度 (Passive) 12種類の言語的特徴 を説明変数に
  19. 評価実験 27 •  はじめに –  本実験の結果は、以下の論文として、すでに公開:
 
 小林雄一郎・金丸敏幸 (2012) 「パターン認識を用いた課

    題英作文の自動評価の試み」 『電子情報通信学会技術 研究報告』 vol.112, no.3 (pp. 37-42). –  また、本研究の一部は、以下の研究課題の成果:
 
 日本学術振興会・科学研究費補助金(特別研究員奨励 費(PD実験)) 「パターン認識と自然言語処理の技術を用 いた習熟度判定」(2012〜2014年度)
  20. 評価実験 28 •  Pearsonの積率相関係数 –  目的変数との相関係数が高い説明変数 •  Token (0.83) • 

    Type (0.78) •  TTR (0.60) –  説明変数間の相関係数 •  TokenとTTR (0.70) •  MLWとPronoun (-0.69)
  21. 評価実験 29 •  ランダムフォレスト –  木の数は500 分類モデルにおいて、 TokenとTypeの寄与度が 極めて高い  

    (=e-­‐raterにおいて、   これらの項目が   重要視されている) TOEFLの評価者も、通常は まず語数を見るという報告   (e.g.  Erdosy  2004)
  22. 評価実験 31 •  クラスタリング –  ランダムフォレスト
 の結果に基づく多
 次元尺度法 左側にレベル2~4が、  

    右側にレベル5~6があり、   両者の間に一定の隔たり が存在することが分かる
  23. 評価実験 32 •  ランダムフォレストによる習熟度の自動推定 –  OOB (out-of-bag) による交差妥当化 –  62.32%の精度

    L2 L3 L4 L5 L6 accuracy L2 1 2 0 0 0 0.33 L3 0 0 7 1 0 0.00 L4 0 3 8 6 0 0.47 L5 0 0 2 31 0 0.94 L6 0 0 0 5 3 0.37
  24. 評価実験 33 •  語数の差に関する質的分析(一部) –  語数の差は、そのまま議論の展開の深さにも関係 –  レベル4以下の英作文では十分に話題を展開できず、文 同士の順接関係が単調なものが多い – 

    逆接や例示も見られるものの、一文で完結しているもの が大半 –  例えば、“for example”で始めていながら、例示した内容 について議論を展開することなく、その文だけで例示が終 わってしまう –  レベル4以下の英作文では、作文テーマに関連する語が 繰り返し使われている
  25. 今後の展望 35 •  データ収集 –  今年度もデータを増やす予定
 (データ提供者、絶賛募集中!) –  同じデータを人間が評価 • 

    予測モデルの精錬 –  説明変数 –  分類手法 •  結果の見せ方 –  対話的なフィードバック
  26. 今後の展望 36 •  今後の課題 –  究極的に、分類モデルの精度を追求するか?
 (「自動採点」という観点では、精度が非常に重要) –  それとも、分類モデルの可読性を重視するか?
 (「フィードバック」という観点では、分かりやすいモデルが

    重要)      ↓ •  そもそも、「良い作文」とは、一体何なのか? –  これを定義できないと、分類モデルにおける説明変数と 目的変数を設定できない –  逆に、これさえ定義できれば、あとは、分類モデルにデー タを渡すだけ
  27. 今後の展望 37 •  主要参考文献 –  小林 雄一郎・金丸 敏幸 (2012). 「パターン認識を用いた

    課題英作文の自動評価の試み」 『電子情報通信学会技 術研究報告』 112(103) (pp. 37-42) –  小林 雄一郎・金丸 敏幸 (2012). 「Coh-Metrixとパターン 認識を用いた課題英作文の自動評価」 『人文科学とコン ピュータシンポジウム論文集―つながるデジタル・アーカ イブ』 (pp. 259-266) –  小林 雄一郎・田中 省作・冨浦 洋一 (2011). 「メタ談話標 識を素性とするパターン認識を用いた英語科学論文の質 判定」 『人文科学とコンピュータシンポジウム論文集 ―「デジタル・アーカイブ」再考』(pp. 51-58)