Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 研究概要(2013年)

自然言語処理研究室 研究概要(2013年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 質問意図によるQAサイト質問文の自動分類 1.目的  回答者が答えやすい質問を見つけるための支援 として質問文を質問者の意図ごとに事実、根拠、提案、 経験、意見の5タイプに自動で分類する 2.手法  ・あるキーワードを含んでいた場合該当するタイプに質問文を分類する  ・人手で分類を行った質問文を使い、頻度で語にスコアをつけ、それを使用して分類を行う 3.実験 Yahoo!知恵袋に投稿された質問からランダムに抽出した質問文のうち、人手でひとつの質問文に複数の質問が含ま

    れていないと判断した1509文を上記の2つの手法で自動分類した。スコアによる分類はそのままのスコアのものと、ス コアを正規化したものの2つの方法で行った 4.結果  キーワード分類ではキーワードを1つしか設定できなかった経験が精度、再現率ともに低かった、スコアによる分類 では正規化することにより全体的な精度、再現率の向上が見られたが、事実の高スコアになる語は質問文に全体的 に用いられるような語ではなく、より正確なスコアを出すためにはより多くのデータが必要になり、本手法では正確な 分類は困難であることがわかった 事実:答えが明確に1つに決まる質問 根拠:理由・根拠についての質問 提案:オススメを聞くような質問 経験:経験に基づいた回答を求める質問 意見:意見や考えを聞くような質問 キーワード分類の精度と再現率 0 20 40 60 80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 スコア正規化後の精度・再現率 0 20 40 60 80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度 再現率 スコアでの分類の精度・再現率 0 20 40 60 80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率
  2. ൃ଍ ࣙ೚ ىૌ େਓ޲͚ޠኮ ৽ฉ೥ؒ૯ޠኮ਺ ໿ສޠ ࢝ΊΔ ΍ΊΔ ͏ͬͨ͑Δ ࢠͲ΋޲͚ޠኮ

    ֶशجຊޠኮ  ޠ খֶ ࠃޠࣙయ ࠃޠࣙయ খֶੜͷಡղࢧԉʹ޲͚ͨ ෳ਺ͷ׵ݴ஌ࣝΛซ༻ͨ͠ޠኮฏқԽͱධՁ ʲഎܠʳֶश్্ͷࢠͲ΋͸ཧղͰ͖Δޠኮ਺͕େਓΑΓ΋গͳ͍ ʲ໨తʳޠኮ੍ݶʹΑͬͯେਓ޲͚จॻΛࢠͲ΋޲͚ʹฏқԽ ʲख๏ʳ׵ݴʹΑֶͬͯशجຊޠኮ΁ޠኮ੍ݶ ʲ࣮ݧʳখֶࠃޠࣙయɾࠃޠࣙయɾγιʔϥε͔Β׵ݴରΛ֫ಘ ɹɹɹɹ׵ݴର৅ɿ৽ฉʹසग़͢Δֶशجຊޠኮʹؚ·Εͳ͍ޠ ɹɹɹɹඃݧऀɿখֶੜߴֶ೥̑ਓʢ׵ݴ݁ՌΛධՁʣ ʲ݁ՌʳͷޠΛֶशجຊޠኮ΁׵ݴՄೳ ɹɹɹɹ׵ݴͰ͖ͨޠͷ͏ͪΛա൒਺ͷඃݧऀ͕ཧղՄೳ ɹɹɹɹඃݧऀͷա൒਺͕৽ฉͷͷจΛཧղՄೳ ׵ݴʹΑΔޠኮ੍ݶ ෳ਺ͷ׵ݴ஌ࣝ γιʔϥε
  3. 常識表現となり得る用言の自動選定の検討 目的:    本研究では自然言語処理で利用可 能な常識知識ベースを構築すること を目的とする.その構築にあたり,常 識として適切な用言(動詞,形容詞, サ変名詞)を選定する. 常識表現の自動選定:  

     まず,Web日本語Nグラムの7グラム中で共起する名詞と動作性表現のペアを抽出する.次に,共起する用言の 異なり数が多い順に名詞をソートし,上位N件毎に用言の出現パターンを調査する.   TF(a,n) = log 2 n a,n +1 ( ) log 2 n k,n k ∑ ( ) n=1,000  (x=0~1,000,  y=1~2,256) 出現名詞数が多い 出現名詞数が少ない 共起する用言の異なり数上位1000件及び全ての名詞における用言の出現分 布を左図に示す(横軸:用言の出現名詞数,縦軸:用言の異なり数 (対数))  .本 研究では,出現名詞数が多い用言を常識として不適切なものとして除外する.   Nの変化に伴う削除用言数の変化を左図下に示す,削除される用言数は階段 状に変化しており,グラフ上の特異点から,名詞毎の削除用言数が決定される.   n=655,038    (x=0~116,746,  y=1~1724) Nの増加に伴い,出 現名詞数が多い用 言が少なくなる 各名詞に対する用言(=常識)の付与:    名詞nに対する用言nを,Harman正規化した TF値で重み付けする.計算式を下式に示す.   いぬ  小学校       散歩   入学      しつける  教育     病気   卒業       つれる  授業       くらす   受験     訓練   かよう     ほえる   学習    かわいい  指導   常識の定義:    名詞と文中で共起して,その名詞を特徴づける用言の集合を,その名詞 に対する常識と定義する.常識は以下の性質を持つ.   1.  名詞nとの共起頻度が高いほど,その常識である可能性が高い.   2.  どのような名詞とも共起する用言は,常識として不適切.   3.  用言aが名詞nの常識として適切か否かは,その名詞と共起する用言の      異なり数に依存する. 名詞に付与される用言の例を 左図に示す.結果から,名詞 の常識として適切な用言が付 与されている事が分かる. x=0~4,000,  y=10~10,000(対数) 階段的に      減少
  4. 「やさしい日本語」書き換えシステムの構築 1. 研究背景 「やさしい日本語」とは、日本に在住していて日本語ができない外国人のための必要 最低限の日本語である。本研究では「やさしい日本語」への書き換えシステムの概要と、書き換えの評 価実験について述べる。 2. 研究目的 「やさしい日本語」書き換えシステムの構築 3.

    システム概要 システムは(1)重要部分の抽出(2)短文化(3)表現意図を用いた図示への変換(4)「や さしい日本語」への変換の4工程で構成した。 4. 変換手法 「やさしい日本語コーパス」から作成した公的文書と各「やさしい日本語」の変換対を 用い、より長いフレーズ、より出現頻度の多いフレーズ、そして公的文書側をsortした順で変換候補と した。 5. 評価実験 「やさしい日本語」コーパス から40文抽出し、公的文書-逐語訳の対を 用いて変換した。出力を日本語母語話者1名 が文法、意味の観点から評価した。 6. 評価結果 意味も文法も問題がないもの が18文、どちらかに問題があるものが14文、 両方ともに問題があるものが8文であった。 原因はほとんどの変換を形態素情報なしに 行っていることにあり、改善してシステムを より効果的なものへしていきたい。
  5. ௨ৗͰ͸ࡉ෼Խ͞Εͯ͠·͏Α͏ͳෳ߹໊ࢺͳͲΛ෼ׂ୯Ґͱͯ͠औಘ ɹྫʣ ɹܞଳి࿩ɼೋʓʓʓ೥౓ɼۚ༥ػؔɼϕϯνϟʔاۀ ݁Ռ ೔ܦ৽ฉهࣄ  ೥෼ʢ  هࣄʣΛ༻͍ͯ෼ׂ୯ҐΛऔಘ ࣮ݧ

    ग़ݱ͢Δશͯͷจࣈྻʹରͯ͠ ௕͞ͱग़ݱස౓ͷੵʹΑΔείΞ෇͚ ख๏ ෼ׂ୯Ґͷ Ϧετ ೖྗςΩετ ෼͔ͪॻ͖Λߦ͏ͨΊͷ෼ׂ୯ҐΛ ౷ܭ৘ใͷΈΛ༻͍ͯࣗಈऔಘ ໨త  ݴޠॲཧͷࡍʹ͸ςΩετதͷจ͸ܗଶૉ΍จઅͳͲʹ෼ׂ͞ΕΔ  ෼ׂͷࡍͷᐆດੑղফͷͨΊ͠͹͠͹ڭࢣ͋Γֶश͕༻͍ΒΕΔ  ৽͍͠ޠɾදݱͷग़ݱʹରԠ͠ʹ͍͘  ෼ׂج४͕ෳ਺͋ΓɼԿΛ΋ͬͯਖ਼ղͱ͢Δ͔͕ᐆດ എܠ จࣈྻͷग़ݱස౓৘ใΛ༻͍ͨ ɹ෼͔ͪॻ͖୯Ґͷࣗಈऔಘ
  6. Automa'c  selec'on  of  predicates  for  common  sense  knowledge  expression  

       We  aim  at  a  construc'on  of  easy-­‐to-­‐use  Japanese  common  sense  knowledge  base  for  seman'c  analysis  in  natural   language  processing.  We  define  that  predicates  (verbs,  adjec'ves,  verbal  noun*1)  which  co-­‐occur  with  a  noun  are  the   common  sense  knowledge  of  the  noun,  but  of  course,  all  of  the  predicates  which  co-­‐occurs  with  noun  are  not   appropriate  as  common  sense  knowledge.  Hence,  we  describe  how  to  select  the  appropriate  predicates. *1:  The  term  verbal  noun,  or  what  we  call  sahen  noun,  is  subgroup  of  noun  which  is  also  used  as  verb  when  followed  by  a  suffix  “suru” Defini&on  of  common  sense  knowledge        We  define  the  predicates  characterizing  the  noun  as  common   sense  knowledge,  and  make  the  following  hypothesis  as  specific   property  of  them.   (1)  The  predicate  a  is  the  common  sense  knowledge  of  the  noun   n  when  the  pair  of  a  and  n  are  frequently  co-­‐occurred  in   sentences.   (2)  The  predicate  a  which  co-­‐occurs  with  any  noun  is  not  the   appropriate  common  sense  knowledge  because    the  noun  is   characterized  by  the  set  of  common  sense  knowledge.   (3)  Whether  the  predicate  a  is  a  correct  common  sense  or  not,  it   depends  on  the  number  of  unique  nouns  which  co-­‐occurred   with  a. Automa&c  selec&on  of  predicates        First,  we  extract  the  pairs  of  noun  and   predicate  which  are  co-­‐occurred  in  the  Web   texts,  and  sort  the  nouns  by  number  of  co-­‐ occurring  predicates  based  on  the  hypothesis  (1).   The  figure  shows  the  emergence  distribu'on  of   predicate  in  the  top  1,000  nouns  (N=1,000).  As   the  emergence  distribu'on,  we  realize  that  the   number  of  unique  predicates  drama'cally   increase  when  a  number  of  unique  nouns  is   extremely  large  or  few.        Under  the  hypothesis  (2),  we  see  the   predicates  which  co-­‐occurred  with  any  nouns  as   incorrect  common  sense.        The  noun  which  co-­‐occurred  with  many   predicates  also  have  a  lot  of  dele'ng  predicates   under  the  hypothesis  (3).  As  a  inves'ga'on   result,  the  number  of  dele'ng  predicates   decrease  in  a  staircase  paUern,  and  there  are   singular  points  in  N=700,  1,100,  1,600,  2,500  or   3,600.  Hence,  we  decided  the  number  of  dele'ng   predicates  for  each  noun  based  on  the  result. 0" 500" 1000" 1500" 2000" 2500" 0" 200" 400" 600" 800" 1000" Containing  the  incorrectly   predicates  based  on  hypothesis  (2) confidence  for   as  the  common   sense  based  on   the  hypothesis   (1) high low horizontal  axis:  a  number  of  unique  nouns   co-­‐occurring  with  predicates   ver'cal  axis:  a  number  of  unique  predicates
  7. ・・・ professor ・・・ 【professor】People of status as professor. 【professor】Status as

    professor. 【professor】Teach learning and skill. 【professor】University teacher. Japanese Dictionary Original Sentence People Status Professor Learning Skill University Teacher ᶅ/PVOTBSFFYUSBDUFE Basic Vocabulary to Learn People Learning  University Skill Teacher  People Status Professor Learning Skill University Teacher :0.17 :0.11  :0.08 :0.13 :0.25 ᶆ4JNQMFXPSETBSFFYUSBDUFE ᶇ4JNJMBSJUJFTPGNFBOJOHBSFDBMDVMBUFE ᶃ%J⒏DVMUXPSEJTFYUSBDUFE ᶄ&OUSJFTPGUIFQSPGFTTPSBSFTFBSDIFE 4FMFDUJOH1SPQFS-FYJDBM1BSBQISBTFGPS$IJMESFO
  8. ର༁ίʔύε͔Βੜ੒ͨ͠ϫʔυάϥϑ ʹΑΔ෦෼తػց຋༁ ಡΈखͷਫ਼ਆతෛ୲ΛݮΒͨ͢Ίɺೖྗจͷ৘ใΛҰ෦མͱ ͯ͠΋ྑ͍ͷͰ୹͘؆ܿͳ຋༁Λ໨ࢦ͢ ೖྗจͱ෦෼తදݱΛड͚औΔ ର༁ίʔύεͷݪݴޠଆΛ෦෼ తදݱͰݕࡧ͠ɺϚονͨ͠ग़ྗݴ ޠଆͷจΛର༁จू߹ͱͯ͠நग़ ର༁จू߹ͷޠΛϊʔυɺޠͱ ޠͷܨ͕ΓΛΤοδͱͯ͠ϫʔυά

    ϥϑΛ࡞੒ ୯ޠ຋༁֬཰ͳͲΛߟྀͨ͠ॏ Έ෇͚Λ֤Τοδʹߦ͏ ࠷దͳग़ྗʢܦ࿏ʣΛ࠷୹ܦ࿏ ໰୊ͱͯ͠ղ͘ ग़ྗ݁Ռͷฏۉˋͷ෦෼͕ਖ਼ ղͱ͍͏຋༁ਫ਼౓ɻ୹͘ྲྀெͳ຋༁ Λग़ྗ͠ɺશ෦෼Λ຋༁͢Δैདྷͷ ຋༁ثΑΓ΋ਫ਼ਆతෛ୲͕ݮগɻ
  9. 役所からの公的文書に対する 「やさしい日本語」への変換システムの構築 背景:日本には十分な日本語能力を持たない外国人が数十万人いる。 目的:日本語初学者の公的文書の理解のため、容易に「やさしい日本語」を得ることができ るシステムを構築する。 システムの構成:  デザイン:文の分割(文をある1つの意味区切り[節]に分ける)、表現意図による図示への 変換(表現意図タグを用いて節の関係を図示)、重要部分の強調(重要な句を下線で強調) 

    変換:「やさしい日本語」への変換(公的文書と対になる「やさしい日本語」の訳から作成 された変換対を用いて「やさしい日本語」へ変換) 評価結果:  デザイン:文の分割(精度:97%)、 図示のためのタグ付け(精度:94%)、 重要部分の強調(精度:81%)  変換:変換前と変換後の評価文のやさしさ が同程度という評価が多いものの、日本語 初学者への効果が確認できた。 結論:システムの試作品の完成とともに、 日本語初学者への効果とルールの改善 の方針等が確認できた。
  10. 用言等換言辞書の構築  自然言語処理において、人の感覚に近い換言が求められている → しかし、現状、そのような換言が出来る言語資源は存在しない  従って、本研究では、人の感覚に近い換言を行うことの出来る言語 資源を辞書や他の言語資源に依らず構築した  換言例

    :” 和える” ごまと和える →    ごまと混ぜる →” 和える” ” は 混ぜる”に換言可能 このような対を考えて構築 作業対象語は 12,813 語で、このうち 10,336 組の換言対を作成  10,000 語ほどの人の感覚に近い新しい換言辞書の構築ができた → この辞書を用いた換言処理の結果をさらに観察し、 より良い換言が可能となるように手を加えることが必要である
  11. খֶੜͷಡղࢧԉʹ޲͚ͨ ޠऍจ͔Βޠኮత׵ݴΛબ୒͢Δख๏ খֶࠃޠࣙయ ֶशجຊޠኮ  ޠ ࢠͲ΋޲͚৽ฉ Ұൠ޲͚৽ฉ ೥ؒ૯ޠኮ਺ ໿ສޠ

    ʲେ٧Ίʳ ࣳډͷ࠷ޙͷ৔໘ େ٧ΊͷେҰ൪ ࠷ޙͷେҰ൪ ݟग़͠ޠͱͷ ྨࣅ౓Ͱબ୒ ස౓΍จ຺ͷ৘ใʹΑΔબ୒ΑΓ΋ɺྨࣅ౓ʹΑΔબ୒͕༗ޮ
  12. ノートパソコン ノートパソコン クエリ拡張のための換言可能な評価表現対の抽出 小さい 軽い 検索をもれなく行いたい 入力されたクエリを拡張してもれなく 検索できるようにしよう これは小さいので軽いです。 抽出できた表現対が因果関係にある

    表現同士かどうかを人手で検討 小さい 軽い 文章中の因果関係にある表現同士を収集 することでクエリ拡張に使えそう 理由を表す表現 因果関係にある 表現対として抽出 因果関係にある表現 理由を表す表現と評価表現との間に他の単語が入らない場合に限定するこ とにより高い精度で因果関係にある表現対を得ることができた。 因果関係にある表現とは、 • 係り受け関係にある • 理由を表す表現の前後に現れる • 評価表現 とした
  13. 1. 目的 回答者が答えやすい質問を見つけるための支援として質問文を 事実、根拠、提案、経験、意見、その他の 6 種に自動で分類する 2. 手法 ・あるキーワードを含んでいた場合該当する分類に質問を分類する ・人手で分類を行った質問文を使い、頻度を使って語の重み付けを行い、そのスコアを使用して分類を行う

    3. 実験 Yahoo!知恵袋に投稿された質問からランダムに抽出したもののうち、 人手で一つの質問文に複数の質問が含まれていないと判断した1509 文を上記の2つの手法で自動分類した 4. 結果 キーワード分類では事実、提案は精度、再現率ともに高いが、根拠は精度、意見は再現率が低く、経験はどちらも低い 語の頻度による分類では、キーワードによる分類に比べ提案、意見以外の精度が上がり、再現率は事実以外は90%以上、 事実も89.91%と非常によい結果が得られた 事実 根拠 提案 経験 意見 精度(%) 83.84 56.98 88.24 28.57 88.24 再現率(%) 86.61 90.27 93.75 5.26 13.57 事実 根拠 提案 経験 意見 精度(%) 99.80 79.07 66.67 37.37 83.67 再現率(%) 89.91 90.27 100.00 97.37 95.02 質問回答者のための質問文の自動分類 事実 :答えが明確に 1 つに決まる質問 根拠 :理由・根拠についての質問 提案 :ある物事についてのオススメについての質問 経験 :経験に基づいた回答を求める質問 意見 :回答者の意見を求める質問、アドバイス その他:上記に当てはまらないもの(回答のお礼など) キーワード分類 語の頻度による分類