intro_paper_1.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
February 28, 2017
62

 intro_paper_1.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

February 28, 2017
Tweet

Transcript

  1. 新聞記事中の難解語を平易な表現へ 変換する手法の提案 自然言語処理研究室 B3 丸山 拓海 文献紹介: 芋野美紗子・吉村枝里子・土屋 誠司・渡部 広一

    自然言語処理 Vol.20 No.2 p.105〜132 ※ 図, 表, 式は論文より引用
  2. 概要 新聞記事中の難解語を会話表現に見あった平易な表現に 変換する手法の提案 ・ 1語変換・N語変換を組み合わせて変換することの有効性 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ▪ 分かったこと ・

    変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換
  3. はじめに リソース : 新聞記事 ▪ ロボットに人間らしい会話を行わせる 「会話に用いられる言葉」と「新聞に用いられる言葉」 → 同じ意味を表すにしても, 難易度や馴染みの深さに違いがある

    新聞記事中の難解な語を会話表現に見あった 平易な表現へと変換する手法
  4. 変換手法の概要 ▪ 単語親密度 : 単語に対する馴染みの度合い 人によって1〜7で評価した結果を平均化 ▪ 関係語辞書 (小島,渡部,河岡2001, 2002)

    ▪ 意味解析システム (篠原,渡 部,河岡 2002)
  5. 変換手法の概要

  6. 語概念連想 ▪ 概念ベース (奥村,土屋,渡部,河岡 2007) 見出し語の定義文に使 われる自立語群を属性として構築された知識ベース 複数の電子化国語辞書などの見出し語を概念と定義 概念A =

    {(" , " ), ($ , $ ), · · · , (% , % )} & : 属性, & : 属性の重要性を表す重み
  7. 語概念連想 ▪ 関連度計算方式 ( ≤ ) 関連度 , 一致度 ,

    が最大となるよう並べ替え 対応付けされなかった属性については無視
  8. 語概念連想 ▪ EMDを用いた記事関連度計算方式 文書A中の自立語23 ,文書B中の自立語45 の離散分布と考える 自立語それぞれに重みの付与 ・ TF ・

    概念ベースIDF (奥村,小島,渡部,河岡 2005) (N = 3) 自立語23 へ付与する重み EMD : 一方からもう一方の分布への変換を行う際の最小コス ト
  9. 語概念連想 ▪ EMDを用いた記事関連度計算方式 変換コストの算出 23 と45 の距離2345 EMDの値の最小値を最適化計算で求めて文書間の類似性を算出 Ex.)

  10. 変換手法の概要

  11. 語変換処理 (NTTコミュニケーション科学研究所 1997) ▪ 難解語の判別 ▪ 変換方法の判別 ノード名「具体物」 : N

    語変換 そ れ以外 : 1語変換 : 1文に対して形態素解析 単語の単語親密度により判別 : シソーラス 閾値 : 5.82
  12. 語変換処理 ▪ 1語変換 : 難解語の同義語・類義語 を変換候補語 (関係語辞書) 変換前の語と比べて平易 → 単語親密度

    意味が同じ語 → 関連度計算方式
  13. 語変換処理 ▪ N語変換 : 国語辞書(松村 1995)に記載された語の 定義文を候補文 多義語の意味推定 → 記事関連度計算方式

  14. 語変換処理 ▪ N語変換 ・ 不要語リスト ・ 意味解析システム : 人手でリスト化 :

    入力された文を,6W1H と用言に分類し, 分類が重複した場合に不要部分を削除 Ex.) 〜の別名, または, など, こと
  15. 提案手法の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決 ▪平易性の評価 提案手法 1語変換:76語 N語変換:173語 1語変換

    48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可
  16. 提案手法の評価 提案手法 1語変換:76語 N語変換:173語 1語変換 48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可

    ▪意味保持性の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決
  17. まとめ ・ 難解語を平易な表現へ変換する手法を提案 ・ 語概念連想による意味の保持 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ・ 変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換 ・

    1語変換・N語変換を組み合わせて変換することの有効性
  18. 変換例