Upgrade to Pro — share decks privately, control downloads, hide ads and more …

intro_paper_1.pdf

MARUYAMA
February 28, 2017
100

 intro_paper_1.pdf

MARUYAMA

February 28, 2017
Tweet

Transcript

  1. 語概念連想 ▪ 関連度計算方式 ( ≤ ) 関連度 , 一致度 ,

    が最大となるよう並べ替え 対応付けされなかった属性については無視
  2. 語概念連想 ▪ EMDを用いた記事関連度計算方式 文書A中の自立語23 ,文書B中の自立語45 の離散分布と考える 自立語それぞれに重みの付与 ・ TF ・

    概念ベースIDF (奥村,小島,渡部,河岡 2005) (N = 3) 自立語23 へ付与する重み EMD : 一方からもう一方の分布への変換を行う際の最小コス ト
  3. 語変換処理 (NTTコミュニケーション科学研究所 1997) ▪ 難解語の判別 ▪ 変換方法の判別 ノード名「具体物」 : N

    語変換 そ れ以外 : 1語変換 : 1文に対して形態素解析 単語の単語親密度により判別 : シソーラス 閾値 : 5.82
  4. 語変換処理 ▪ N語変換 ・ 不要語リスト ・ 意味解析システム : 人手でリスト化 :

    入力された文を,6W1H と用言に分類し, 分類が重複した場合に不要部分を削除 Ex.) 〜の別名, または, など, こと
  5. 提案手法の評価 提案手法 1語変換:76語 N語変換:173語 1語変換 48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可

    ▪意味保持性の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決