Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_1.pdf
Search
MARUYAMA
February 28, 2017
0
100
intro_paper_1.pdf
MARUYAMA
February 28, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
140
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
170
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
150
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
140
20191028_literature-review.pdf
tmaru0204
0
130
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
120
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
140
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
130
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
130
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Docker and Python
trallard
43
3.2k
Designing Experiences People Love
moore
139
23k
Building Your Own Lightsaber
phodgson
104
6.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
950
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.6k
Typedesign – Prime Four
hannesfritz
40
2.5k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Documentation Writing (for coders)
carmenintech
67
4.5k
Code Reviewing Like a Champion
maltzj
521
39k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
YesSQL, Process and Tooling at Scale
rocio
170
14k
Transcript
新聞記事中の難解語を平易な表現へ 変換する手法の提案 自然言語処理研究室 B3 丸山 拓海 文献紹介: 芋野美紗子・吉村枝里子・土屋 誠司・渡部 広一
自然言語処理 Vol.20 No.2 p.105〜132 ※ 図, 表, 式は論文より引用
概要 新聞記事中の難解語を会話表現に見あった平易な表現に 変換する手法の提案 ・ 1語変換・N語変換を組み合わせて変換することの有効性 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ▪ 分かったこと ・
変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換
はじめに リソース : 新聞記事 ▪ ロボットに人間らしい会話を行わせる 「会話に用いられる言葉」と「新聞に用いられる言葉」 → 同じ意味を表すにしても, 難易度や馴染みの深さに違いがある
新聞記事中の難解な語を会話表現に見あった 平易な表現へと変換する手法
変換手法の概要 ▪ 単語親密度 : 単語に対する馴染みの度合い 人によって1〜7で評価した結果を平均化 ▪ 関係語辞書 (小島,渡部,河岡2001, 2002)
▪ 意味解析システム (篠原,渡 部,河岡 2002)
変換手法の概要
語概念連想 ▪ 概念ベース (奥村,土屋,渡部,河岡 2007) 見出し語の定義文に使 われる自立語群を属性として構築された知識ベース 複数の電子化国語辞書などの見出し語を概念と定義 概念A =
{(" , " ), ($ , $ ), · · · , (% , % )} & : 属性, & : 属性の重要性を表す重み
語概念連想 ▪ 関連度計算方式 ( ≤ ) 関連度 , 一致度 ,
が最大となるよう並べ替え 対応付けされなかった属性については無視
語概念連想 ▪ EMDを用いた記事関連度計算方式 文書A中の自立語23 ,文書B中の自立語45 の離散分布と考える 自立語それぞれに重みの付与 ・ TF ・
概念ベースIDF (奥村,小島,渡部,河岡 2005) (N = 3) 自立語23 へ付与する重み EMD : 一方からもう一方の分布への変換を行う際の最小コス ト
語概念連想 ▪ EMDを用いた記事関連度計算方式 変換コストの算出 23 と45 の距離2345 EMDの値の最小値を最適化計算で求めて文書間の類似性を算出 Ex.)
変換手法の概要
語変換処理 (NTTコミュニケーション科学研究所 1997) ▪ 難解語の判別 ▪ 変換方法の判別 ノード名「具体物」 : N
語変換 そ れ以外 : 1語変換 : 1文に対して形態素解析 単語の単語親密度により判別 : シソーラス 閾値 : 5.82
語変換処理 ▪ 1語変換 : 難解語の同義語・類義語 を変換候補語 (関係語辞書) 変換前の語と比べて平易 → 単語親密度
意味が同じ語 → 関連度計算方式
語変換処理 ▪ N語変換 : 国語辞書(松村 1995)に記載された語の 定義文を候補文 多義語の意味推定 → 記事関連度計算方式
語変換処理 ▪ N語変換 ・ 不要語リスト ・ 意味解析システム : 人手でリスト化 :
入力された文を,6W1H と用言に分類し, 分類が重複した場合に不要部分を削除 Ex.) 〜の別名, または, など, こと
提案手法の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決 ▪平易性の評価 提案手法 1語変換:76語 N語変換:173語 1語変換
48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可
提案手法の評価 提案手法 1語変換:76語 N語変換:173語 1語変換 48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可
▪意味保持性の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決
まとめ ・ 難解語を平易な表現へ変換する手法を提案 ・ 語概念連想による意味の保持 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ・ 変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換 ・
1語変換・N語変換を組み合わせて変換することの有効性
変換例