Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_1.pdf
Search
MARUYAMA
February 28, 2017
0
100
intro_paper_1.pdf
MARUYAMA
February 28, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
150
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
170
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
160
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
140
20191028_literature-review.pdf
tmaru0204
0
140
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
120
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
150
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
130
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
130
Featured
See All Featured
Embracing the Ebb and Flow
colly
84
4.6k
Producing Creativity
orderedlist
PRO
344
40k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Making Projects Easy
brettharned
116
6k
A Philosophy of Restraint
colly
203
16k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
For a Future-Friendly Web
brad_frost
176
9.6k
Automating Front-end Workflow
addyosmani
1369
200k
How GitHub (no longer) Works
holman
314
140k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
GitHub's CSS Performance
jonrohan
1030
460k
Side Projects
sachag
452
42k
Transcript
新聞記事中の難解語を平易な表現へ 変換する手法の提案 自然言語処理研究室 B3 丸山 拓海 文献紹介: 芋野美紗子・吉村枝里子・土屋 誠司・渡部 広一
自然言語処理 Vol.20 No.2 p.105〜132 ※ 図, 表, 式は論文より引用
概要 新聞記事中の難解語を会話表現に見あった平易な表現に 変換する手法の提案 ・ 1語変換・N語変換を組み合わせて変換することの有効性 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ▪ 分かったこと ・
変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換
はじめに リソース : 新聞記事 ▪ ロボットに人間らしい会話を行わせる 「会話に用いられる言葉」と「新聞に用いられる言葉」 → 同じ意味を表すにしても, 難易度や馴染みの深さに違いがある
新聞記事中の難解な語を会話表現に見あった 平易な表現へと変換する手法
変換手法の概要 ▪ 単語親密度 : 単語に対する馴染みの度合い 人によって1〜7で評価した結果を平均化 ▪ 関係語辞書 (小島,渡部,河岡2001, 2002)
▪ 意味解析システム (篠原,渡 部,河岡 2002)
変換手法の概要
語概念連想 ▪ 概念ベース (奥村,土屋,渡部,河岡 2007) 見出し語の定義文に使 われる自立語群を属性として構築された知識ベース 複数の電子化国語辞書などの見出し語を概念と定義 概念A =
{(" , " ), ($ , $ ), · · · , (% , % )} & : 属性, & : 属性の重要性を表す重み
語概念連想 ▪ 関連度計算方式 ( ≤ ) 関連度 , 一致度 ,
が最大となるよう並べ替え 対応付けされなかった属性については無視
語概念連想 ▪ EMDを用いた記事関連度計算方式 文書A中の自立語23 ,文書B中の自立語45 の離散分布と考える 自立語それぞれに重みの付与 ・ TF ・
概念ベースIDF (奥村,小島,渡部,河岡 2005) (N = 3) 自立語23 へ付与する重み EMD : 一方からもう一方の分布への変換を行う際の最小コス ト
語概念連想 ▪ EMDを用いた記事関連度計算方式 変換コストの算出 23 と45 の距離2345 EMDの値の最小値を最適化計算で求めて文書間の類似性を算出 Ex.)
変換手法の概要
語変換処理 (NTTコミュニケーション科学研究所 1997) ▪ 難解語の判別 ▪ 変換方法の判別 ノード名「具体物」 : N
語変換 そ れ以外 : 1語変換 : 1文に対して形態素解析 単語の単語親密度により判別 : シソーラス 閾値 : 5.82
語変換処理 ▪ 1語変換 : 難解語の同義語・類義語 を変換候補語 (関係語辞書) 変換前の語と比べて平易 → 単語親密度
意味が同じ語 → 関連度計算方式
語変換処理 ▪ N語変換 : 国語辞書(松村 1995)に記載された語の 定義文を候補文 多義語の意味推定 → 記事関連度計算方式
語変換処理 ▪ N語変換 ・ 不要語リスト ・ 意味解析システム : 人手でリスト化 :
入力された文を,6W1H と用言に分類し, 分類が重複した場合に不要部分を削除 Ex.) 〜の別名, または, など, こと
提案手法の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決 ▪平易性の評価 提案手法 1語変換:76語 N語変換:173語 1語変換
48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可
提案手法の評価 提案手法 1語変換:76語 N語変換:173語 1語変換 48.1% (99語)変換不可 N語変換 7.3% (15語)変換不可
▪意味保持性の評価 朝日新聞から取得した50記事からランダムに選んだ記事文 1567語のうち, 単語親密度により難解語と判断された249語 3名(男性2名,女性1名)による多数決
まとめ ・ 難解語を平易な表現へ変換する手法を提案 ・ 語概念連想による意味の保持 ・ 変換すべき難解語を75.7%の精度で平易な表現に変換 ・ 変換すべき難解語を81.1%の精度で正しい意味を保持した表現に変換 ・
1語変換・N語変換を組み合わせて変換することの有効性
変換例