Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自動抽出した換喩表現を用いた係り受け関係のずれの解消
Search
nishi-k
September 21, 2016
0
240
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishi-k
September 21, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
900
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
150
画像検索を用いた語義別画像付き辞書の構築
nishiyama
0
120
質問応答に基づく対災害情報分析システム
nishiyama
0
190
対話システム
nishiyama
0
220
動詞名詞換言辞書の構築と敬語の常体への換言
nishiyama
0
390
情報検索2
nishiyama
0
69
2016/02/17 情報検索
nishiyama
0
110
文脈の解析
nishiyama
0
260
Featured
See All Featured
Creatively Recalculating Your Daily Design Routine
revolveconf
209
11k
It's Worth the Effort
3n
180
27k
4 Signs Your Business is Dying
shpigford
175
21k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
19
1.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
273
13k
For a Future-Friendly Web
brad_frost
171
8.9k
Adopting Sorbet at Scale
ufuk
67
8.6k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
5
1.5k
Build your cross-platform service in a week with App Engine
jlugia
225
17k
The Cult of Friendly URLs
andyhume
74
5.7k
Building Better People: How to give real-time feedback that sticks.
wjessup
354
18k
Become a Pro
speakerdeck
PRO
10
4.5k
Transcript
自動抽出した換喩表現を用いた 係り受け関係のずれの解消 長岡技術科学大学 自然言語処理研究室 学部4年 西山 浩気
参考文献 清 田 陽 司 , 黒 橋 禎
夫 , 木 戸 冬 子 , ,自動抽出した換喩表現を用いた係り受け関係のずれの 解消,自然言語処理, Vol.11(2004), No.4, pp.127-145 2
概要 質問応答によって収集したユーザー質問文を含むコー パスの中から換喩表現とその解釈表現を自動抽出 抽出した情報をユーザー質問文とテキストのマッチング に応用する方法を提案 ユーザー質問文とテキスト文の間の係り受け関係のずれを解 消
抽出された換喩表現と換喩解釈表現ペアの大半は適切 提案手法によってマッチングの精度が改善 3
はじめに テキストを知識源とする質問応答システムでは ユーザーの質問に対して、テキスト中から答えを見つける ただし、質問が曖昧な場合は答えの候補を全て提示すると ユーザーの満足が得られない ⇒ ユーザーの質問を具体化させる質問を返す必要がある
このような質問はテキスト中のユーザー質問とマッチした部分 の周りに存在する 質問に対してテキストからの正確なマッチングが必要 4
ダイアログナビにおける ユーザー質問文とテキストのマッチング手法 前処理 一部の品詞を除外、 JUMANにおける原型を マッチング対象とする 同義語表現辞書
2文節以上のフレーズ レベルのものも含んだ 同義表現をグループ化 6
ユーザー質問文とテキストのマッチング手法 係り受けを考慮したスコア計算(m: 係り受けに対する重み) 7
換喩表現の自動抽出 8 対象とする換喩表現と換喩解釈表現 (α)換喩表現 名詞 + 格助詞
⇒ 用言 (β)換喩解釈表現 名詞 (の) ⇒ 名詞 + 格助詞 ⇒ 用言 例: (α) GIF を 表示する (β) GIF (の) 画像を 表示する ユーザー質問文データベースから自動抽出 1,351,981文から(α) (β) のパターンに一致する文章の頻度が それぞれ3以上のペアを抽出 1,126個の換喩表現・換喩解釈ペアを獲得
抽出された換喩表現・換喩解釈ペアの評価 9 獲得した表現のペアをグループ化 単一解釈表現:679 グループ 例:電源を入れる [
電源スイッチを入れる ] 複数解釈表現:168グループ , 447ペア 例:エラーが出る [ エラー表示が出る、エラー報告がでる ] 評価 換喩表現と換喩解釈表現から想定される状況が一致するも のに◦ 提案手法によって得られた換喩解釈表現以外の解釈をBγ と して列挙
10
抽出された換喩表現・換喩解釈ペアの評価 11 換喩表現グループを以下のいずれかの評価に分類 A 全てのペアの評価が◦、 他の解釈(Bγ) が存在しない
B 全てのペアの評価が◦、 他の解釈(Bγ) が存在する C 評価に×が混在、 他の解釈(Bγ) が存在しない D 評価に×が混在、 他の解釈(Bγ) が存在する E 全てのペアの評価が×
テストセット ヘルプ集のテキスト : 31文 サポート技術情報のテキスト: 140文
評価尺度 n: 入力された質問文に対 する正解テキスト数 R: 出力されたテキストの うちの正解テキストの順位 マッチングにおける有効性の評価 12
ベースライン:係り受け・同義表現辞書を用いたマッチング 提案手法:同義表現辞書に提案手法で抽出したペアを登録 全ユーザー質問文でのεの平均 マッチングにおける有効性の評価 13
Εを悪化させた表現ペア 14 (W1) ~ (W4) :適切でないペア (W4) ~
(W7):解釈としては適切、マッチング手法に問題 格の違いを考慮していないことによる誤り (カラ格とノ格) 「アクセス 」と 「(Windows) ACCESS 」(製品名)が同義語として登録
まとめ 15 大量のコーパスから換喩表現・換喩解釈ペアを自動的 に抽出し、マッチングに応用する方法を提案 質問応答システムを引き続き運用することで、さらに多くの換 喩表現・換喩解釈ペアの獲得が期待できる 提案手法で不適切な換喩の解釈表現が抽出されてしまう
換喩表現・換喩解釈ペアを意味的に分類し、一般的なモデル の構築につなげていく必要がある