Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文情報を用いた名詞句の換言
Search
自然言語処理研究室
March 31, 2006
Research
1
65
構文情報を用いた名詞句の換言
山崎 敦. 構文情報を用いた名詞句の換言. 長岡技術科学大学課題研究報告書 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
自己教師あり学習による事前学習(CVIMチュートリアル)
naok615
2
1.4k
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
600
[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか
okoso
1
150
Prompt Tuning から Fine Tuning への移行時期推定
icoxfog417
17
6.8k
Alexander Mielke Hellinger--Kantorovich (a.k.a. Wasserstein-Fisher-Rao) Spaces and Gradient Flows
jjzhu
3
180
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
5
2k
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
研究効率化Tips_2024 / Research Efficiency Tips 2024
ryo_nakamura
4
2.2k
2024-01-23-az
sofievl
1
730
論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
nttcom
0
110
眠眠ガチャ:ガチャを活用した睡眠意欲向上アプリの開発 / EC71inui
yumulab
0
120
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
140
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
92
4.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
6.9k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
20
1.6k
Into the Great Unknown - MozCon
thekraken
10
980
How GitHub Uses GitHub to Build GitHub
holman
468
290k
Git: the NoSQL Database
bkeepers
PRO
422
63k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
658
120k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Designing for Performance
lara
601
67k
Large-scale JavaScript Application Architecture
addyosmani
503
110k
The Brand Is Dead. Long Live the Brand.
mthomps
48
28k
Transcript
1 構文情報を用いた名詞句の換言 長岡技術科学大学 電気系 自然言語処理研究室 山崎 敦 山本 和英 助教授
報告者 指導教員 2006 年 2 月 24 日
2 はじめに 句や文のような大きな単位での換言が必要 機械翻訳や要約、質問応答などの研究の前処理に使わ れている 様々な研究やシソーラスによって単語同士の換言は容 易になっている 利用者の要求にあった入力表現と同じ意味の表層上異 なる表現に変換する技術 換言
例) システムを生成する ⇔ システムを作る
3 目的 日本語にはある制約の下で換言が可能になる場合がある 念 気持ち 感謝の念を込める 感謝の気持ちを込める 制約の下で換言可能な単語を、文中で「同じ使われ方」を している語に換言の可能性があるという観点から名詞句 として抽出する
× 換言不可能 ◦ 換言可能
4 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
5 処理概要 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出
4. 対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ
6 前処理部 -1. 三つ組の収集 - 構文解析を行い、係り受け関係から [ 係り元文節:対象文節:係り先文節 ] の三つ組を抽出
• 特定の品詞で始まる文節 • 助詞 - 並立助詞で終わる文節 • 「名詞 or 未知語 + 読点」の文節 以下の条件に合う文節は除く 対象文節は固有名詞を除く名詞に限定 文中で同じ使われ方をしている箇所 係り受け関係を使用することで文脈を考慮
7 前処理部 -1. 三つ組の収集 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 例 ) NPO 等の情報交換の場を提供し、再利用を推進している 構文解析結果 抽出できる三つ組
8 前処理部 -2. 文節の整形 - 抽出した三つ組の「係り元文節」と「係り先文節」を整形 係り元文節 動詞を原形に変換し、助動詞を削除する。
係り先文節 • 助詞、記号を削除し、動詞を原形に変換する。 • 先頭から順に形態素を見て名詞、動詞、未知語ではない語 がきた場合その語とそれ以降を削除する。
9 前処理部 -2. 文節の整形 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] • [NPO 等の:情報交換の:場 ] • [ 情報交換の:場を:提供する ] • [ 場を:提供し、:推進する ] 抽出できた三つ組を整形 コーパス中の全ての文に前処理部の処理を行い、三 つ組データとして保持する
10 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
11 抽出部 -3. 換言候補の抽出 - 収集した三つ組の中で 「係り元文節」と「係り先文節」が同一な三つ組 から換言候補を抽出 情報交換の:機会を:提供する 情報交換の:
場を :提供する 情報交換の:場を ⇔ 機会を:提供する 「情報交換の」と「提供する」という制約の下 「場を ⇔ 機会を」という換言候補を抽出
12 抽出部 -4. 対象文節の整形 - 抽出した換言候補の「助詞」と「読点の有無」の同定 日本語は助詞によって文意が変化する 例 )
紙の消費 が 減る 紙の消費 を 減らす 助詞の一致は重要 対象文節の整形 助詞を削除する
13 抽出部 -4. 対象文節の整形 - 場 を 機会 を 場
⇔ 機会 ⇔ 情報交換の:場を ⇔ 機会を:提供する 制約 - 係り元文節:情報交換の - 係り先文節:提供する - 対象文節の助詞:を 情報交換の場を提供する 助詞、読点の有無の同定 換言候補 対象文節の整形 情報交換の機会を提供する
14 抽出部 -5. 共起確率の算出 - 換言対の妥当性をはかるため、共起確率を算出 C(s 1 ,s 2
,s 3 ) = P(s 1 ,s 2 |s 1 ) × P(s 2 ,s 3 |s 3 ) s 1 :係り元文節に出現する文節 s 2 :対象文節に出現する文節 s 3 :係り先文節に出現する文節 共起確率 「係り元文節から対象文節」と「係り先文節から対象 文節」への影響力 このスコアに閾値を設け、妥当性をはかる
15 実験と評価 使用したテキスト 本研究室が収集した Web 文書 - 約 485
万文 ( 約 390MB) 新聞 :特定の形式により書かれている Web 文書 :不特定多数により書かれている 表層的に異なる同義な単語を抽出し易い 評価方法 得られた換言対から無作為に 200 個抽出し、人手によ り評価
16 共起確率の閾値 換言対「 A ⇔ B 」の出現回数毎の精度 出現回数 換言対抽出数
4 1,564,395 10 83,956 41 6,448 57 551 69 102 精度 [%] 1回 2回 10-49回 50-99回 100回以上 出現回数毎に閾値を設定する必要がある 出現回数 2 回以上を対象 出現回数毎に無作為に 100 個抽出し、精度を求めた。
17 共起確率の閾値 閾値を出現回数毎に試行し決定 - 精度 : 60% 以上 -
抽出数: 1000 以上 出現回数 閾値 換言対抽出数 67 503 79 366 65 1,180 68 2,503 精度 [%] 2回 3 × 10-5 3回 1 × 10-5 4回 3 × 10-6 5回以上 3 × 10-6 決定した閾値
18 結果 抽出結果 - 換言対抽出数 : 4,552 個 -
精度 : 68 % 抽出した換言対のタイプ 正否 タイプ 15 30 16 7 不正解 32 比率 [%] 正解(68%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 制約の下で換言可能な名詞句 (B) - 全体の 30% - 正解の 43%
19 結果 抽出した換言対の例 制約は各々 3 つずつ示している 代謝 ⇔ 燃焼: 3
脂肪の:□を:促進する 脂肪の:□を:助ける 皮下脂肪の:□を:促進させる 準備 ⇔ 用意: 5 出掛ける:□を:する 食事の:□を:する 道具の:□を:する 生活 ⇔ 日常生活: 9 自立する:□を:送る 住民の:□を:直結する 充実する:□を:送れる ご協力 ⇔ 御協力: 12 皆様の:□を:頂く 方々の:□を:お願いする みなさんの:□を:賜わる B. 制約を付与することで換言可能 C. 包含関係 D. 表記揺れ A. 無条件で換言可能
20 考察 - 制約について (1/3)- 「効果 ⇔ 影響」 「効果 ⇔
威力」 名詞句として換言することで「効果」を適した単語に換言 影響 及ぼす:□を:分析する プラスの:□を:与える 威力 抜群の:□を:発揮する 優れる:□を:発揮 ? :効果を: ? 単語同士の換言対 制約の働き
21 考察 - 制約について (2/3)- B. 制約付与で換言可能に分類される中で制約として 係り元文節、係り先文節の片方があれば換言が可能 なもの
制約の存在が換言できる状況を限定している 例 ) 協定 ⇔ 契約 定める:□を:締結する 継続する:□を:締結する 例) 食材 ⇔ 味 旬の:□を:吟味する 旬の:□を:活かす
22 考察 - 制約について (3/3)- 制約として働かない 例 ) 場合
⇔ 必要 傾向 ⇔ 場合 傾向 ⇔ 必要 とる:□を:ある 名詞句として換言不可能 • 「とる」、「ある」のような制約の弱いものはさらに係り元 文節をみるなど制約を強く • 共起確率の閾値があまり有効に働いていない △ を とる □ を ある 例)
23 考察 - 抽出数について - コーパス量 100% で抽出数が飽和していない 三つ組の量は十分ではない コーパス量を変化させて実験
24 提案手法の応用 提案手法: [ 係り元文節:対象文節:係り先文節 ] の三つ組が必要 文頭文節と文末文節を対象にできない 名詞句としての抽出ではないが提案手法の応用実験 文頭文節
[ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 文末文節 [ 係り元文節のさらに係り元文節:係り元文節:対象文節 ]
25 提案手法の応用 NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 文末文節
[ 場を:提供し、:推進している ] 文頭文節 [NPO 等の:情報交換の:場を ] 文末文節に関しては助詞がほぼ無いため、「助詞、読点の 有無の同定」および「対象文節の整形」は行わない 例)
26 結果 - 文頭文節の実験 - 文頭文節の実験結果 - 抽出数 :
496 個 - 精度 : 34% 正否 タイプ 12 6 12 4 不正解 66 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 ご要望 ⇔ ご利用 □ に:あわせる:お選びいただける □ に:応じる:用意する
27 考察 - 文頭文節の実験 - 抽出数について 文頭文節: 「私は、彼は」等の代名詞 形容詞的な働きをする文節
接続詞 これらは対象文節として抽出することはできない 抽出数が減少 精度について [ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 2 つの語が直接的な関係ではなく、間接的な関係 対象文節を抽出する影響力が弱い
28 結果 - 文末文節の実験 - 文末文節の実験結果 - 抽出数 :
3,019 個 - 精度 : 44% 正否 タイプ 21 11 5 11 不正解 52 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 クリックしてください ⇔ 押して下さい フォームに:入力して:□ 戻る:ボタンを:□
29 考察 - 文末文節の実験 - 正解について 「入力する」という動作を表す文節 「フォームに」という目的を表す文節 係り元文節の意味を特定
制約を厳しくすることで正解 精度について 例 ) クリックします ⇔ 戻って下さい ボタンを:クリックして:□ 「ボタンをクリックしてクリックします」という文 三つ組を抽出する際に文節をまたいで抽出 間違いを抽出する要因 これらの処理を提案手法に施すことで精度は上がる
30 関連研究 関根 (2001) 異なる新聞記事から同じ報道をしている記事を抽出し、固有 表現を手がかりに換言表現を抽出する手法 木村ら (2001)
単語の表層的な特徴から似ている表現を探し出すことで換言 表現を抽出する手法 - コーパスから文を抽出する精度 - 利用可能なコーパスが限られる - 単語の表層的な情報だけでははかれない換言も存在 している
31 おわりに • 制約が無くても換言可能、もしくは制約が片方でも換言 可能な場合の制約の処理 • 共起確率の閾値の再検討 • 出現回数 1
回への対応 名詞句の換言対抽出手法を提案 • 68% の精度で換言対を抽出 • 正解の 43% が制約の下で換言可能な名詞句 • 字面などでは判断できないような名詞句の換言を抽出 • 内容に関わらず三つ組を収集できるためコーパスの制限 がない 問題点
32 おわり
33 考察 - 表記揺れについて - 例 ) 「お時間 ⇔ 時間」
接頭詞を除いた換言対 「かた」 「肩、方、片 … etc 」 特定することができない 例 ) 方 ⇔ かた ご存知の:□も:いる 保護者の:□を:対象 制約を利用することで平仮名の漢字を特定できる
34 考察 - 制約について (2/3)- 例 ) 世界 ⇔ 幅
作品の:□を:広げる 遊びの:□を:広げる 自分の:□を:広げる 係り先文節が同一だから制約か 「幅を広げる」 長さを指す 横の幅を広げる 制約として係り元文節と係り先文節の片方が同義な 文節だとしても制約として決められない 横の世界を広げる
35 考察 - 制約について (3/3)- 「とる」や「ある」は削除していいのか 例 ) 可能性
⇔ 恐れ できなくなる:□が:ある 悪化する:□が:ある 例 ) 感じ ⇔ 気 危険な:□が:する あいまいな:□が:する 係り先文節に「ある」: 152/156 係り先文節に「する」: 144/144 「ある」や「する」にのみ係る文節も存在 一概に削除して良いとは限らない