Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文情報を用いた名詞句の換言
Search
自然言語処理研究室
March 31, 2006
Research
1
83
構文情報を用いた名詞句の換言
山崎 敦. 構文情報を用いた名詞句の換言. 長岡技術科学大学課題研究報告書 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
970
90 分で学ぶ P 対 NP 問題
e869120
17
7.5k
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
1.2k
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
NLP2025SharedTask翻訳部門
moriokataku
0
300
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
690
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
180
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
220
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
300
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
260
Featured
See All Featured
Music & Morning Musume
bryan
46
6.6k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Rails Girls Zürich Keynote
gr2m
94
14k
How to Ace a Technical Interview
jacobian
277
23k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Designing Experiences People Love
moore
142
24k
Unsuck your backbone
ammeep
671
58k
It's Worth the Effort
3n
185
28k
Faster Mobile Websites
deanohume
307
31k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Transcript
1 構文情報を用いた名詞句の換言 長岡技術科学大学 電気系 自然言語処理研究室 山崎 敦 山本 和英 助教授
報告者 指導教員 2006 年 2 月 24 日
2 はじめに 句や文のような大きな単位での換言が必要 機械翻訳や要約、質問応答などの研究の前処理に使わ れている 様々な研究やシソーラスによって単語同士の換言は容 易になっている 利用者の要求にあった入力表現と同じ意味の表層上異 なる表現に変換する技術 換言
例) システムを生成する ⇔ システムを作る
3 目的 日本語にはある制約の下で換言が可能になる場合がある 念 気持ち 感謝の念を込める 感謝の気持ちを込める 制約の下で換言可能な単語を、文中で「同じ使われ方」を している語に換言の可能性があるという観点から名詞句 として抽出する
× 換言不可能 ◦ 換言可能
4 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
5 処理概要 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出
4. 対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ
6 前処理部 -1. 三つ組の収集 - 構文解析を行い、係り受け関係から [ 係り元文節:対象文節:係り先文節 ] の三つ組を抽出
• 特定の品詞で始まる文節 • 助詞 - 並立助詞で終わる文節 • 「名詞 or 未知語 + 読点」の文節 以下の条件に合う文節は除く 対象文節は固有名詞を除く名詞に限定 文中で同じ使われ方をしている箇所 係り受け関係を使用することで文脈を考慮
7 前処理部 -1. 三つ組の収集 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 例 ) NPO 等の情報交換の場を提供し、再利用を推進している 構文解析結果 抽出できる三つ組
8 前処理部 -2. 文節の整形 - 抽出した三つ組の「係り元文節」と「係り先文節」を整形 係り元文節 動詞を原形に変換し、助動詞を削除する。
係り先文節 • 助詞、記号を削除し、動詞を原形に変換する。 • 先頭から順に形態素を見て名詞、動詞、未知語ではない語 がきた場合その語とそれ以降を削除する。
9 前処理部 -2. 文節の整形 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] • [NPO 等の:情報交換の:場 ] • [ 情報交換の:場を:提供する ] • [ 場を:提供し、:推進する ] 抽出できた三つ組を整形 コーパス中の全ての文に前処理部の処理を行い、三 つ組データとして保持する
10 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
11 抽出部 -3. 換言候補の抽出 - 収集した三つ組の中で 「係り元文節」と「係り先文節」が同一な三つ組 から換言候補を抽出 情報交換の:機会を:提供する 情報交換の:
場を :提供する 情報交換の:場を ⇔ 機会を:提供する 「情報交換の」と「提供する」という制約の下 「場を ⇔ 機会を」という換言候補を抽出
12 抽出部 -4. 対象文節の整形 - 抽出した換言候補の「助詞」と「読点の有無」の同定 日本語は助詞によって文意が変化する 例 )
紙の消費 が 減る 紙の消費 を 減らす 助詞の一致は重要 対象文節の整形 助詞を削除する
13 抽出部 -4. 対象文節の整形 - 場 を 機会 を 場
⇔ 機会 ⇔ 情報交換の:場を ⇔ 機会を:提供する 制約 - 係り元文節:情報交換の - 係り先文節:提供する - 対象文節の助詞:を 情報交換の場を提供する 助詞、読点の有無の同定 換言候補 対象文節の整形 情報交換の機会を提供する
14 抽出部 -5. 共起確率の算出 - 換言対の妥当性をはかるため、共起確率を算出 C(s 1 ,s 2
,s 3 ) = P(s 1 ,s 2 |s 1 ) × P(s 2 ,s 3 |s 3 ) s 1 :係り元文節に出現する文節 s 2 :対象文節に出現する文節 s 3 :係り先文節に出現する文節 共起確率 「係り元文節から対象文節」と「係り先文節から対象 文節」への影響力 このスコアに閾値を設け、妥当性をはかる
15 実験と評価 使用したテキスト 本研究室が収集した Web 文書 - 約 485
万文 ( 約 390MB) 新聞 :特定の形式により書かれている Web 文書 :不特定多数により書かれている 表層的に異なる同義な単語を抽出し易い 評価方法 得られた換言対から無作為に 200 個抽出し、人手によ り評価
16 共起確率の閾値 換言対「 A ⇔ B 」の出現回数毎の精度 出現回数 換言対抽出数
4 1,564,395 10 83,956 41 6,448 57 551 69 102 精度 [%] 1回 2回 10-49回 50-99回 100回以上 出現回数毎に閾値を設定する必要がある 出現回数 2 回以上を対象 出現回数毎に無作為に 100 個抽出し、精度を求めた。
17 共起確率の閾値 閾値を出現回数毎に試行し決定 - 精度 : 60% 以上 -
抽出数: 1000 以上 出現回数 閾値 換言対抽出数 67 503 79 366 65 1,180 68 2,503 精度 [%] 2回 3 × 10-5 3回 1 × 10-5 4回 3 × 10-6 5回以上 3 × 10-6 決定した閾値
18 結果 抽出結果 - 換言対抽出数 : 4,552 個 -
精度 : 68 % 抽出した換言対のタイプ 正否 タイプ 15 30 16 7 不正解 32 比率 [%] 正解(68%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 制約の下で換言可能な名詞句 (B) - 全体の 30% - 正解の 43%
19 結果 抽出した換言対の例 制約は各々 3 つずつ示している 代謝 ⇔ 燃焼: 3
脂肪の:□を:促進する 脂肪の:□を:助ける 皮下脂肪の:□を:促進させる 準備 ⇔ 用意: 5 出掛ける:□を:する 食事の:□を:する 道具の:□を:する 生活 ⇔ 日常生活: 9 自立する:□を:送る 住民の:□を:直結する 充実する:□を:送れる ご協力 ⇔ 御協力: 12 皆様の:□を:頂く 方々の:□を:お願いする みなさんの:□を:賜わる B. 制約を付与することで換言可能 C. 包含関係 D. 表記揺れ A. 無条件で換言可能
20 考察 - 制約について (1/3)- 「効果 ⇔ 影響」 「効果 ⇔
威力」 名詞句として換言することで「効果」を適した単語に換言 影響 及ぼす:□を:分析する プラスの:□を:与える 威力 抜群の:□を:発揮する 優れる:□を:発揮 ? :効果を: ? 単語同士の換言対 制約の働き
21 考察 - 制約について (2/3)- B. 制約付与で換言可能に分類される中で制約として 係り元文節、係り先文節の片方があれば換言が可能 なもの
制約の存在が換言できる状況を限定している 例 ) 協定 ⇔ 契約 定める:□を:締結する 継続する:□を:締結する 例) 食材 ⇔ 味 旬の:□を:吟味する 旬の:□を:活かす
22 考察 - 制約について (3/3)- 制約として働かない 例 ) 場合
⇔ 必要 傾向 ⇔ 場合 傾向 ⇔ 必要 とる:□を:ある 名詞句として換言不可能 • 「とる」、「ある」のような制約の弱いものはさらに係り元 文節をみるなど制約を強く • 共起確率の閾値があまり有効に働いていない △ を とる □ を ある 例)
23 考察 - 抽出数について - コーパス量 100% で抽出数が飽和していない 三つ組の量は十分ではない コーパス量を変化させて実験
24 提案手法の応用 提案手法: [ 係り元文節:対象文節:係り先文節 ] の三つ組が必要 文頭文節と文末文節を対象にできない 名詞句としての抽出ではないが提案手法の応用実験 文頭文節
[ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 文末文節 [ 係り元文節のさらに係り元文節:係り元文節:対象文節 ]
25 提案手法の応用 NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 文末文節
[ 場を:提供し、:推進している ] 文頭文節 [NPO 等の:情報交換の:場を ] 文末文節に関しては助詞がほぼ無いため、「助詞、読点の 有無の同定」および「対象文節の整形」は行わない 例)
26 結果 - 文頭文節の実験 - 文頭文節の実験結果 - 抽出数 :
496 個 - 精度 : 34% 正否 タイプ 12 6 12 4 不正解 66 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 ご要望 ⇔ ご利用 □ に:あわせる:お選びいただける □ に:応じる:用意する
27 考察 - 文頭文節の実験 - 抽出数について 文頭文節: 「私は、彼は」等の代名詞 形容詞的な働きをする文節
接続詞 これらは対象文節として抽出することはできない 抽出数が減少 精度について [ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 2 つの語が直接的な関係ではなく、間接的な関係 対象文節を抽出する影響力が弱い
28 結果 - 文末文節の実験 - 文末文節の実験結果 - 抽出数 :
3,019 個 - 精度 : 44% 正否 タイプ 21 11 5 11 不正解 52 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 クリックしてください ⇔ 押して下さい フォームに:入力して:□ 戻る:ボタンを:□
29 考察 - 文末文節の実験 - 正解について 「入力する」という動作を表す文節 「フォームに」という目的を表す文節 係り元文節の意味を特定
制約を厳しくすることで正解 精度について 例 ) クリックします ⇔ 戻って下さい ボタンを:クリックして:□ 「ボタンをクリックしてクリックします」という文 三つ組を抽出する際に文節をまたいで抽出 間違いを抽出する要因 これらの処理を提案手法に施すことで精度は上がる
30 関連研究 関根 (2001) 異なる新聞記事から同じ報道をしている記事を抽出し、固有 表現を手がかりに換言表現を抽出する手法 木村ら (2001)
単語の表層的な特徴から似ている表現を探し出すことで換言 表現を抽出する手法 - コーパスから文を抽出する精度 - 利用可能なコーパスが限られる - 単語の表層的な情報だけでははかれない換言も存在 している
31 おわりに • 制約が無くても換言可能、もしくは制約が片方でも換言 可能な場合の制約の処理 • 共起確率の閾値の再検討 • 出現回数 1
回への対応 名詞句の換言対抽出手法を提案 • 68% の精度で換言対を抽出 • 正解の 43% が制約の下で換言可能な名詞句 • 字面などでは判断できないような名詞句の換言を抽出 • 内容に関わらず三つ組を収集できるためコーパスの制限 がない 問題点
32 おわり
33 考察 - 表記揺れについて - 例 ) 「お時間 ⇔ 時間」
接頭詞を除いた換言対 「かた」 「肩、方、片 … etc 」 特定することができない 例 ) 方 ⇔ かた ご存知の:□も:いる 保護者の:□を:対象 制約を利用することで平仮名の漢字を特定できる
34 考察 - 制約について (2/3)- 例 ) 世界 ⇔ 幅
作品の:□を:広げる 遊びの:□を:広げる 自分の:□を:広げる 係り先文節が同一だから制約か 「幅を広げる」 長さを指す 横の幅を広げる 制約として係り元文節と係り先文節の片方が同義な 文節だとしても制約として決められない 横の世界を広げる
35 考察 - 制約について (3/3)- 「とる」や「ある」は削除していいのか 例 ) 可能性
⇔ 恐れ できなくなる:□が:ある 悪化する:□が:ある 例 ) 感じ ⇔ 気 危険な:□が:する あいまいな:□が:する 係り先文節に「ある」: 152/156 係り先文節に「する」: 144/144 「ある」や「する」にのみ係る文節も存在 一概に削除して良いとは限らない