Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文情報を用いた名詞句の換言
Search
自然言語処理研究室
March 31, 2006
Research
0
170
構文情報を用いた名詞句の換言
山崎 敦、沢井 康孝、山本 和英. 構文情報を用いた名詞句の換言. 言語処理学会第12回年次大会, pp.775-778 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
Ad-DS Paper Circle #1
ykaneko1992
0
5.5k
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
110
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
3.6k
Combinatorial Search with Generators
kei18
0
320
Weekly AI Agents News!
masatoto
33
68k
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
近似動的計画入門
mickey_kubo
4
970
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
410
NLP Colloquium
junokim
1
160
Looking for Escorts in Sydney?
lunsophia
1
120
Transparency to sustain open science infrastructure - Printemps Couperin
mlarrieu
1
180
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
220
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
657
60k
Statistics for Hackers
jakevdp
799
220k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
710
Bash Introduction
62gerente
614
210k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
800
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
KATA
mclloyd
30
14k
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Raft: Consensus for Rubyists
vanstee
140
7k
Transcript
1 長岡技術科学大学 電気系 2006.3.16 山崎 敦 沢井康孝 山本和英 構文情報を用いた名詞句の換言
2 はじめに 句や文のような大きな単位での換言が必要 機械翻訳や要約、質問応答などの研究の前処理に使わ れている 様々な研究やシソーラスによって単語同士の換言は容 易になっている 利用者の要求にあった入力表現と同じ意味の表層上 異なる表現に変換する技術 換言
3 目的 日本語にはある制約の下で換言が可能になる場合がある 念 気持ち 感謝の念を込める 感謝の気持ちを込める 制約の下で換言可能な単語を、文中で「同じ使われ方」を している語に換言の可能性があるという観点から名詞句 として抽出する
× 換言不可能 ◦ 換言可能
4 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
5 処理概要 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出
4. 対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ
6 前処理部 -1. 三つ組の収集 - 構文解析を行い、係り受け関係から [ 係り元文節:対象文節:係り先文節 ] の三つ組を抽出
• 特定の品詞で始まる文節 • 助詞 - 並立助詞で終わる文節 • 「名詞 or 未知語 + 読点」の文節 以下の条件に合う文節は除く 対象文節は固有名詞を除く名詞に限定 文中で同じ使われ方をしている箇所 係り受け関係を使用することで文脈を考慮
7 前処理部 -1. 三つ組の収集 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 例 ) NPO 等の情報交換の場を提供し、再利用を推進している 構文解析結果 抽出できる三つ組
8 前処理部 -2. 文節の整形 - 抽出した三つ組の「係り元文節」と「係り先文節」を整形 係り元文節 動詞を原形に変換し、助動詞を削除する。
係り先文節 • 助詞、記号を削除し、動詞を原形に変換する。 • 先頭から順に形態素を見て名詞、動詞、未知語ではない語 がきた場合その語とそれ以降を削除する。
9 前処理部 -2. 文節の整形 - • [NPO 等の:情報交換の:場を ] •
[ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] • [NPO 等の:情報交換の:場 ] • [ 情報交換の:場を:提供する ] • [ 場を:提供し、:推進する ] 抽出できた三つ組を整形 コーパス中の全ての文に前処理部の処理を行い、三 つ組データとして保持する
10 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.
対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
11 抽出部 -3. 換言候補の抽出 - 収集した三つ組の中で 「係り元文節」と「係り先文節」が同一な三つ組 から換言候補を抽出 情報交換の:機会を:提供する 情報交換の:
場を :提供する 情報交換の:場を ⇔ 機会を:提供する 「情報交換の」と「提供する」という制約の下 「場を ⇔ 機会を」という換言候補を抽出
12 抽出部 -4. 対象文節の整形 - 抽出した換言候補の「助詞」と「読点の有無」の同定 日本語は助詞によって文意が変化する 例 )
紙の消費 が 減る 紙の消費 を 減らす 助詞の一致は重要 対象文節の整形 助詞を削除する
13 抽出部 -4. 対象文節の整形 - 場 を 機会 を 場
⇔ 機会 ⇔ 情報交換の:場を ⇔ 機会を:提供する 制約 - 係り元文節:情報交換の - 係り先文節:提供する - 対象文節の助詞:を 情報交換の場を提供する 助詞、読点の有無の同定 換言候補 対象文節の整形 情報交換の機会を提供する
14 抽出部 -5. 共起確率の算出 - 換言対の妥当性をはかるため、共起確率を算出 C(s 1 ,s 2
,s 3 ) = P(s 1 ,s 2 |s 1 ) × P(s 2 ,s 3 |s 3 ) s 1 :係り元文節に出現する文節 s 2 :対象文節に出現する文節 s 3 :係り先文節に出現する文節 共起確率 「係り元文節から対象文節」と「係り先文節から対象 文節」への影響力 このスコアに閾値を設け、妥当性をはかる
15 実験と評価 使用したコーパス 本研究室が収集した Web コーパス - 約 485
万文 ( 約 390MB) 新聞コーパス :特定の形式により書かれている Web コーパス :不特定多数により書かれている 表層的に異なる同義な単語を抽出し易い 評価方法 得られた換言対から無作為に 200 個抽出し、人手によ り評価
16 共起確率の閾値 換言対「 A ⇔ B 」の出現回数毎の精度 出現回数 換言対抽出数
4 1,564,395 10 83,956 41 6,448 57 551 69 102 精度 [%] 1回 2回 10-49回 50-99回 100回以上 出現回数毎に閾値を設定する必要がある 出現回数 2 回以上を対象 出現回数毎に無作為に 100 個抽出し、精度を求めた。
17 共起確率の閾値 閾値を出現回数毎に試行し決定 - 精度 : 60% 以上 出現回数
閾値 換言対抽出数 67 503 79 366 65 1,180 68 2,503 精度 [%] 2回 3 × 10-5 3回 1 × 10-5 4回 3 × 10-6 5回以上 3 × 10-6 決定した閾値
18 結果 抽出結果 - 換言対抽出数 : 4,552 個 -
精度 : 68 % 抽出した換言対のタイプ 正否 タイプ 15 30 16 7 不正解 32 比率 [%] 正解(68%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 制約の下で換言可能な名詞句 (B) - 全体の 30% - 正解の 43%
19 結果 抽出した換言対の例 制約は各々 3 つずつ示している 代謝 ⇔ 燃焼: 3
脂肪の:□を:促進する 脂肪の:□を:助ける 皮下脂肪の:□を:促進させる 準備 ⇔ 用意: 5 出掛ける:□を:する 食事の:□を:する 道具の:□を:する 生活 ⇔ 日常生活: 9 自立する:□を:送る 住民の:□を:直結する 充実する:□を:送れる ご協力 ⇔ 御協力: 12 皆様の:□を:頂く 方々の:□を:お願いする みなさんの:□を:賜わる B. 制約を付与することで換言可能 C. 包含関係 D. 表記揺れ A. 無条件で換言可能
20 考察 - 制約について (1/3)- 「効果 ⇔ 影響」 「効果 ⇔
威力」 名詞句として換言することで「効果」を適した単語に換言 影響 及ぼす:□を:分析する プラスの:□を:与える 威力 抜群の:□を:発揮する 優れる:□を:発揮 ? :効果を: ? 単語同士の換言対 制約の働き
21 考察 - 制約について (2/3)- B. 制約付与で換言可能に分類される中で制約として 係り元文節、係り先文節の片方があれば換言が可能 なもの
制約の存在が換言できる状況を限定している 例 ) 協定 ⇔ 契約 定める:□を:締結する 継続する:□を:締結する 例) 食材 ⇔ 味 旬の:□を:吟味する 旬の:□を:活かす
22 考察 - 制約について (3/3)- 制約として働かない 例 ) 場合
⇔ 必要 傾向 ⇔ 場合 傾向 ⇔ 必要 とる:□を:ある 名詞句として換言不可能 • 「とる」、「ある」のような制約の弱いものはさらに係り元 文節をみるなど制約を強く • 共起確率の閾値があまり有効に働いていない △ を とる □ を ある 例)
23 考察 - 抽出数について - コーパス量 100% で抽出数が飽和していない 三つ組の量は十分ではない
コーパス量を変化させて実験
24 関連研究 関根 (2001) 異なる新聞記事から同じ報道をしている記事を抽出し、固有 表現を手がかりに換言表現を抽出する手法 木村ら (2001)
単語の表層的な特徴から似ている表現を探し出すことで換言 表現を抽出する手法 - コーパスから文を抽出する精度 - 利用可能なコーパスが限られる - 単語の表層的な情報だけでははかれない換言も存在 している
25 おわりに • 制約が無くても換言可能、もしくは制約が片方でも換言 可能な場合の制約の処理 • 共起確率の閾値の再検討 • 出現回数 1
回への対応 名詞句の換言対抽出手法を提案 • 68% の精度で換言対を抽出 • 正解の 43% が制約の下で換言可能な名詞句 • 字面などでは判断できないような名詞句の換言を抽出 • 内容に関わらず三つ組を収集できるためコーパスの制限 がない 問題点
26 おわり
27 考察 - 表記揺れについて - 例 ) 「お時間 ⇔ 時間」
接頭詞を除いた換言対 「かた」 「肩、方、片 … etc 」 特定することができない 例 ) 方 ⇔ かた ご存知の:□も:いる 保護者の:□を:対象 制約を利用することで平仮名の漢字を特定できる
28 考察 - 制約について (2/3)- 例 ) 世界 ⇔ 幅
作品の:□を:広げる 遊びの:□を:広げる 自分の:□を:広げる 係り先文節が同一だから制約であるか 「幅を広げる」 長さを指す 横の幅を広げる 制約として係り元文節と係り先文節の片方が同義な 文節だとしても制約として決められない 横の世界を広げる
29 考察 - 制約について (3/3)- 「とる」や「ある」は削除していいのか 例 ) 可能性
⇔ 恐れ できなくなる:□が:ある 悪化する:□が:ある 例 ) 感じ ⇔ 気 危険な:□が:する あいまいな:□が:する 係り先文節に「ある」: 152/156 係り先文節に「する」: 144/144 「ある」や「する」にのみ係る文節も存在 一概に削除して良いとは限らない
30 提案手法の応用 NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 文末文節
[ 場を:提供し、:推進している ] 文頭文節 [NPO 等の:情報交換の:場を ] 文末文節に関しては助詞がほぼ無いため、「助詞、読点の 有無の同定」および「対象文節の整形」は行わない 例)
31 提案手法の応用 提案手法: [ 係り元文節:対象文節:係り先文節 ] の三つ組が必要 文頭文節と文末文節を対象にできない 名詞句としての抽出ではないが提案手法の応用実験 文頭文節
[ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 文末文節 [ 係り元文節のさらに係り元文節:係り元文節:対象文節 ]
32 結果 - 文頭文節の実験 - 文頭文節の実験結果 - 抽出数 :
496 個 - 精度 : 34% 正否 タイプ 12 6 12 4 不正解 66 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 ご要望 ⇔ ご利用 □ に:あわせる:お選びいただける □ に:応じる:用意する
33 考察 - 文頭文節の実験 - 抽出数について 文頭文節: 「私は、彼は」等の代名詞 形容詞的な働きをする文節
接続詞 これらは対象文節として抽出することはできない 抽出数が減少 精度について [ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 2 つの語が直接的な関係ではなく、間接的な関係 対象文節を抽出する影響力が弱い
34 結果 - 文末文節の実験 - 文末文節の実験結果 - 抽出数 :
3,019 個 - 精度 : 44% 正否 タイプ 21 11 5 11 不正解 52 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 抽出した換言対のタイプ B. 制約付与で換言可能 クリックしてください ⇔ 押して下さい フォームに:入力して:□ 戻る:ボタンを:□
35 考察 - 文末文節の実験 - 正解について 「入力する」という動作を表す文節 「フォームに」という目的を表す文節 係り元文節の意味を特定
制約を厳しくすることで正解 精度について 例 ) クリックします ⇔ 戻って下さい ボタンを:クリックして:□ 「ボタンをクリックしてクリックします」という文 三つ組を抽出する際に文節をまたいで抽出 間違いを抽出する要因 これらの処理を提案手法に施すことで精度は上がる