Upgrade to Pro — share decks privately, control downloads, hide ads and more …

構文情報を用いた名詞句の換言

 構文情報を用いた名詞句の換言

山崎 敦. 構文情報を用いた名詞句の換言. 長岡技術科学大学課題研究報告書 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 4 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.

    対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
  2. 5 処理概要 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出

    4. 対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ
  3. 6 前処理部 -1. 三つ組の収集 - 構文解析を行い、係り受け関係から [ 係り元文節:対象文節:係り先文節 ] の三つ組を抽出

    • 特定の品詞で始まる文節 • 助詞 - 並立助詞で終わる文節 • 「名詞 or 未知語 + 読点」の文節  以下の条件に合う文節は除く  対象文節は固有名詞を除く名詞に限定  文中で同じ使われ方をしている箇所 係り受け関係を使用することで文脈を考慮
  4. 7 前処理部 -1. 三つ組の収集 - • [NPO 等の:情報交換の:場を ] •

    [ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 例 ) NPO 等の情報交換の場を提供し、再利用を推進している  構文解析結果  抽出できる三つ組
  5. 8 前処理部 -2. 文節の整形 - 抽出した三つ組の「係り元文節」と「係り先文節」を整形  係り元文節 動詞を原形に変換し、助動詞を削除する。 

    係り先文節 • 助詞、記号を削除し、動詞を原形に変換する。 • 先頭から順に形態素を見て名詞、動詞、未知語ではない語 がきた場合その語とそれ以降を削除する。
  6. 9 前処理部 -2. 文節の整形 - • [NPO 等の:情報交換の:場を ] •

    [ 情報交換の:場を:提供し、 ] • [ 場を:提供し、:推進している。 ] • [NPO 等の:情報交換の:場 ] • [ 情報交換の:場を:提供する ] • [ 場を:提供し、:推進する ] 抽出できた三つ組を整形 コーパス中の全ての文に前処理部の処理を行い、三 つ組データとして保持する
  7. 10 1. 三つ組の収集 2. 係り元文節、係り先文節の整形 3. 換言候補の抽出 5. 共起確率の算出 4.

    対象文節の整形 出力 コーパス 前処理部 抽出部 三つ組データ 処理概要
  8. 11 抽出部 -3. 換言候補の抽出 - 収集した三つ組の中で 「係り元文節」と「係り先文節」が同一な三つ組 から換言候補を抽出 情報交換の:機会を:提供する 情報交換の:

    場を :提供する 情報交換の:場を ⇔ 機会を:提供する 「情報交換の」と「提供する」という制約の下 「場を ⇔ 機会を」という換言候補を抽出
  9. 12 抽出部 -4. 対象文節の整形 -  抽出した換言候補の「助詞」と「読点の有無」の同定 日本語は助詞によって文意が変化する 例 )

    紙の消費 が 減る 紙の消費 を 減らす 助詞の一致は重要  対象文節の整形 助詞を削除する
  10. 13 抽出部 -4. 対象文節の整形 - 場 を 機会 を 場

    ⇔ 機会 ⇔ 情報交換の:場を ⇔ 機会を:提供する 制約 - 係り元文節:情報交換の - 係り先文節:提供する - 対象文節の助詞:を 情報交換の場を提供する 助詞、読点の有無の同定 換言候補 対象文節の整形 情報交換の機会を提供する
  11. 14 抽出部 -5. 共起確率の算出 - 換言対の妥当性をはかるため、共起確率を算出 C(s 1 ,s 2

    ,s 3 ) = P(s 1 ,s 2 |s 1 ) × P(s 2 ,s 3 |s 3 ) s 1 :係り元文節に出現する文節 s 2 :対象文節に出現する文節 s 3 :係り先文節に出現する文節 共起確率 「係り元文節から対象文節」と「係り先文節から対象 文節」への影響力 このスコアに閾値を設け、妥当性をはかる
  12. 15 実験と評価  使用したテキスト 本研究室が収集した Web 文書 - 約 485

    万文 ( 約 390MB) 新聞 :特定の形式により書かれている Web 文書 :不特定多数により書かれている 表層的に異なる同義な単語を抽出し易い  評価方法 得られた換言対から無作為に 200 個抽出し、人手によ り評価
  13. 16 共起確率の閾値  換言対「 A ⇔ B 」の出現回数毎の精度 出現回数 換言対抽出数

    4 1,564,395 10 83,956 41 6,448 57 551 69 102 精度 [%] 1回 2回 10-49回 50-99回 100回以上 出現回数毎に閾値を設定する必要がある  出現回数 2 回以上を対象 出現回数毎に無作為に 100 個抽出し、精度を求めた。
  14. 17 共起確率の閾値  閾値を出現回数毎に試行し決定 - 精度 : 60% 以上 -

    抽出数: 1000 以上 出現回数 閾値 換言対抽出数 67 503 79 366 65 1,180 68 2,503 精度 [%] 2回 3 × 10-5 3回 1 × 10-5 4回 3 × 10-6 5回以上 3 × 10-6  決定した閾値
  15. 18 結果  抽出結果 - 換言対抽出数 : 4,552 個 -

    精度 : 68 %  抽出した換言対のタイプ 正否 タイプ 15 30 16 7 不正解 32 比率 [%] 正解(68%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り 制約の下で換言可能な名詞句 (B) - 全体の 30% - 正解の 43%
  16. 19 結果 抽出した換言対の例 制約は各々 3 つずつ示している 代謝 ⇔ 燃焼: 3

    脂肪の:□を:促進する 脂肪の:□を:助ける 皮下脂肪の:□を:促進させる 準備 ⇔ 用意: 5 出掛ける:□を:する 食事の:□を:する 道具の:□を:する 生活 ⇔ 日常生活: 9 自立する:□を:送る 住民の:□を:直結する 充実する:□を:送れる ご協力 ⇔ 御協力: 12 皆様の:□を:頂く 方々の:□を:お願いする みなさんの:□を:賜わる B. 制約を付与することで換言可能 C. 包含関係 D. 表記揺れ A. 無条件で換言可能
  17. 20 考察 - 制約について (1/3)- 「効果 ⇔ 影響」 「効果 ⇔

    威力」 名詞句として換言することで「効果」を適した単語に換言 影響 及ぼす:□を:分析する プラスの:□を:与える 威力 抜群の:□を:発揮する 優れる:□を:発揮 ? :効果を: ? 単語同士の換言対  制約の働き
  18. 21 考察 - 制約について (2/3)-  B. 制約付与で換言可能に分類される中で制約として 係り元文節、係り先文節の片方があれば換言が可能 なもの

    制約の存在が換言できる状況を限定している 例 ) 協定 ⇔ 契約 定める:□を:締結する 継続する:□を:締結する 例) 食材 ⇔ 味 旬の:□を:吟味する 旬の:□を:活かす
  19. 22 考察 - 制約について (3/3)-  制約として働かない 例 ) 場合

    ⇔ 必要 傾向 ⇔ 場合 傾向 ⇔ 必要 とる:□を:ある 名詞句として換言不可能 • 「とる」、「ある」のような制約の弱いものはさらに係り元 文節をみるなど制約を強く • 共起確率の閾値があまり有効に働いていない △ を とる □ を ある 例)
  20. 24 提案手法の応用 提案手法: [ 係り元文節:対象文節:係り先文節 ] の三つ組が必要 文頭文節と文末文節を対象にできない 名詞句としての抽出ではないが提案手法の応用実験 文頭文節

    [ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 文末文節 [ 係り元文節のさらに係り元文節:係り元文節:対象文節 ]
  21. 25 提案手法の応用 NPO 等の 情報交換の 場を 提供し、 推進している。 再利用を 文末文節

    [ 場を:提供し、:推進している ] 文頭文節   [NPO 等の:情報交換の:場を ] 文末文節に関しては助詞がほぼ無いため、「助詞、読点の 有無の同定」および「対象文節の整形」は行わない 例)
  22. 26 結果 - 文頭文節の実験 -  文頭文節の実験結果 - 抽出数 :

    496 個 - 精度 : 34% 正否 タイプ 12 6 12 4 不正解 66 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り  抽出した換言対のタイプ B. 制約付与で換言可能 ご要望 ⇔ ご利用 □ に:あわせる:お選びいただける □ に:応じる:用意する
  23. 27 考察 - 文頭文節の実験 -  抽出数について 文頭文節: 「私は、彼は」等の代名詞 形容詞的な働きをする文節

    接続詞 これらは対象文節として抽出することはできない 抽出数が減少  精度について [ 対象文節:係り先文節:係り先文節のさらに係り先文節 ] 2 つの語が直接的な関係ではなく、間接的な関係 対象文節を抽出する影響力が弱い
  24. 28 結果 - 文末文節の実験 -  文末文節の実験結果 - 抽出数 :

    3,019 個 - 精度 : 44% 正否 タイプ 21 11 5 11 不正解 52 比率 [%] 正解(34%) A:無条件で換言可能 B:制約付与で換言可能 C:包含関係 D:表記揺れ E:誤り  抽出した換言対のタイプ B. 制約付与で換言可能 クリックしてください ⇔ 押して下さい フォームに:入力して:□ 戻る:ボタンを:□
  25. 29 考察 - 文末文節の実験 -  正解について 「入力する」という動作を表す文節 「フォームに」という目的を表す文節 係り元文節の意味を特定

    制約を厳しくすることで正解  精度について 例 ) クリックします ⇔ 戻って下さい ボタンを:クリックして:□ 「ボタンをクリックしてクリックします」という文 三つ組を抽出する際に文節をまたいで抽出 間違いを抽出する要因 これらの処理を提案手法に施すことで精度は上がる
  26. 30 関連研究  関根 (2001) 異なる新聞記事から同じ報道をしている記事を抽出し、固有 表現を手がかりに換言表現を抽出する手法  木村ら (2001)

    単語の表層的な特徴から似ている表現を探し出すことで換言 表現を抽出する手法 - コーパスから文を抽出する精度 - 利用可能なコーパスが限られる - 単語の表層的な情報だけでははかれない換言も存在 している
  27. 31 おわりに • 制約が無くても換言可能、もしくは制約が片方でも換言 可能な場合の制約の処理 • 共起確率の閾値の再検討 • 出現回数 1

    回への対応  名詞句の換言対抽出手法を提案 • 68% の精度で換言対を抽出 • 正解の 43% が制約の下で換言可能な名詞句 • 字面などでは判断できないような名詞句の換言を抽出 • 内容に関わらず三つ組を収集できるためコーパスの制限 がない  問題点
  28. 33 考察 - 表記揺れについて - 例 ) 「お時間 ⇔ 時間」

    接頭詞を除いた換言対 「かた」 「肩、方、片 … etc 」 特定することができない 例 ) 方 ⇔ かた ご存知の:□も:いる 保護者の:□を:対象 制約を利用することで平仮名の漢字を特定できる
  29. 34 考察 - 制約について (2/3)- 例 ) 世界 ⇔ 幅

    作品の:□を:広げる 遊びの:□を:広げる 自分の:□を:広げる  係り先文節が同一だから制約か 「幅を広げる」 長さを指す 横の幅を広げる 制約として係り元文節と係り先文節の片方が同義な 文節だとしても制約として決められない 横の世界を広げる
  30. 35 考察 - 制約について (3/3)-  「とる」や「ある」は削除していいのか 例 ) 可能性

    ⇔ 恐れ できなくなる:□が:ある 悪化する:□が:ある 例 ) 感じ ⇔ 気 危険な:□が:する あいまいな:□が:する 係り先文節に「ある」: 152/156 係り先文節に「する」: 144/144 「ある」や「する」にのみ係る文節も存在 一概に削除して良いとは限らない