Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 研究概要(2014年)

自然言語処理研究室 研究概要(2014年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 長岡技術科学大学
    自然言語処理研究室
    研究概要(2014年)

    View Slide

  2. Semantic Type Disambiguation for Japanese Verbs
    Japanese predicates consist of adjectives and verbs. It is
    generally assumed that adjectives signify properties or tates of
    people or objects, and while verbs signify observable actions
    or changes. However, there are verbs that signify properties,
    such as “༏ΕΔ (to excel)”, and emotions, such as “Ή͔ͭ͘
    (to get frustrated)”. Therefore, POS differs from semantic
    classification for Japanese predicates.
    Nakayama and Yamamoto [1] proposed that predicates
    should be classified according to sense and, accordingly, they
    defined four semantic types: action, change, emotion, and
    modification. They then annotated all possible types that
    could relate to each verb in the IPADIC. Verbs that have am-
    biguity of sense can be annotated multiple types. In this case,
    one of the annotated types can be determined from the context
    (Example 1).
    In this study, we constructe a semantic type disambiguator,
    that determines verb type from context based on Nakayama
    and Yamamoto’s classification. Specifically, we constructed
    this disambiguator using a support vector machine (SVM) by
    building feature vectors. We used semantic categories of noun
    and results of morphological analysis for the feature vectors.
    We then achieved a 69.9% accuracy rate for newspaper
    articles using 10-fold cross-validation.
    The disambiguator will be available to be public.
    action: Expressions that signify objectively observable motion
    and in which the state does not change before and after the
    motion.
    e.g.) ӭ͙ (to swim), ৯΂Δ (to eat)
    change: Expressions that signify a state as a result of a motion
    and in which the state after the motion differs from the state
    before the motion.
    e.g.) ס͘ (to dry), ࢮ͵ (to die)
    emotion: Expressions that signify the operation of sense
    organ, such as eyes, ears, and skin, or mental actions.
    e.g.) ݟ͑Δ (to see), ײ͡Δ (to feel)
    modification: Expressions that signify a property, shape,
    being, or relation.
    e.g.) ༏ΕΔ (to excel), ҟͳΔ (to differ)
    [1] T. Nakayama and K. Yamamoto. “New Semantic Types for Predicates” , In Proceedings of the 17th Annual Meeting of the Association for
    Natural Language Processing, pp. 560-563, 2011. (in Japanese)
    A verb “ຬͨ͢” has both sense of “to fill” and “to satisfy” in
    English.
    “ίοϓʹਫΛຬͨ͢ (to fill a glass)” → action
    “৚݅Λຬͨ͢ (to satisfy a condition)” → modification
    Definitions of Four Semantic Types
    Example 1. Smantic type disambiguation

    View Slide

  3. 使いやすくカスタマイズ可能なテキスト解析ツールの開発
    手法:
    ①区切りすぎてしまった形態素を連語として出力する。連語
    として出力する形態素は、連語リストにまとめられた語のみ
    が対象であり、「形態素の途中から始まったり、終わったりし
    ないもの」・「含まれる形態素が1つ以上のもの」という条件が
    ある。連語リストはユーザがカスタマイズ可能である。
    ②GUIを用いて、視覚的に分かりやすい解析器の作成を行う。
    入力はテキストファイル、出力はCSVファイルに対応できるよ
    うにする。
    背景:
    形態素解析とは、文を形態素に分割し品詞を付与する解析
    であり、日本語教育学では語彙リストの作成のためなどに利
    用されている。しかし、日本語教育学分野の方が既存の解
    析器を使用するにはいくつかの問題がある。今回は
    ①形態素の区切りに関する問題
    ②使いやすさに関する問題
    の2つの問題点を挙げる。
    ①は、形態素の区切りが細かすぎて、日本語教育学の分野
    に適応しないという問題である。②は、解析にコマンドプロン
    プトを使うために起きる、マウス操作ができない・視覚的に分
    かり辛いなどの問題である。
    目的:
    多くの人に簡単に形態素解析器を使用してもらうため、
    (1)日本語教育学の分野に合った形態素の区切りをする
    (2)解析はキーボードとマウス操作のみで行うことができる
    形態素解析器の作成を行う。
    仕様:
    入力はテキストファイルのみを受け付け、出力はCSVファイ
    ル(excelなどで開けるファイル)のみを使用する。現在の連語
    リストには、「日本語文型辞典」および「機能表現辞書」つつじ
    の見出し語が入っている。
    また、形態素解析部分も自作し、配布時に解析用の辞書以
    外はすべてまとめてインストールできるようにした。
    形態素解析 連語処理
    解析用辞書 連語リスト
    入力
    ファイル
    (テキスト)
    出力
    ファイル
    (CSV)
    G
    U
    I
    昨年には

    昨年:名詞 副詞可能
    に:助詞 格助詞 一般
    は:助詞 係助詞
    昨年:名詞 副詞可能
    には:連語

    View Slide

  4. จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺ׵ݴͷධՁ
      ೖྗจͱಉ͡จ຺Ͱ
    ༻͍ΒΕΔ໊ࢺΛऩू
      ऩू͞Ε໊ͨࢺ܈͔Β
    ׵ݴݩͷ໊ࢺͱଟ͘ͷ
    จ຺Λڞ༗͢Δ໊ࢺΛબ୒
    όε
    ഑ୡ ߦ͖ํ
    ৐Γ׵͑
    ྉۚ
    ૹܴ
    ҿ৯ళ
    ҙຯ
    ૬৔
    ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ
    ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ
    ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ
    ˣ
    ߦ͖ํ
    ৐Γ׵͑
    ྉۚ
    ׵ݴީิʲఏҊख๏ʳ ೖྗจ ׵ݴީิʲैདྷख๏ʳ
    േۚܐɺաྉɺʜ ʙສԁҎԼͷേۚʹॲ͢Δ ௄໾ɺՊྉɺʜ
    ෛՙɺετϨεɺʜ ࠊ΁ͷෛ୲Λܰݮ͢Δ අ༻ɺܦඅɺʜ
    ఏҊख๏
    ʮΞΫηεʯͱ
    ໊֤ࢺͷจ຺ͷ
    ྨࣅ౓͕ߴ͍ॱ
    ೖྗจ຺Λ
    ߟྀͨ͠
    ׵ݴ͕Ͱ͖Δ

    View Slide

  5. ೔ຊޠͷޠኮత׵ݴ஌ࣝͷ࣭తධՁ
    ໊শ ऩ࿥਺ ඼ࢺ ऩूํ๏ ܗࣜ
    11%#+BQBOFTFʢ4αΠζʣ ۟ ର༁ίʔύε ۟ˠ۟
    ಺༰ޠ׵ݴࣙॻʢ༻ݴ౳׵ݴࣙॻʣ ༻ݴ
    ਓख ޠˠ۟
    ಺༰ޠ׵ݴࣙॻʢී௨໊ࢺ׵ݴࣙॻʣ ໊ࢺ
    ೔ຊޠ8PSE/FUಉٛޠσʔλϕʔε ໊ࢺ ݴޠࢿݯ͓Αͼਓख
    ޠˠޠ
    ಈࢺؚҙؔ܎%#ʢ/USJWɿྨࣅɾ্ҐԼҐؔ܎ʣ
    ಈࢺ
    ؚҙείΞܭࢉ
    ͓Αͼਓख
    ಈࢺؚҙؔ܎%#ʢ5SJWɿจࣈ্แؚؔ܎ʹ͋Δʣ
    جຊతҙຯؔ܎ͷࣄྫϕʔεʢུهରʣ
    ໊ࢺ
    จ຺ྨࣅ౓
    ͓Αͼਓख
    جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟܗಉٛޠରʣ
    جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟදهରʣ

    11%#+BQBOFTF
    ༻ݴ౳׵ݴࣙॻ
    ී௨໊ࢺ׵ݴࣙॻ
    8PSE/FUಉٛޠ%#
    ಈࢺؚҙ%#ʢ/USJWʣ
    ಈࢺؚҙ%#ʢ5SJWʣ
    ུهର
    ҟܗಉٛޠର
    ҟදهର
    ৗʹ׵ݴՄೳ
    จ຺ʹΑͬͯ׵ݴՄೳ
    ৗʹ׵ݴෆՄೳ

    11%#+BQBOFTF
    ༻ݴ౳׵ݴࣙॻ
    ී௨໊ࢺ׵ݴࣙॻ
    8PSE/FUಉٛޠ%#
    ಈࢺؚҙ%#ʢ/USJWʣ
    ಈࢺؚҙ%#ʢ5SJWʣ
    ུهର
    ҟܗಉٛޠର
    ҟදهର
    ਖ਼ղ཰

    View Slide

  6. 保険関連文書を対象とした
    文書校正支援のための変換誤り検出
    目的:パンフレットなどの派生書類を入力文とし、保険の約款や特約などの基礎書
        類と対応付けし、その結果を使い誤りを検出する。
    手法:入力文と基礎書類を形態素解析し、内容語を抽出する。入力文が持つ内容 
        語をもっとも多く含む基礎書類の文を対応文とする。入力文が持つ内容語の
        うち対応文の持つ内容語にないものを誤りとして検出する。
    実験:基礎書類の全文で、誤りが1つになるようにすべての名詞で可能な限りの同
        音の名詞への置換を行いテストセットを作成し、その誤りを検出した。
    結果:対応付けの精度は77.7%であった。誤り検出は再現率99.6%、精度100%で
        あった。
    保健証券等に記載の自動車をいいます。
    保健証券等 記載 自動車 いい
    入力文
    内容語の抽出
    基礎書類
    対応文:保険証券等に記載の自動車をいいます。
    内容語:保険証券等 記載 自動車 いい
    入力文の内容語を
    基に対応文を抽出
    対応文の内容語を
    基に誤りを検出
    保健証券等に記載の自動車をいいます。

    View Slide

  7. จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺͷ׵ݴͷఏҊ
      ೖྗจͱಉ͡จ຺Ͱ
    ༻͍ΒΕΔ໊ࢺΛऩू
      ऩू͞Ε໊ͨࢺ܈͔Β
    ׵ݴݩͷ໊ࢺͱଟ͘ͷ
    จ຺Λڞ༗͢Δ໊ࢺΛબ୒
    όε
    ഑ୡ ߦ͖ํ
    ৐Γ׵͑
    ྉۚ
    ૹܴ
    ҿ৯ళ
    ҙຯ
    ૬৔
    ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ
    ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ
    ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ
    ˣ
    ߦ͖ํ
    ৐Γ׵͑
    ྉۚ
    ೖྗจ ग़ྗจ
    ɹɹΦʔφʔͷঝೝ͕ඞཁʹͳΔ ɹɹΦʔφʔͷڐՄ͕ඞཁʹͳΔ
    ɹɹॏཁͳ՝୊ͱͯ͠औΓ૊ΜͰ͍Δ ɹɹॏཁͳ໰୊ͱͯ͠औΓ૊ΜͰ͍Δ
    ɹɹྑ৺తͳྉۚΛఏڙ͢Δ ɹɹྑ৺తͳՁ֨Λఏڙ͢Δ
    ׵ݴͷྫ
    ఏҊख๏
    ʮΞΫηεʯͱ
    ໊֤ࢺͷจ຺ͷ
    ྨࣅ౓͕ߴ͍ॱ

    View Slide

  8. 大規模常識知識ベース構築のための常識表現の自動獲得
     本研究では,名詞を概念,名詞が格付きで係る用言を常識と定義し,大規模なWebテキストから自然言語処理の意味解析に利用可
    能な常識知識ベースを自動的に構築することを目的とする.
    ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ
    ໊ࢺɿੈͷத ໊ࢺ
    ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔ
    ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕
    ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ
    Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ
    Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ
    ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ
    Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ
    ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ
    ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ
    ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β
    ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ
    ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
    ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠
    Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ
    ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
    Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹
    ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋
    ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ
    ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ
    Jac Simp WJac
    ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378
    max 0.451 0.335 0.376
    ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371
    max 0.481 0.446 0.364
    ఏҊख๏ ave 0.607 0.499 0.582
    max 0.591 0.461 0.558
    ࢖༻ͨ͠ݴޠ
    ʲ1ʳ നҪ ་ɼେࢁ
    ೔ຊޠޠኮେܥ
    no.106ɼpp.47
    ʲ2ʳ ޻౻ ୓ɼլ୔
    ࢿݯڠձɽ
    ʲ3ʳ ޻౻ ୓ɼদຊ
    ܎Γड͚ղੳ”ɼ
    ࢀߟจݙ
    [1] K. Ahrens, S.F
    tual metaphors:
    pora driven ma
    ACL 2003 work
    Vol. 14, pp. 36–4
    tics, 2003.
    [2] M. Hagiwara, Y
    study on effectiv
    日本語Nグラム中で出現頻度上位90%を占める1,617個の名詞について,正解セット
    の相関を求める  
     *  ベースライン1:用言の削除を行わない手法  
     *  ベースライン2:PMIスコアがβ=0以下の用言を削除  
    正解セットの類似度計算式は右下の通り  
    2. ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ໊ࢺ c ΋
    ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨྨࣅͨ͠
    ໊ࢺͰ͋Δɽ
    Ծઆ (1) ΑΓɼ໊ࢺಉ࢜ͷྨࣅ౓͸ͦͷ໊ࢺಉ࢜ͷ
    ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎
    Γड͚ղੳޡΓ౳ʹΑͬͯ෇༩͞Εͨ௿ස౓ͷ༻ݴʹ
    ΑΔӨڹΛ཈͑ΔͨΊʹɼղੳର৅ͱͳΔ໊ࢺಉ͕࢜
    ࣋ͭڞ௨ͨ͠༻ݴू߹ͷ͏ͪɼͦΕͧΕʹ͓͍ͯ࠷΋
    max sim(wi, wj) = max
    2d(wi,x, wj,y)
    d(wi,x)d(wj,y)
    (3)
    ͜͜Ͱ d(wi
    ) ͱ͸ɼ͔ࠜΒ wi
    ·Ͱͷਂ͞ɼd(wi
    , wj
    )
    ͱ͸ɼ͔ࠜΒ໊ࢺ wi
    ͱ໊ࢺ wj
    ͕ڞ༗͢Δ্Ґ֓೦·
    Ͱͷਂ͞Λද͍ͯ͠Δɽ໊ࢺ wi
    ͱ໊ࢺ wj
    ͕ྨࣅͨ͠
    ֓೦Λ͍࣋ͬͯΔ৔߹ɼ྆ sim ؔ਺ͷ஋͸ߴ͘ͳΔɽ
    6.1 ൺֱख๏
    ͱͷྨࣅ౓ू߹ SIMj
    ͷྨࣅ౓΋ߴ͘ͳΔɽ
    Ҏ্ͷߟ͑ํ͔Βɼൺֱ͢Δ 2 ͭͷ໊ࢺͱͦͷଞͷ
    ໊ࢺू߹ͱͷྨࣅ౓Λܭࢉ͠ɼ྆ऀͷྨࣅ౓ू߹ͷ૬
    ؔΛٻΊɼ͜ͷ૬ؔ܎਺Λ྆ऀͷྨࣅ౓ͱ͢Δɽ
    6 ධՁ
    ࡞੒໊ͨ͠ࢺͷৗࣝ஌ࣝϕʔεʹ͍ͭͯɼ໊ࢺʹର
    ͠ਖ਼͍͠ৗ͕ࣝ෇༩͞Εɼ໊ࢺಉ࢜ͷؔ܎Λਖ਼͘͠ܭ
    ࢉͰ͖͍ͯΔ͔ධՁ͢ΔɽຊݚڀͰ͸ɼධՁηοτͱ
    ͯ͠೔ຊޠޠኮେܥதͰ “໊ࢺ-۩ମ” ʹϥϕϧ෇͚͞
    Εɼߋʹ೔ຊޠ N-gram தͰग़ݱස౓ͷ্Ґ 90 ˋΛ઎
    ΊΔ 1,617 ݸͷ໊ࢺΛ༻͍ͯɼධՁηοτͱਖ਼ղηο
    τʹ͓͚Δ໊֤ࢺؒͷྨࣅ౓ू߹ͷ૬ؔ܎਺ΛٻΊΔɽ
    ਖ਼ղηοτͱͯ͠ɼ೔ຊޠޠኮେܥதʹ͓͚Δ໊ࢺؒ
    ͷڑ཭Λܭࢉͨ͠ɽ֓೦ x ∈ X Λ໊࣋ͭࢺ wi
    ͱɼ֓
    ೦ y ∈ Y Λ໊࣋ͭࢺ wj
    ͷྨࣅ౓͸ҎԼͷࣜͰܭࢉ͞
    ΕΔɽ
    ave sim(wi, wj) =
    1
    |XY |
    x∈X,y∈Y
    2d(wi,x, wj,y)
    d(wi,x
    )d(wj,y
    )
    (2)
    類似度計算の評価
    概念として適切な名詞の選定
    日本語語彙大系中で “名詞-­‐具体”でラベル付
    けされている名詞12,042  語
    常識として適切な用言の選定
    0  
    10000  
    20000  
    30000  
    40000  
    0   5000   10000  
    係り元となる  
    概念の数が多い  
    =削除用言
    用言の係り元となる概念の数





    特定の概念に対し高頻度で係る用言は,その
    概念の常識である可能性が高いが,しかしそ
    の用言が多くの名詞に対し係る汎用的な用言
    であった場合,常識として不適切とみなされ
    削除される.ある用言がある概念にとって常
    識か否かは,その概念に係る用言数に依存
    する(下図参照).  
     
     
     
     
     
     
     
     
     
     
    .  
    係り元となる概念の数が多い場合,特徴的な
    出現分布になることを利用し,統計的情報を
    用いて削除用言数を自動的に決定した(下
    式)  
    ༻ݮ਺ͷมԽ
    Fig. 4 Emergence distribution in the top N predicates
    ݁ՌΛਤ 5 ʹࣔ͢ɽN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸
    ࡟আ༻ݮ਺͸ྦྷ৐తʹมԽ͠ɼN ͕ 20,000 Λ௒͑ͨ
    ஈ֊Ͱ΄ͱΜͲมԽ͠ͳ͘ͳ͍ͬͯΔ͜ͱ͕෼͔Δɽ
    ਤ 5 ଟ͘ͷ༻ݴͷ܎ΓݩͱͳΔ໊ࢺ্Ґ N ݅ʹ͓͚Δ
    ࡟আ༻ݴ਺ͷมԽ
    Fig. 5 The number of deleting predicates changes
    from N equals 1,000 to 70,000
    ͜ͷ݁Ռ͔Βɼ໊֤ࢺʹ͓͚Δ࡟আ༻ݮ਺Λܾఆ͢Δɽ
    N ΛมԽͤͨ͞৔߹ͷ࡟আ༻ݴ਺ͷมԽ͔Βۙࣅۂ
    ઢΛٻΊɼN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸ۙࣅۂ
    ઢͷ͔ࣜΒ࡟আ༻ݴΛܾఆ͢Δʢখ਺఺ҎԼ͸੾Γࣺ
    ͯʣ
    ɽ࡟আ༻ݴ਺ΛٻΊΔࣜΛҎԼʹࣔ͢ɽ
    y = 13135.0 × x−0.583 (1)
    ʹ-ͳΔɼ͕-͋ΔɼΛ-ݟΔɼΛ-දࣔɼͱ-ͳΔɼΛ-୳͢ɼΛ-ೖ
    ྗɼʹ-͋ΔɼΛ-࢖༻ɼΛ-௥ՃɼΛ-ݕࡧɼʹ-௥ՃɼΛ-࣋ͭɼ
    Λ-ԡ͢ɼΛ-࢖͏ɼʹ-ߦ͘ɼΛ-঺հɼ΁-¡/(˞܎Γड͚ղੳΤ
    ϥʔ), Λ-ొ࿥ɼʹ-໭Δɼͷ- ͋ΔɼΛ-બ୒ɼΛ-ೖΕΔɼ͕-
    ͍ΔɼΛ-ॻ͘ɼʹ-ೖΕΔɼͰ-୳͢ɼ͕- ߴ͍ɼΛ-ಡΉɼΛ-࡞
    Δɼʹ-ొ࿥ɼΛ-͚ͭΔɼ͕-දࣔɼʹ-ೖΔɼΛ-ؚΉɼ͕-ग़Δɼ
    ͕-ͳΔɼΛ-ങ͏ɼͰ-ݕࡧɼΛ-ܝࡌ
    ਤ 6 ͢΂ͯͷ໊ࢺʹର͢Δ࡟আ༻ݴ (ڞى͢Δ໊ࢺͷҟ
    ͳΓ਺͕ଟ͍ॱ)
    Fig. 6 The deleted predicates for all nouns
    ܎ͬͯग़ݱ͢Δස౓͕ߴ͍΄Ͳɼͦͷ໊ࢺͷৗࣝͱ͠
    ͯద੾ͳ༻ݴͰ͋Δͱߟ͑ΒΕΔɽ
    5. ֤֓೦ಉ࢜ͷྨࣅ౓ܭࢉ
    ৗࣝ஌ࣝϕʔεΛߏங͢ΔͨΊʹɼ֫ಘͨ͠ৗࣝΛ
    ༻໊͍ͯࢺʢ=ৗࣝ෇༩ͷର৅ͱͳΔ֓೦ʣؒͷҙຯ
    తؔ܎Λௐࠪ͢Δɽզʑ͸֓೦ؒʹݱΕΔੑ࣭ͱͯ͠
    ҎԼͷ 2 ͭͷԾઆΛཱͯͨɽ
    ʢ 1 ʣ ໊ࢺରʹ෇༩͞ΕΔৗࣝू߹͕ྨࣅ͍ͯͨ͠
    ৔߹ɼͦͷ໊ࢺର͸ྨࣅͨ֓͠೦Λ࣋ͭɽ
    ʢ 2 ʣ ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ
    ໊ࢺ c ΋ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨ
    ྨࣅ໊ͨ͠ࢺʢ=֓೦ʣͰ͋Δɽ
    Ծઆ (1) ΑΓɼ֓೦ಉ࢜ͷྨࣅ౓͸ͦͷ֓೦ಉ࢜ͷ
    ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎
    提案手法はベースラインと
    比較して軒並み高い精度
     → スコア関数によらず高    
        い精度が得られる
     → 一般的な類似度計算  
                       手法として有用である.
    概念間の類似度計算には,
    Jaccarad係数(Jac),Simpson係
    数(Simp),重み付きJaccard係
    数(WJac)を用いた.  
    類似度計算におけるノイズを抑えるために,解析対象とな
    る概念同士が持つ共通した常識集合のうち,それぞれにお
    いて最も頻度の低い用言以下の用言集合を削除する.  
    その後,概念同士が類似している場合,両者の他概念との
    類似度群が相関を持つことを利用し,両者の相関を類似度
    として計算する.
    ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅)
    ໊ࢺɿੈͷத ໊ࢺɿಓ࿏
    ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏
    ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ
    ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ
    Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢
    Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ
    ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ
    Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ
    ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢
    ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ
    ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ
    ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ
    ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
    ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠
    Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ
    ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
    Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹
    ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋
    ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ
    ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ
    Jac Simp WJac
    ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378
    max 0.451 0.335 0.376
    ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371
    max 0.481 0.446 0.364
    ఏҊख๏ ave 0.607 0.499 0.582
    max 0.591 0.461 0.558
    ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ
    ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “
    ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ
    no.106ɼpp.47-52ɼ1998.
    ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ
    ࢿݯڠձɽ
    ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ
    ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ
    ࢀߟจݙ
    [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep-
    tual metaphors: Ontology-based representation and cor-
    pora driven mapping principles. In Proceedings of the
    ACL 2003 workshop on Lexicon and figurative language,
    Vol. 14, pp. 36–42. Association for Computational Linguis-
    tics, 2003.
    [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative
    study on effective context selection for distributional sim-
    世の中
    1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅)
    ໊ࢺɿੈͷத ໊ࢺɿಓ࿏
    ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏
    ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ
    ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ
    Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢
    Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ
    ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ
    Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ
    ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢
    ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ
    ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ
    ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ
    ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ
    ߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠
    ͷํ໊͕ࢺʹରͯ͠ΑΓ
    ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ
    ͸໊ࢺʹର͢Δৗࣝू߹
    ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋
    Δɽ
    ࣅ౓ͷධՁ݁Ռ
    Jac Simp WJac
    .443 0.326 0.378
    .451 0.335 0.376
    .480 0.442 0.371
    .481 0.446 0.364
    607 0.499 0.582
    591 0.461 0.558
    ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ
    ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “
    ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ
    no.106ɼpp.47-52ɼ1998.
    ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ
    ࢿݯڠձɽ
    ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ
    ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ
    ࢀߟจݙ
    [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep-
    tual metaphors: Ontology-based representation and cor-
    pora driven mapping principles. In Proceedings of the
    ACL 2003 workshop on Lexicon and figurative language,
    Vol. 14, pp. 36–42. Association for Computational Linguis-
    tics, 2003.
    [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative
    study on effective context selection for distributional sim-
    道路 概念に対し付与される常識の例
    概念間に類似度の付与

    View Slide

  9. 0%
    10%
    20%
    30%
    40%
    50%
    60%
    70%
    80%
    90%
    100%
    Ψ Ϯ χ ϔ τ σ Χϥ ϤϦ Ϛσ ܭ
    ܗ༰
    ײ֮ɾײ৘
    มԽ
    ಈ࡞
    ໨త
    എܠ
    ಈࢺҙຯྨܕͷᐆດੑղফʹ޲͚ͨ֨ϑϨʔϜ৘ใͱͷؔ࿈ௐࠪ
    ಈࢺͷ ͭͷҙຯྨܕ
    <> தࢁঊɼࢁຊ࿨ӳɽ༻ݯͷ৽͍͠ҙຯྨܕʕ࡞༻ੑ༻ݴͱܗঢ়ੑ༻ݴʕɽݴޠॲཧֶձୈ ճ೥࣍େձൃද࿦จूɼQQɼɽ
    ಈ࡞
    ٬؍తʹ؍ଌऀ͕ଊ͑Δ͜ͱͷग़
    དྷΔӡಈͰɼ
    ͦͷӡಈ͕ऴྃ͢Δͱ
    ӡಈঢ়ଶʹ໭Γɼ
    ݁Ռঢ়ଶΛද͞ͳ
    ͍ಈࢺɽ
    ྫʣ
    ӭ͙ɼ
    ৯΂Δ
    มԽ
    ओମʹݱΕΔӡಈͷ݁Ռঢ়ଶΛද
    ͢ಈࢺɽ
    ओମ͕ҙࢤΛ࣋ͨͣ݁Ռͷ
    ΈΛද͠ɼ
    ͔ͭӡಈ͕ऴྃͯ͠΋ӡ
    ಈલͷঢ়ଶʹ͸໭Βͳ͍දݱɽ
    ྫʣ
    ס͘ɼ
    ࢮ͵
    ײ֮ɾײ৘
    ײ֮ث׭ͷ׆ಈ΍ɼ
    ಄೴΍৺ͷಈ͖
    ͳͲΛද͢஌৘ҙɽ
    ྫʣ
    ݟ͑Δɼ
    ײ͡Δ
    ܗ༰
    ਓ΍෺ͷੑ࣭ɼ
    ܗɼ
    ଘࡏɼ
    ؔ܎Λද͢
    දݱɽ
    ྫʣ
    ༏ΕΔɼ
    ҟͳΔ
    தࢁΒ <> ͸༻ݴͷܗଶతͳ෼ྨʢಈࢺͱܗ༰ࢺʣͱҙຯతͳ෼ྨ͕Ұக͠
    ͍ͯͳ͍໰୊ʹର͠ɼҙຯతͳ෼ྨ
    ʮ࡞༻ੑ༻ݴʯ
    ͱ
    ʮܗঢ়ੑ༻ݴʯ
    ΛఏҊɽ
    ͞
    Βʹɼܗଶతͳ෼ྨͱҙຯతͳ෼ྨͷதؒ֓೦ͱݴ͑Δ ͭͷҙຯྨܕΛ
    ఆٛɼ*1" ࣙॻதͷಈࢺ දݱʹରͯ͠औΓಘΔҙຯྨܕީิΛਓख
    Ͱ෇༩ɽ
    ಈࢺͷଟٛੑʹΑͬͯෳ਺ͷҙຯྨܕ͕෇༩͞Εͨಈࢺʹରͯ͠ɼจ຺৘
    ใ͔ΒҙຯྨܕͷᐆດੑΛղফ͢Δɽ
    ɹྫʣ
    ɹίοϓΛਫͰຬͨ͢ˠಈ࡞ɹ৚݅Λຬͨ͢ˠܗ༰
    ҙຯྨܕͷҧ͍ʹΑͬͯಈࢺͷจதͰͷ࢖ΘΕํ͕ҟͳΔͱԾఆɼࣗಈਪ
    ఆͷͨΊͷ༧උௐࠪΛߦ͏ɽ
    ௐࠪ಺༰ɾ݁Ռ
    ֤ද૚֨ΛऔΔಈࢺͷҙຯྨܕʹ܏޲͕͋Γɼ
    ෳ਺ͷҙຯྨܕ͕෇༩͞Ε
    ͍ͨͯΔಈࢺ͕จதʹ͓͍ͯͲͷҙຯྨܕʹͳΔ͔͸Ұ༷ͳ֬཰Ͱ͋Δ
    ͱԾఆ͠ɼ
    ҙຯྨܕ͝ͱʹಈࢺͷ਺Λಉ਺ʹἧ͑ΔΑ͏αϯϓϦϯάͨ͠
    ্Ͱද૚֨͝ͱͷҙຯྨܕͷग़ݱස౓Λௐ΂ͨɽ
    ද૚֨ͷස౓ ߲ͷछྨ
    ද૚֨͝ͱʹͦͷҙຯྨܕΛ࣋ͭಈࢺʹ͔͠औΒΕͳ͍߲Λௐ΂ͨɽ
    ͜
    ͷࡍɼ
    ߲ͷ໊ࢺΛ൚Խ͢ΔͨΊʹɼ
    ೔ຊޠޠኮେܥͷ໊ࢺҙຯଐੑΛར༻
    ͨ͠ɽ
    ͦͷ݁ՌҎԼͷΑ͏ͳҙຯྨܕݻ༗ͷද૚֨ͱ໊ࢺҙຯଐੑͷϖ
    Ξ͕ಘΒΕͨɽ
    ʢओ؍ʹΑΔҰ෦ൈਮʣ
    ୯Ұͷҙຯྨܕ͕෇༩͞Εͨಈࢺ දݱΛର৅ʹɼ
    ژ౎େֶ֨ϑϨʔϜΛ༻͍֤ͯʑͷҙຯྨܕ͕෇༩͞Εͨಈࢺ͕औΔද૚͓֨Αͼ߲Λௐ΂ͨɽ
    ˠΨɾτ֨ΛऔΔಈࢺ͸ܗ༰ɼ
    Ϯɾ
    ϔɾΧϥɾϤϦ֨ΛऔΔಈࢺ͸ಈ
    ࡞ͷׂ߹͕ߴ͍ɽ
    มԽͱײ֮ɾײ
    ৘Λಛ௃෇͚Δද૚֨͸ස౓৘ใ
    ͚ͩͰ͸ಘΒΕͳ͔ͬͨɽ
    ྫʣ
    ಈ࡞ɹΨ֨ ந৅ɼ
    Ϯ֨ ࣄ৅
    มԽɹϔ֨ ײ֮ɼ
    Ϛσ֨ ܗ
    ײ֮ɾײ৘ɹϤϦ֨ ࣄɼ
    ߦҝ
    ܗ༰ɹϚσ ಛ௃ɼ
    ϤϦ֨ ܗ
    ಈ࡞ มԽ ײ֮ɾײ৘ ܗ༰

    ҙຯྨܕݻ༗ͷ
    ද૚֨ ໊ࢺҙຯଐੑϖΞ਺

    View Slide

  10. 機械学習を用いたニ格深層格の自動付与の検討

    View Slide

  11. 普通名詞換言辞書の構築
    背景 国語辞典やシソーラスを用いた換言は多く行われている
    人が行う換言では、シソーラスや国語辞典等の言語資源
    では獲得出来ない知識も用いている
    目的 完全に手作業で普通名詞についての換言辞書の構築
    用言等換言辞書と合わせた換言辞書をクエリ拡張に用い
    て有用性を示す
    普通名詞換言辞書の構築
    JUMANの形態素辞書の普通名詞約1万7千語について、代
    表表記を換言対象として換言を行う
    換言先の内容語は2~3語以内に収める
    多語義であった場合は複数対とする
    語義はJUMANの形態素辞書のカテゴリに従う
    換言しない場合がある
    「上」:簡単な語にできない、「羅」:意味が分からない
    約1万7千語について換言作業を行い、約1万6千語の換言対
    を得た
    例)「学校 存在」
    換言辞書 「学校 いる」
    WordNet 「学校 いる」「学校 ある」
    「学院 いる」「学院 ある」
    「学園 いる」「学園 ある」
    元のクエリでとれた文の内容語と拡張してとれた文の内容語で類似度計算を行う
    元クエリで獲得した文数:140,604文
    換言辞書による拡張で獲得した文数:110,237文
    WordNetによる拡張で獲得した文数:110,151文
    元クエリの獲得文集合のJaccard係数で段階的に足切りを行い計算した結果
    および元クエリでの獲得文数が5文以下のものを除いた場合の計算の結果を右図に示す
    5文以下を除いた理由は、獲得文数が少ないクエリの影響を軽減するため
    換言辞書は日本語WordNet同義語データベースで拡張を行う場合と同等以上の効果がある
    カテゴリ 代表表記 換言結果
    人工物-金銭 旅費/りょひ 旅にかかる費用
    抽象物 クラス/くらす 階級
    組織・団体 クラス/くらす 集団
    場所-機能 上/うえ
    人工物-その他 羅/うすもの
    0
    0.05
    0.1
    0.15
    0.2
    0.25
    0.3
    0.35
    0.4
    ≧0.9 ≧0.8 ≧0.7 ≧0.6 ≧0.5 ≧0.4 ≧0.3 ≧0.2 ≧0.1 ≧0.0
    換言辞書 jacc WordNet jacc
    換言辞書 simp WordNet simp
    6文以上 換言辞書 jacc 6文以上 WordNet jacc
    6文以上 換言辞書 simp 6文以上 WordNet simp
    クエリ拡張による評価
    比較対象として日本語WordNet同義語データベース ver.1.0を用いて、換言辞書とWordNetの両方で見出し語となっている普通名詞とサ変名詞を一語づつ組み合わせたもの
    をクエリとし、毎日新聞2年分の記事から文検索を行う

    View Slide

  12. /PVO1BSBQISBTJOH#BTFEPOB7BSJFUZPG$POUFYUT
    *OQVU-PPLGPSUIFlBDDFTTzUPUIFBJSQPSU








    0VUQVU-PPLGPSUIFlXBZzUPUIFBJSQPSU
    SFTUBVSBOU
    NBSLFU
    QVSQPTF
    USBOTGFS
    GFF
    XBZ
    CVT
    USBOTQPSUBUJPO
    EFMJWFSZ
    MPPLGPSUIF UPUIFBJSQPSU
    XBZUSBOTGFSGFF
    5PTPSUCZUIFDPOUFYUTJNJMBSJUZ
    5PHFOFSBUF
    BQSPQFS
    TFOUFODF
    5PTFMFDU
    BTVJUBCMF
    QBSBQISBTF




    DPNNPO " #
    5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPNNPODPOUFYUCFUXFFO"BOE#
    EJ⒎FSFODF "
    5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYUJO"
    5/$5IFUPUBMOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYU
    common(original,candidate)× log(
    TNC
    difference(candidate)
    )
    4JNJMBSJUZ

    View Slide

  13. 14/09/22 NLP若若⼿手の会  第9回シンポジウム
    •  খֶੜͷจষಡղࢧԉʹ޲͚ͨޠኮฏқԽ
    •  จ຺ͷछྨ਺ʹ஫໨͢Δͱߴਫ਼౓ʹ׵ݴͰ͖Δ<ֿݪ>

    – ର৅ޠͱީิޠ͕ڞ௨ʹ࣋ͭจ຺ͷछྨ਺͕ଟ͍
    – ީิޠ͕࣋ͭจ຺ͷछྨ਺͕গͳ͍
    Ծઆ ૬ؔͷڧ͞ ୯ޠͷ෼෍
    ฏқͳޠ΄Ͳස౓͕ߴ͍ ڧ͍૬ؔͳ͠
    ߴස౓ޠ͸ฏқ
    ௿ස౓͔ͭฏқͳޠ΋ଟ͍
    ස౓͕ߴ͍΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔ͋Γ
    ස౓͕ߴ͍΄Ͳ
    จ຺ͷछྨ਺΋ଟ͍
    ฏқͳޠ΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔͳ͠
    จ຺ͷछྨ਺͕ଟ͍ޠ͸ฏқ
    จ຺͕গͳͯ͘΋ฏқͳޠ͸ଟ͍
    ⾼高頻度度語は平易易なのか?

    View Slide

  14. View Slide