Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室 研究概要(2014年)

自然言語処理研究室 研究概要(2014年)

自然言語処理研究室

February 28, 2017
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. Semantic Type Disambiguation for Japanese Verbs Japanese predicates consist of

    adjectives and verbs. It is generally assumed that adjectives signify properties or tates of people or objects, and while verbs signify observable actions or changes. However, there are verbs that signify properties, such as “༏ΕΔ (to excel)”, and emotions, such as “Ή͔ͭ͘ (to get frustrated)”. Therefore, POS differs from semantic classification for Japanese predicates. Nakayama and Yamamoto [1] proposed that predicates should be classified according to sense and, accordingly, they defined four semantic types: action, change, emotion, and modification. They then annotated all possible types that could relate to each verb in the IPADIC. Verbs that have am- biguity of sense can be annotated multiple types. In this case, one of the annotated types can be determined from the context (Example 1). In this study, we constructe a semantic type disambiguator, that determines verb type from context based on Nakayama and Yamamoto’s classification. Specifically, we constructed this disambiguator using a support vector machine (SVM) by building feature vectors. We used semantic categories of noun and results of morphological analysis for the feature vectors. We then achieved a 69.9% accuracy rate for newspaper articles using 10-fold cross-validation. The disambiguator will be available to be public. action: Expressions that signify objectively observable motion and in which the state does not change before and after the motion. e.g.) ӭ͙ (to swim), ৯΂Δ (to eat) change: Expressions that signify a state as a result of a motion and in which the state after the motion differs from the state before the motion. e.g.) ס͘ (to dry), ࢮ͵ (to die) emotion: Expressions that signify the operation of sense organ, such as eyes, ears, and skin, or mental actions. e.g.) ݟ͑Δ (to see), ײ͡Δ (to feel) modification: Expressions that signify a property, shape, being, or relation. e.g.) ༏ΕΔ (to excel), ҟͳΔ (to differ) [1] T. Nakayama and K. Yamamoto. “New Semantic Types for Predicates” , In Proceedings of the 17th Annual Meeting of the Association for Natural Language Processing, pp. 560-563, 2011. (in Japanese) A verb “ຬͨ͢” has both sense of “to fill” and “to satisfy” in English. “ίοϓʹਫΛຬͨ͢ (to fill a glass)” → action “৚݅Λຬͨ͢ (to satisfy a condition)” → modification Definitions of Four Semantic Types Example 1. Smantic type disambiguation
  2. 使いやすくカスタマイズ可能なテキスト解析ツールの開発 手法: ①区切りすぎてしまった形態素を連語として出力する。連語 として出力する形態素は、連語リストにまとめられた語のみ が対象であり、「形態素の途中から始まったり、終わったりし ないもの」・「含まれる形態素が1つ以上のもの」という条件が ある。連語リストはユーザがカスタマイズ可能である。 ②GUIを用いて、視覚的に分かりやすい解析器の作成を行う。 入力はテキストファイル、出力はCSVファイルに対応できるよ うにする。

    背景: 形態素解析とは、文を形態素に分割し品詞を付与する解析 であり、日本語教育学では語彙リストの作成のためなどに利 用されている。しかし、日本語教育学分野の方が既存の解 析器を使用するにはいくつかの問題がある。今回は ①形態素の区切りに関する問題 ②使いやすさに関する問題 の2つの問題点を挙げる。 ①は、形態素の区切りが細かすぎて、日本語教育学の分野 に適応しないという問題である。②は、解析にコマンドプロン プトを使うために起きる、マウス操作ができない・視覚的に分 かり辛いなどの問題である。 目的: 多くの人に簡単に形態素解析器を使用してもらうため、 (1)日本語教育学の分野に合った形態素の区切りをする (2)解析はキーボードとマウス操作のみで行うことができる 形態素解析器の作成を行う。 仕様: 入力はテキストファイルのみを受け付け、出力はCSVファイ ル(excelなどで開けるファイル)のみを使用する。現在の連語 リストには、「日本語文型辞典」および「機能表現辞書」つつじ の見出し語が入っている。 また、形態素解析部分も自作し、配布時に解析用の辞書以 外はすべてまとめてインストールできるようにした。 形態素解析 連語処理 解析用辞書 連語リスト 入力 ファイル (テキスト) 出力 ファイル (CSV) G U I 昨年には ~ 昨年:名詞 副詞可能 に:助詞 格助詞 一般 は:助詞 係助詞 昨年:名詞 副詞可能 には:連語
  3. จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺ׵ݴͷධՁ   ೖྗจͱಉ͡จ຺Ͱ ༻͍ΒΕΔ໊ࢺΛऩू   ऩू͞Ε໊ͨࢺ܈͔Β ׵ݴݩͷ໊ࢺͱଟ͘ͷ จ຺Λڞ༗͢Δ໊ࢺΛબ୒ όε ഑ୡ

    ߦ͖ํ ৐Γ׵͑ ྉۚ ૹܴ ҿ৯ళ ҙຯ ૬৔ ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ ˣ  ߦ͖ํ  ৐Γ׵͑  ྉۚ ׵ݴީิʲఏҊख๏ʳ ೖྗจ ׵ݴީิʲैདྷख๏ʳ േۚܐɺաྉɺʜ ʙສԁҎԼͷേۚʹॲ͢Δ ௄໾ɺՊྉɺʜ ෛՙɺετϨεɺʜ ࠊ΁ͷෛ୲Λܰݮ͢Δ අ༻ɺܦඅɺʜ ఏҊख๏ ʮΞΫηεʯͱ ໊֤ࢺͷจ຺ͷ ྨࣅ౓͕ߴ͍ॱ ೖྗจ຺Λ ߟྀͨ͠ ׵ݴ͕Ͱ͖Δ
  4. ೔ຊޠͷޠኮత׵ݴ஌ࣝͷ࣭తධՁ ໊শ ऩ࿥਺ ඼ࢺ ऩूํ๏ ܗࣜ 11%#+BQBOFTFʢ4αΠζʣ   

    ۟ ର༁ίʔύε ۟ˠ۟ ಺༰ޠ׵ݴࣙॻʢ༻ݴ౳׵ݴࣙॻʣ   ༻ݴ ਓख ޠˠ۟ ಺༰ޠ׵ݴࣙॻʢී௨໊ࢺ׵ݴࣙॻʣ   ໊ࢺ ೔ຊޠ8PSE/FUಉٛޠσʔλϕʔε   ໊ࢺ ݴޠࢿݯ͓Αͼਓख ޠˠޠ ಈࢺؚҙؔ܎%#ʢ/USJWɿྨࣅɾ্ҐԼҐؔ܎ʣ   ಈࢺ ؚҙείΞܭࢉ ͓Αͼਓख ಈࢺؚҙؔ܎%#ʢ5SJWɿจࣈ্แؚؔ܎ʹ͋Δʣ   جຊతҙຯؔ܎ͷࣄྫϕʔεʢུهରʣ   ໊ࢺ จ຺ྨࣅ౓ ͓Αͼਓख جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟܗಉٛޠରʣ   جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟදهରʣ         11%#+BQBOFTF ༻ݴ౳׵ݴࣙॻ ී௨໊ࢺ׵ݴࣙॻ 8PSE/FUಉٛޠ%# ಈࢺؚҙ%#ʢ/USJWʣ ಈࢺؚҙ%#ʢ5SJWʣ ུهର ҟܗಉٛޠର ҟදهର ৗʹ׵ݴՄೳ จ຺ʹΑͬͯ׵ݴՄೳ ৗʹ׵ݴෆՄೳ       11%#+BQBOFTF ༻ݴ౳׵ݴࣙॻ ී௨໊ࢺ׵ݴࣙॻ 8PSE/FUಉٛޠ%# ಈࢺؚҙ%#ʢ/USJWʣ ಈࢺؚҙ%#ʢ5SJWʣ ུهର ҟܗಉٛޠର ҟදهର ਖ਼ղ཰
  5. จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺͷ׵ݴͷఏҊ   ೖྗจͱಉ͡จ຺Ͱ ༻͍ΒΕΔ໊ࢺΛऩू   ऩू͞Ε໊ͨࢺ܈͔Β ׵ݴݩͷ໊ࢺͱଟ͘ͷ จ຺Λڞ༗͢Δ໊ࢺΛબ୒ όε ഑ୡ

    ߦ͖ํ ৐Γ׵͑ ྉۚ ૹܴ ҿ৯ళ ҙຯ ૬৔ ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ ˣ  ߦ͖ํ  ৐Γ׵͑  ྉۚ ೖྗจ ग़ྗจ ɹɹΦʔφʔͷঝೝ͕ඞཁʹͳΔ ɹɹΦʔφʔͷڐՄ͕ඞཁʹͳΔ ɹɹॏཁͳ՝୊ͱͯ͠औΓ૊ΜͰ͍Δ ɹɹॏཁͳ໰୊ͱͯ͠औΓ૊ΜͰ͍Δ ɹɹྑ৺తͳྉۚΛఏڙ͢Δ ɹɹྑ৺తͳՁ֨Λఏڙ͢Δ ׵ݴͷྫ ఏҊख๏ ʮΞΫηεʯͱ ໊֤ࢺͷจ຺ͷ ྨࣅ౓͕ߴ͍ॱ
  6. 大規模常識知識ベース構築のための常識表現の自動獲得  本研究では,名詞を概念,名詞が格付きで係る用言を常識と定義し,大規模なWebテキストから自然言語処理の意味解析に利用可 能な常識知識ベースを自動的に構築することを目的とする. ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ ໊ࢺɿੈͷத ໊ࢺ ϕʔεϥΠϯ

    1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ࢖༻ͨ͠ݴޠ ʲ1ʳ നҪ ་ɼେࢁ ೔ຊޠޠኮେܥ no.106ɼpp.47 ʲ2ʳ ޻౻ ୓ɼլ୔ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ܎Γड͚ղੳ”ɼ ࢀߟจݙ [1] K. Ahrens, S.F tual metaphors: pora driven ma ACL 2003 work Vol. 14, pp. 36–4 tics, 2003. [2] M. Hagiwara, Y study on effectiv 日本語Nグラム中で出現頻度上位90%を占める1,617個の名詞について,正解セット の相関を求める    *  ベースライン1:用言の削除を行わない手法    *  ベースライン2:PMIスコアがβ=0以下の用言を削除   正解セットの類似度計算式は右下の通り   2. ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ໊ࢺ c ΋ ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨྨࣅͨ͠ ໊ࢺͰ͋Δɽ Ծઆ (1) ΑΓɼ໊ࢺಉ࢜ͷྨࣅ౓͸ͦͷ໊ࢺಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎ Γड͚ղੳޡΓ౳ʹΑͬͯ෇༩͞Εͨ௿ස౓ͷ༻ݴʹ ΑΔӨڹΛ཈͑ΔͨΊʹɼղੳର৅ͱͳΔ໊ࢺಉ͕࢜ ࣋ͭڞ௨ͨ͠༻ݴू߹ͷ͏ͪɼͦΕͧΕʹ͓͍ͯ࠷΋ max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) (3) ͜͜Ͱ d(wi ) ͱ͸ɼ͔ࠜΒ wi ·Ͱͷਂ͞ɼd(wi , wj ) ͱ͸ɼ͔ࠜΒ໊ࢺ wi ͱ໊ࢺ wj ͕ڞ༗͢Δ্Ґ֓೦· Ͱͷਂ͞Λද͍ͯ͠Δɽ໊ࢺ wi ͱ໊ࢺ wj ͕ྨࣅͨ͠ ֓೦Λ͍࣋ͬͯΔ৔߹ɼ྆ sim ؔ਺ͷ஋͸ߴ͘ͳΔɽ 6.1 ൺֱख๏ ͱͷྨࣅ౓ू߹ SIMj ͷྨࣅ౓΋ߴ͘ͳΔɽ Ҏ্ͷߟ͑ํ͔Βɼൺֱ͢Δ 2 ͭͷ໊ࢺͱͦͷଞͷ ໊ࢺू߹ͱͷྨࣅ౓Λܭࢉ͠ɼ྆ऀͷྨࣅ౓ू߹ͷ૬ ؔΛٻΊɼ͜ͷ૬ؔ܎਺Λ྆ऀͷྨࣅ౓ͱ͢Δɽ 6 ධՁ ࡞੒໊ͨ͠ࢺͷৗࣝ஌ࣝϕʔεʹ͍ͭͯɼ໊ࢺʹର ͠ਖ਼͍͠ৗ͕ࣝ෇༩͞Εɼ໊ࢺಉ࢜ͷؔ܎Λਖ਼͘͠ܭ ࢉͰ͖͍ͯΔ͔ධՁ͢ΔɽຊݚڀͰ͸ɼධՁηοτͱ ͯ͠೔ຊޠޠኮେܥதͰ “໊ࢺ-۩ମ” ʹϥϕϧ෇͚͞ Εɼߋʹ೔ຊޠ N-gram தͰग़ݱස౓ͷ্Ґ 90 ˋΛ઎ ΊΔ 1,617 ݸͷ໊ࢺΛ༻͍ͯɼධՁηοτͱਖ਼ղηο τʹ͓͚Δ໊֤ࢺؒͷྨࣅ౓ू߹ͷ૬ؔ܎਺ΛٻΊΔɽ ਖ਼ղηοτͱͯ͠ɼ೔ຊޠޠኮେܥதʹ͓͚Δ໊ࢺؒ ͷڑ཭Λܭࢉͨ͠ɽ֓೦ x ∈ X Λ໊࣋ͭࢺ wi ͱɼ֓ ೦ y ∈ Y Λ໊࣋ͭࢺ wj ͷྨࣅ౓͸ҎԼͷࣜͰܭࢉ͞ ΕΔɽ ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x )d(wj,y ) (2) 類似度計算の評価 概念として適切な名詞の選定 日本語語彙大系中で “名詞-­‐具体”でラベル付 けされている名詞12,042  語 常識として適切な用言の選定 0   10000   20000   30000   40000   0   5000   10000   係り元となる   概念の数が多い   =削除用言 用言の係り元となる概念の数 用 言 異 数 特定の概念に対し高頻度で係る用言は,その 概念の常識である可能性が高いが,しかしそ の用言が多くの名詞に対し係る汎用的な用言 であった場合,常識として不適切とみなされ 削除される.ある用言がある概念にとって常 識か否かは,その概念に係る用言数に依存 する(下図参照).                       .   係り元となる概念の数が多い場合,特徴的な 出現分布になることを利用し,統計的情報を 用いて削除用言数を自動的に決定した(下 式)   ༻ݮ਺ͷมԽ Fig. 4 Emergence distribution in the top N predicates ݁ՌΛਤ 5 ʹࣔ͢ɽN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸ ࡟আ༻ݮ਺͸ྦྷ৐తʹมԽ͠ɼN ͕ 20,000 Λ௒͑ͨ ஈ֊Ͱ΄ͱΜͲมԽ͠ͳ͘ͳ͍ͬͯΔ͜ͱ͕෼͔Δɽ ਤ 5 ଟ͘ͷ༻ݴͷ܎ΓݩͱͳΔ໊ࢺ্Ґ N ݅ʹ͓͚Δ ࡟আ༻ݴ਺ͷมԽ Fig. 5 The number of deleting predicates changes from N equals 1,000 to 70,000 ͜ͷ݁Ռ͔Βɼ໊֤ࢺʹ͓͚Δ࡟আ༻ݮ਺Λܾఆ͢Δɽ N ΛมԽͤͨ͞৔߹ͷ࡟আ༻ݴ਺ͷมԽ͔Βۙࣅۂ ઢΛٻΊɼN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸ۙࣅۂ ઢͷ͔ࣜΒ࡟আ༻ݴΛܾఆ͢Δʢখ਺఺ҎԼ͸੾Γࣺ ͯʣ ɽ࡟আ༻ݴ਺ΛٻΊΔࣜΛҎԼʹࣔ͢ɽ y = 13135.0 × x−0.583 (1) ʹ-ͳΔɼ͕-͋ΔɼΛ-ݟΔɼΛ-දࣔɼͱ-ͳΔɼΛ-୳͢ɼΛ-ೖ ྗɼʹ-͋ΔɼΛ-࢖༻ɼΛ-௥ՃɼΛ-ݕࡧɼʹ-௥ՃɼΛ-࣋ͭɼ Λ-ԡ͢ɼΛ-࢖͏ɼʹ-ߦ͘ɼΛ-঺հɼ΁-¡/(˞܎Γड͚ղੳΤ ϥʔ), Λ-ొ࿥ɼʹ-໭Δɼͷ- ͋ΔɼΛ-બ୒ɼΛ-ೖΕΔɼ͕- ͍ΔɼΛ-ॻ͘ɼʹ-ೖΕΔɼͰ-୳͢ɼ͕- ߴ͍ɼΛ-ಡΉɼΛ-࡞ Δɼʹ-ొ࿥ɼΛ-͚ͭΔɼ͕-දࣔɼʹ-ೖΔɼΛ-ؚΉɼ͕-ग़Δɼ ͕-ͳΔɼΛ-ങ͏ɼͰ-ݕࡧɼΛ-ܝࡌ ਤ 6 ͢΂ͯͷ໊ࢺʹର͢Δ࡟আ༻ݴ (ڞى͢Δ໊ࢺͷҟ ͳΓ਺͕ଟ͍ॱ) Fig. 6 The deleted predicates for all nouns ܎ͬͯग़ݱ͢Δස౓͕ߴ͍΄Ͳɼͦͷ໊ࢺͷৗࣝͱ͠ ͯద੾ͳ༻ݴͰ͋Δͱߟ͑ΒΕΔɽ 5. ֤֓೦ಉ࢜ͷྨࣅ౓ܭࢉ ৗࣝ஌ࣝϕʔεΛߏங͢ΔͨΊʹɼ֫ಘͨ͠ৗࣝΛ ༻໊͍ͯࢺʢ=ৗࣝ෇༩ͷର৅ͱͳΔ֓೦ʣؒͷҙຯ తؔ܎Λௐࠪ͢Δɽզʑ͸֓೦ؒʹݱΕΔੑ࣭ͱͯ͠ ҎԼͷ 2 ͭͷԾઆΛཱͯͨɽ ʢ 1 ʣ ໊ࢺରʹ෇༩͞ΕΔৗࣝू߹͕ྨࣅ͍ͯͨ͠ ৔߹ɼͦͷ໊ࢺର͸ྨࣅͨ֓͠೦Λ࣋ͭɽ ʢ 2 ʣ ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ ໊ࢺ c ΋ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨ ྨࣅ໊ͨ͠ࢺʢ=֓೦ʣͰ͋Δɽ Ծઆ (1) ΑΓɼ֓೦ಉ࢜ͷྨࣅ౓͸ͦͷ֓೦ಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎ 提案手法はベースラインと 比較して軒並み高い精度  → スコア関数によらず高         い精度が得られる  → 一般的な類似度計算                      手法として有用である. 概念間の類似度計算には, Jaccarad係数(Jac),Simpson係 数(Simp),重み付きJaccard係 数(WJac)を用いた.   類似度計算におけるノイズを抑えるために,解析対象とな る概念同士が持つ共通した常識集合のうち,それぞれにお いて最も頻度の低い用言以下の用言集合を削除する.   その後,概念同士が類似している場合,両者の他概念との 類似度群が相関を持つことを利用し,両者の相関を類似度 として計算する. ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢ Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢ ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 世の中 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ ͷํ໊͕ࢺʹରͯ͠ΑΓ ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ ͸໊ࢺʹର͢Δৗࣝू߹ ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ Δɽ ࣅ౓ͷධՁ݁Ռ Jac Simp WJac .443 0.326 0.378 .451 0.335 0.376 .480 0.442 0.371 .481 0.446 0.364 607 0.499 0.582 591 0.461 0.558 ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 道路 概念に対し付与される常識の例 概念間に類似度の付与
  7. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

    100% Ψ Ϯ χ ϔ τ σ Χϥ ϤϦ Ϛσ ܭ ܗ༰ ײ֮ɾײ৘ มԽ ಈ࡞ ໨త എܠ ಈࢺҙຯྨܕͷᐆດੑղফʹ޲͚ͨ֨ϑϨʔϜ৘ใͱͷؔ࿈ௐࠪ ಈࢺͷ  ͭͷҙຯྨܕ <> தࢁঊɼࢁຊ࿨ӳɽ༻ݯͷ৽͍͠ҙຯྨܕʕ࡞༻ੑ༻ݴͱܗঢ়ੑ༻ݴʕɽݴޠॲཧֶձୈ  ճ೥࣍େձൃද࿦จूɼQQɼɽ ಈ࡞ ٬؍తʹ؍ଌऀ͕ଊ͑Δ͜ͱͷग़ དྷΔӡಈͰɼ ͦͷӡಈ͕ऴྃ͢Δͱ ӡಈঢ়ଶʹ໭Γɼ ݁Ռঢ়ଶΛද͞ͳ ͍ಈࢺɽ ྫʣ ӭ͙ɼ ৯΂Δ มԽ ओମʹݱΕΔӡಈͷ݁Ռঢ়ଶΛද ͢ಈࢺɽ ओମ͕ҙࢤΛ࣋ͨͣ݁Ռͷ ΈΛද͠ɼ ͔ͭӡಈ͕ऴྃͯ͠΋ӡ ಈલͷঢ়ଶʹ͸໭Βͳ͍දݱɽ ྫʣ ס͘ɼ ࢮ͵ ײ֮ɾײ৘ ײ֮ث׭ͷ׆ಈ΍ɼ ಄೴΍৺ͷಈ͖ ͳͲΛද͢஌৘ҙɽ ྫʣ ݟ͑Δɼ ײ͡Δ ܗ༰ ਓ΍෺ͷੑ࣭ɼ ܗɼ ଘࡏɼ ؔ܎Λද͢ දݱɽ ྫʣ ༏ΕΔɼ ҟͳΔ தࢁΒ <> ͸༻ݴͷܗଶతͳ෼ྨʢಈࢺͱܗ༰ࢺʣͱҙຯతͳ෼ྨ͕Ұக͠ ͍ͯͳ͍໰୊ʹର͠ɼҙຯతͳ෼ྨ ʮ࡞༻ੑ༻ݴʯ ͱ ʮܗঢ়ੑ༻ݴʯ ΛఏҊɽ ͞ Βʹɼܗଶతͳ෼ྨͱҙຯతͳ෼ྨͷதؒ֓೦ͱݴ͑Δ  ͭͷҙຯྨܕΛ ఆٛɼ*1" ࣙॻதͷಈࢺ   දݱʹରͯ͠औΓಘΔҙຯྨܕީิΛਓख Ͱ෇༩ɽ ಈࢺͷଟٛੑʹΑͬͯෳ਺ͷҙຯྨܕ͕෇༩͞Εͨಈࢺʹରͯ͠ɼจ຺৘ ใ͔ΒҙຯྨܕͷᐆດੑΛղফ͢Δɽ ɹྫʣ ɹίοϓΛਫͰຬͨ͢ˠಈ࡞ɹ৚݅Λຬͨ͢ˠܗ༰ ҙຯྨܕͷҧ͍ʹΑͬͯಈࢺͷจதͰͷ࢖ΘΕํ͕ҟͳΔͱԾఆɼࣗಈਪ ఆͷͨΊͷ༧උௐࠪΛߦ͏ɽ ௐࠪ಺༰ɾ݁Ռ ֤ද૚֨ΛऔΔಈࢺͷҙຯྨܕʹ܏޲͕͋Γɼ ෳ਺ͷҙຯྨܕ͕෇༩͞Ε ͍ͨͯΔಈࢺ͕จதʹ͓͍ͯͲͷҙຯྨܕʹͳΔ͔͸Ұ༷ͳ֬཰Ͱ͋Δ ͱԾఆ͠ɼ ҙຯྨܕ͝ͱʹಈࢺͷ਺Λಉ਺ʹἧ͑ΔΑ͏αϯϓϦϯάͨ͠ ্Ͱද૚֨͝ͱͷҙຯྨܕͷग़ݱස౓Λௐ΂ͨɽ ද૚֨ͷස౓ ߲ͷछྨ ද૚֨͝ͱʹͦͷҙຯྨܕΛ࣋ͭಈࢺʹ͔͠औΒΕͳ͍߲Λௐ΂ͨɽ ͜ ͷࡍɼ ߲ͷ໊ࢺΛ൚Խ͢ΔͨΊʹɼ ೔ຊޠޠኮେܥͷ໊ࢺҙຯଐੑΛར༻ ͨ͠ɽ ͦͷ݁ՌҎԼͷΑ͏ͳҙຯྨܕݻ༗ͷද૚֨ͱ໊ࢺҙຯଐੑͷϖ Ξ͕ಘΒΕͨɽ ʢओ؍ʹΑΔҰ෦ൈਮʣ ୯Ұͷҙຯྨܕ͕෇༩͞Εͨಈࢺ  දݱΛର৅ʹɼ ژ౎େֶ֨ϑϨʔϜΛ༻͍֤ͯʑͷҙຯྨܕ͕෇༩͞Εͨಈࢺ͕औΔද૚͓֨Αͼ߲Λௐ΂ͨɽ ˠΨɾτ֨ΛऔΔಈࢺ͸ܗ༰ɼ Ϯɾ ϔɾΧϥɾϤϦ֨ΛऔΔಈࢺ͸ಈ ࡞ͷׂ߹͕ߴ͍ɽ มԽͱײ֮ɾײ ৘Λಛ௃෇͚Δද૚֨͸ස౓৘ใ ͚ͩͰ͸ಘΒΕͳ͔ͬͨɽ ྫʣ ಈ࡞ɹΨ֨  ந৅ɼ Ϯ֨  ࣄ৅ มԽɹϔ֨  ײ֮ɼ Ϛσ֨  ܗ ײ֮ɾײ৘ɹϤϦ֨  ࣄɼ ߦҝ ܗ༰ɹϚσ  ಛ௃ɼ ϤϦ֨  ܗ ಈ࡞ มԽ ײ֮ɾײ৘ ܗ༰     ҙຯྨܕݻ༗ͷ ද૚֨  ໊ࢺҙຯଐੑϖΞ਺
  8. 普通名詞換言辞書の構築 背景 国語辞典やシソーラスを用いた換言は多く行われている 人が行う換言では、シソーラスや国語辞典等の言語資源 では獲得出来ない知識も用いている 目的 完全に手作業で普通名詞についての換言辞書の構築 用言等換言辞書と合わせた換言辞書をクエリ拡張に用い て有用性を示す 普通名詞換言辞書の構築

    JUMANの形態素辞書の普通名詞約1万7千語について、代 表表記を換言対象として換言を行う 換言先の内容語は2~3語以内に収める 多語義であった場合は複数対とする 語義はJUMANの形態素辞書のカテゴリに従う 換言しない場合がある 「上」:簡単な語にできない、「羅」:意味が分からない 約1万7千語について換言作業を行い、約1万6千語の換言対 を得た 例)「学校 存在」 換言辞書 「学校 いる」 WordNet 「学校 いる」「学校 ある」 「学院 いる」「学院 ある」 「学園 いる」「学園 ある」 元のクエリでとれた文の内容語と拡張してとれた文の内容語で類似度計算を行う 元クエリで獲得した文数:140,604文 換言辞書による拡張で獲得した文数:110,237文 WordNetによる拡張で獲得した文数:110,151文 元クエリの獲得文集合のJaccard係数で段階的に足切りを行い計算した結果 および元クエリでの獲得文数が5文以下のものを除いた場合の計算の結果を右図に示す 5文以下を除いた理由は、獲得文数が少ないクエリの影響を軽減するため 換言辞書は日本語WordNet同義語データベースで拡張を行う場合と同等以上の効果がある カテゴリ 代表表記 換言結果 人工物-金銭 旅費/りょひ 旅にかかる費用 抽象物 クラス/くらす 階級 組織・団体 クラス/くらす 集団 場所-機能 上/うえ 人工物-その他 羅/うすもの 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 ≧0.9 ≧0.8 ≧0.7 ≧0.6 ≧0.5 ≧0.4 ≧0.3 ≧0.2 ≧0.1 ≧0.0 換言辞書 jacc WordNet jacc 換言辞書 simp WordNet simp 6文以上 換言辞書 jacc 6文以上 WordNet jacc 6文以上 換言辞書 simp 6文以上 WordNet simp クエリ拡張による評価 比較対象として日本語WordNet同義語データベース ver.1.0を用いて、換言辞書とWordNetの両方で見出し語となっている普通名詞とサ変名詞を一語づつ組み合わせたもの をクエリとし、毎日新聞2年分の記事から文検索を行う
  9. /PVO1BSBQISBTJOH#BTFEPOB7BSJFUZPG$POUFYUT *OQVU-PPLGPSUIFlBDDFTTzUPUIFBJSQPSU        

    0VUQVU-PPLGPSUIFlXBZzUPUIFBJSQPSU SFTUBVSBOU NBSLFU QVSQPTF USBOTGFS GFF XBZ CVT USBOTQPSUBUJPO EFMJWFSZ MPPLGPSUIF  UPUIFBJSQPSU XBZUSBOTGFSGFF 5PTPSUCZUIFDPOUFYUTJNJMBSJUZ 5PHFOFSBUF BQSPQFS TFOUFODF 5PTFMFDU BTVJUBCMF QBSBQISBTF     DPNNPO " # 5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPNNPODPOUFYUCFUXFFO"BOE# EJ⒎FSFODF " 5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYUJO" 5/$5IFUPUBMOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYU common(original,candidate)× log( TNC difference(candidate) ) 4JNJMBSJUZ
  10. 14/09/22 NLP若若⼿手の会  第9回シンポジウム •  খֶੜͷจষಡղࢧԉʹ޲͚ͨޠኮฏқԽ •  จ຺ͷछྨ਺ʹ஫໨͢Δͱߴਫ਼౓ʹ׵ݴͰ͖Δ<ֿݪ >  – ର৅ޠͱީิޠ͕ڞ௨ʹ࣋ͭจ຺ͷछྨ਺͕ଟ͍

    – ީิޠ͕࣋ͭจ຺ͷछྨ਺͕গͳ͍ Ծઆ ૬ؔͷڧ͞ ୯ޠͷ෼෍ ฏқͳޠ΄Ͳස౓͕ߴ͍ ڧ͍૬ؔͳ͠ ߴස౓ޠ͸ฏқ ௿ස౓͔ͭฏқͳޠ΋ଟ͍ ස౓͕ߴ͍΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔ͋Γ ස౓͕ߴ͍΄Ͳ จ຺ͷछྨ਺΋ଟ͍ ฏқͳޠ΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔͳ͠ จ຺ͷछྨ਺͕ଟ͍ޠ͸ฏқ จ຺͕গͳͯ͘΋ฏқͳޠ͸ଟ͍ ⾼高頻度度語は平易易なのか?