自然言語処理研究室研究概要(2014年)

長岡技術科学大学自然言語処理研究室研究概要（2014年）

Semantic Type Disambiguation for Japanese Verbs Japanese predicates consist of
adjectives and verbs. It is generally assumed that adjectives signify properties or tates of people or objects, and while verbs signify observable actions or changes. However, there are verbs that signify properties, such as “༏ΕΔ (to excel)”, and emotions, such as “Ή͔ͭ͘ (to get frustrated)”. Therefore, POS differs from semantic classification for Japanese predicates. Nakayama and Yamamoto [1] proposed that predicates should be classified according to sense and, accordingly, they defined four semantic types: action, change, emotion, and modification. They then annotated all possible types that could relate to each verb in the IPADIC. Verbs that have am- biguity of sense can be annotated multiple types. In this case, one of the annotated types can be determined from the context (Example 1). In this study, we constructe a semantic type disambiguator, that determines verb type from context based on Nakayama and Yamamoto’s classification. Specifically, we constructed this disambiguator using a support vector machine (SVM) by building feature vectors. We used semantic categories of noun and results of morphological analysis for the feature vectors. We then achieved a 69.9% accuracy rate for newspaper articles using 10-fold cross-validation. The disambiguator will be available to be public. action: Expressions that signify objectively observable motion and in which the state does not change before and after the motion. e.g.) ӭ͙ (to swim), ৯΂Δ (to eat) change: Expressions that signify a state as a result of a motion and in which the state after the motion differs from the state before the motion. e.g.) ס͘ (to dry), ࢮ͵ (to die) emotion: Expressions that signify the operation of sense organ, such as eyes, ears, and skin, or mental actions. e.g.) ݟ͑Δ (to see), ײ͡Δ (to feel) modification: Expressions that signify a property, shape, being, or relation. e.g.) ༏ΕΔ (to excel), ҟͳΔ (to differ) [1] T. Nakayama and K. Yamamoto. “New Semantic Types for Predicates” , In Proceedings of the 17th Annual Meeting of the Association for Natural Language Processing, pp. 560-563, 2011. (in Japanese) A verb “ຬͨ͢” has both sense of “to fill” and “to satisfy” in English. “ίοϓʹਫΛຬͨ͢ (to fill a glass)” → action “৚݅Λຬͨ͢ (to satisfy a condition)” → modification Definitions of Four Semantic Types Example 1. Smantic type disambiguation

使いやすくカスタマイズ可能なテキスト解析ツールの開発手法： ①区切りすぎてしまった形態素を連語として出力する。連語として出力する形態素は、連語リストにまとめられた語のみが対象であり、「形態素の途中から始まったり、終わったりしないもの」・「含まれる形態素が1つ以上のもの」という条件がある。連語リストはユーザがカスタマイズ可能である。 ②GUIを用いて、視覚的に分かりやすい解析器の作成を行う。入力はテキストファイル、出力はCSVファイルに対応できるようにする。
背景：形態素解析とは、文を形態素に分割し品詞を付与する解析であり、日本語教育学では語彙リストの作成のためなどに利用されている。しかし、日本語教育学分野の方が既存の解析器を使用するにはいくつかの問題がある。今回は ①形態素の区切りに関する問題 ②使いやすさに関する問題の2つの問題点を挙げる。 ①は、形態素の区切りが細かすぎて、日本語教育学の分野に適応しないという問題である。②は、解析にコマンドプロンプトを使うために起きる、マウス操作ができない・視覚的に分かり辛いなどの問題である。目的：多くの人に簡単に形態素解析器を使用してもらうため、 (1)日本語教育学の分野に合った形態素の区切りをする (2)解析はキーボードとマウス操作のみで行うことができる形態素解析器の作成を行う。仕様：入力はテキストファイルのみを受け付け、出力はCSVファイル(excelなどで開けるファイル)のみを使用する。現在の連語リストには、「日本語文型辞典」および「機能表現辞書」つつじの見出し語が入っている。また、形態素解析部分も自作し、配布時に解析用の辞書以外はすべてまとめてインストールできるようにした。形態素解析連語処理解析用辞書連語リスト入力ファイル (テキスト) 出力ファイル (CSV) G U I 昨年には～昨年:名詞副詞可能に:助詞格助詞一般は:助詞係助詞昨年:名詞副詞可能には:連語

จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺ׵ݴͷධՁ   ೖྗจͱಉ͡จ຺Ͱ ༻͍ΒΕΔ໊ࢺΛऩू   ऩू͞Ε໊ͨࢺ܈͔Β ׵ݴݩͷ໊ࢺͱଟ͘ͷ จ຺Λڞ༗͢Δ໊ࢺΛબ୒ όε ഑ୡ
ߦ͖ํ ৐Γ׵͑ ྉۚ ૹܴ ҿ৯ళ ҙຯ ૬৔ ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ ˣ ߦ͖ํ ৐Γ׵͑ ྉۚ ׵ݴީิʲఏҊख๏ʳ ೖྗจ ׵ݴީิʲैདྷख๏ʳ േۚܐɺաྉɺʜ ʙສԁҎԼͷേۚʹॲ͢Δ ௄໾ɺՊྉɺʜ ෛՙɺετϨεɺʜ ࠊ΁ͷෛ୲Λܰݮ͢Δ අ༻ɺܦඅɺʜ ఏҊख๏ ʮΞΫηεʯͱ ໊֤ࢺͷจ຺ͷ ྨࣅ౓͕ߴ͍ॱ ೖྗจ຺Λ ߟྀͨ͠ ׵ݴ͕Ͱ͖Δ

೔ຊޠͷޠኮత׵ݴ஌ࣝͷ࣭తධՁ ໊শ ऩ࿥਺ ඼ࢺ ऩूํ๏ ܗࣜ 11%#+BQBOFTFʢ4αΠζʣ
۟ ର༁ίʔύε ۟ˠ۟ ಺༰ޠ׵ݴࣙॻʢ༻ݴ౳׵ݴࣙॻʣ ༻ݴ ਓख ޠˠ۟ ಺༰ޠ׵ݴࣙॻʢී௨໊ࢺ׵ݴࣙॻʣ ໊ࢺ ೔ຊޠ8PSE/FUಉٛޠσʔλϕʔε ໊ࢺ ݴޠࢿݯ͓Αͼਓख ޠˠޠ ಈࢺؚҙؔ܎%#ʢ/USJWɿྨࣅɾ্ҐԼҐؔ܎ʣ ಈࢺ ؚҙείΞܭࢉ ͓Αͼਓख ಈࢺؚҙؔ܎%#ʢ5SJWɿจࣈ্แؚؔ܎ʹ͋Δʣ جຊతҙຯؔ܎ͷࣄྫϕʔεʢུهରʣ ໊ࢺ จ຺ྨࣅ౓ ͓Αͼਓख جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟܗಉٛޠରʣ جຊతҙຯؔ܎ͷࣄྫϕʔεʢҟදهରʣ 11%#+BQBOFTF ༻ݴ౳׵ݴࣙॻ ී௨໊ࢺ׵ݴࣙॻ 8PSE/FUಉٛޠ%# ಈࢺؚҙ%#ʢ/USJWʣ ಈࢺؚҙ%#ʢ5SJWʣ ུهର ҟܗಉٛޠର ҟදهର ৗʹ׵ݴՄೳ จ຺ʹΑͬͯ׵ݴՄೳ ৗʹ׵ݴෆՄೳ 11%#+BQBOFTF ༻ݴ౳׵ݴࣙॻ ී௨໊ࢺ׵ݴࣙॻ 8PSE/FUಉٛޠ%# ಈࢺؚҙ%#ʢ/USJWʣ ಈࢺؚҙ%#ʢ5SJWʣ ུهର ҟܗಉٛޠର ҟදهର ਖ਼ղ཰

保険関連文書を対象とした文書校正支援のための変換誤り検出目的：パンフレットなどの派生書類を入力文とし、保険の約款や特約などの基礎書　　　　類と対応付けし、その結果を使い誤りを検出する。手法：入力文と基礎書類を形態素解析し、内容語を抽出する。入力文が持つ内容　　　　　語をもっとも多く含む基礎書類の文を対応文とする。入力文が持つ内容語の　　　　うち対応文の持つ内容語にないものを誤りとして検出する。実験：基礎書類の全文で、誤りが1つになるようにすべての名詞で可能な限りの同　　　　音の名詞への置換を行いテストセットを作成し、その誤りを検出した。結果：対応付けの精度は77.7%であった。誤り検出は再現率99.6%、精度100%で
　　　　あった。保健証券等に記載の自動車をいいます。保健証券等　記載　自動車　いい入力文内容語の抽出基礎書類対応文：保険証券等に記載の自動車をいいます。内容語：保険証券等　記載　自動車　いい入力文の内容語を基に対応文を抽出対応文の内容語を基に誤りを検出保健証券等に記載の自動車をいいます。

จ຺ͷଟ༷ੑʹج໊ͮ͘ࢺͷ׵ݴͷఏҊ   ೖྗจͱಉ͡จ຺Ͱ ༻͍ΒΕΔ໊ࢺΛऩू   ऩू͞Ε໊ͨࢺ܈͔Β ׵ݴݩͷ໊ࢺͱଟ͘ͷ จ຺Λڞ༗͢Δ໊ࢺΛબ୒ όε ഑ୡ
ߦ͖ํ ৐Γ׵͑ ྉۚ ૹܴ ҿ৯ళ ҙຯ ૬৔ ۭߓ΁ͷ̋̋ ̋̋Λௐ΂Δ ೖྗจɿۭߓ΁ͷΞΫηεΛௐ΂Δ ग़ྗจɿۭߓ΁ͷߦ͖ํΛௐ΂Δ ˣ ߦ͖ํ ৐Γ׵͑ ྉۚ ೖྗจ ग़ྗจ ɹɹΦʔφʔͷঝೝ͕ඞཁʹͳΔ ɹɹΦʔφʔͷڐՄ͕ඞཁʹͳΔ ɹɹॏཁͳ՝୊ͱͯ͠औΓ૊ΜͰ͍Δ ɹɹॏཁͳ໰୊ͱͯ͠औΓ૊ΜͰ͍Δ ɹɹྑ৺తͳྉۚΛఏڙ͢Δ ɹɹྑ৺తͳՁ֨Λఏڙ͢Δ ׵ݴͷྫ ఏҊख๏ ʮΞΫηεʯͱ ໊֤ࢺͷจ຺ͷ ྨࣅ౓͕ߴ͍ॱ

大規模常識知識ベース構築のための常識表現の自動獲得　本研究では，名詞を概念，名詞が格付きで係る用言を常識と定義し，大規模なWebテキストから自然言語処理の意味解析に利用可能な常識知識ベースを自動的に構築することを目的とする． ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ ໊ࢺɿੈͷத ໊ࢺ ϕʔεϥΠϯ
1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ࢖༻ͨ͠ݴޠ ʲ1ʳ നҪ ་ɼେࢁ ೔ຊޠޠኮେܥ no.106ɼpp.47 ʲ2ʳ ޻౻ ୓ɼլ୔ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ܎Γड͚ղੳ”ɼ ࢀߟจݙ [1] K. Ahrens, S.F tual metaphors: pora driven ma ACL 2003 work Vol. 14, pp. 36–4 tics, 2003. [2] M. Hagiwara, Y study on effectiv 日本語Nグラム中で出現頻度上位90％を占める1,617個の名詞について，正解セットの相関を求める　* ベースライン1：用言の削除を行わない手法　* ベースライン2：PMIスコアがβ＝0以下の用言を削除正解セットの類似度計算式は右下の通り 2. ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ໊ࢺ c ΋ ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨྨࣅͨ͠ ໊ࢺͰ͋Δɽ Ծઆ (1) ΑΓɼ໊ࢺಉ࢜ͷྨࣅ౓͸ͦͷ໊ࢺಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎ Γड͚ղੳޡΓ౳ʹΑͬͯ෇༩͞Εͨ௿ස౓ͷ༻ݴʹ ΑΔӨڹΛ཈͑ΔͨΊʹɼղੳର৅ͱͳΔ໊ࢺಉ͕࢜ ࣋ͭڞ௨ͨ͠༻ݴू߹ͷ͏ͪɼͦΕͧΕʹ͓͍ͯ࠷΋ max sim(wi, wj) = max 2d(wi,x, wj,y) d(wi,x)d(wj,y) (3) ͜͜Ͱ d(wi ) ͱ͸ɼ͔ࠜΒ wi ·Ͱͷਂ͞ɼd(wi , wj ) ͱ͸ɼ͔ࠜΒ໊ࢺ wi ͱ໊ࢺ wj ͕ڞ༗͢Δ্Ґ֓೦· Ͱͷਂ͞Λද͍ͯ͠Δɽ໊ࢺ wi ͱ໊ࢺ wj ͕ྨࣅͨ͠ ֓೦Λ͍࣋ͬͯΔ৔߹ɼ྆ sim ؔ਺ͷ஋͸ߴ͘ͳΔɽ 6.1 ൺֱख๏ ͱͷྨࣅ౓ू߹ SIMj ͷྨࣅ౓΋ߴ͘ͳΔɽ Ҏ্ͷߟ͑ํ͔Βɼൺֱ͢Δ 2 ͭͷ໊ࢺͱͦͷଞͷ ໊ࢺू߹ͱͷྨࣅ౓Λܭࢉ͠ɼ྆ऀͷྨࣅ౓ू߹ͷ૬ ؔΛٻΊɼ͜ͷ૬ؔ܎਺Λ྆ऀͷྨࣅ౓ͱ͢Δɽ 6 ධՁ ࡞੒໊ͨ͠ࢺͷৗࣝ஌ࣝϕʔεʹ͍ͭͯɼ໊ࢺʹର ͠ਖ਼͍͠ৗ͕ࣝ෇༩͞Εɼ໊ࢺಉ࢜ͷؔ܎Λਖ਼͘͠ܭ ࢉͰ͖͍ͯΔ͔ධՁ͢ΔɽຊݚڀͰ͸ɼධՁηοτͱ ͯ͠೔ຊޠޠኮେܥதͰ “໊ࢺ-۩ମ” ʹϥϕϧ෇͚͞ Εɼߋʹ೔ຊޠ N-gram தͰग़ݱස౓ͷ্Ґ 90 ˋΛ઎ ΊΔ 1,617 ݸͷ໊ࢺΛ༻͍ͯɼධՁηοτͱਖ਼ղηο τʹ͓͚Δ໊֤ࢺؒͷྨࣅ౓ू߹ͷ૬ؔ܎਺ΛٻΊΔɽ ਖ਼ղηοτͱͯ͠ɼ೔ຊޠޠኮେܥதʹ͓͚Δ໊ࢺؒ ͷڑ཭Λܭࢉͨ͠ɽ֓೦ x ∈ X Λ໊࣋ͭࢺ wi ͱɼ֓ ೦ y ∈ Y Λ໊࣋ͭࢺ wj ͷྨࣅ౓͸ҎԼͷࣜͰܭࢉ͞ ΕΔɽ ave sim(wi, wj) = 1 |XY | x∈X,y∈Y 2d(wi,x, wj,y) d(wi,x )d(wj,y ) (2) 類似度計算の評価概念として適切な名詞の選定日本語語彙大系中で “名詞-‐具体”でラベル付けされている名詞12,042 語常識として適切な用言の選定 0 10000 20000 30000 40000 0 5000 10000 係り元となる概念の数が多い＝削除用言用言の係り元となる概念の数用言異数特定の概念に対し高頻度で係る用言は，その概念の常識である可能性が高いが，しかしその用言が多くの名詞に対し係る汎用的な用言であった場合，常識として不適切とみなされ削除される．ある用言がある概念にとって常識か否かは，その概念に係る用言数に依存する（下図参照）．．係り元となる概念の数が多い場合，特徴的な出現分布になることを利用し，統計的情報を用いて削除用言数を自動的に決定した（下式） ༻ݮ਺ͷมԽ Fig. 4 Emergence distribution in the top N predicates ݁ՌΛਤ 5 ʹࣔ͢ɽN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸ ࡟আ༻ݮ਺͸ྦྷ৐తʹมԽ͠ɼN ͕ 20,000 Λ௒͑ͨ ஈ֊Ͱ΄ͱΜͲมԽ͠ͳ͘ͳ͍ͬͯΔ͜ͱ͕෼͔Δɽ ਤ 5 ଟ͘ͷ༻ݴͷ܎ΓݩͱͳΔ໊ࢺ্Ґ N ݅ʹ͓͚Δ ࡟আ༻ݴ਺ͷมԽ Fig. 5 The number of deleting predicates changes from N equals 1,000 to 70,000 ͜ͷ݁Ռ͔Βɼ໊֤ࢺʹ͓͚Δ࡟আ༻ݮ਺Λܾఆ͢Δɽ N ΛมԽͤͨ͞৔߹ͷ࡟আ༻ݴ਺ͷมԽ͔Βۙࣅۂ ઢΛٻΊɼN=1,000ʙ20,000 ͷؒʹ͓͍ͯ͸ۙࣅۂ ઢͷ͔ࣜΒ࡟আ༻ݴΛܾఆ͢Δʢখ਺఺ҎԼ͸੾Γࣺ ͯʣ ɽ࡟আ༻ݴ਺ΛٻΊΔࣜΛҎԼʹࣔ͢ɽ y = 13135.0 × x−0.583 (1) ʹ-ͳΔɼ͕-͋ΔɼΛ-ݟΔɼΛ-දࣔɼͱ-ͳΔɼΛ-୳͢ɼΛ-ೖ ྗɼʹ-͋ΔɼΛ-࢖༻ɼΛ-௥ՃɼΛ-ݕࡧɼʹ-௥ՃɼΛ-࣋ͭɼ Λ-ԡ͢ɼΛ-࢖͏ɼʹ-ߦ͘ɼΛ-঺հɼ΁-¡/(˞܎Γड͚ղੳΤ ϥʔ), Λ-ొ࿥ɼʹ-໭Δɼͷ- ͋ΔɼΛ-બ୒ɼΛ-ೖΕΔɼ͕- ͍ΔɼΛ-ॻ͘ɼʹ-ೖΕΔɼͰ-୳͢ɼ͕- ߴ͍ɼΛ-ಡΉɼΛ-࡞ Δɼʹ-ొ࿥ɼΛ-͚ͭΔɼ͕-දࣔɼʹ-ೖΔɼΛ-ؚΉɼ͕-ग़Δɼ ͕-ͳΔɼΛ-ങ͏ɼͰ-ݕࡧɼΛ-ܝࡌ ਤ 6 ͢΂ͯͷ໊ࢺʹର͢Δ࡟আ༻ݴ (ڞى͢Δ໊ࢺͷҟ ͳΓ਺͕ଟ͍ॱ) Fig. 6 The deleted predicates for all nouns ܎ͬͯग़ݱ͢Δස౓͕ߴ͍΄Ͳɼͦͷ໊ࢺͷৗࣝͱ͠ ͯద੾ͳ༻ݴͰ͋Δͱߟ͑ΒΕΔɽ 5. ֤֓೦ಉ࢜ͷྨࣅ౓ܭࢉ ৗࣝ஌ࣝϕʔεΛߏங͢ΔͨΊʹɼ֫ಘͨ͠ৗࣝΛ ༻໊͍ͯࢺʢ=ৗࣝ෇༩ͷର৅ͱͳΔ֓೦ʣؒͷҙຯ తؔ܎Λௐࠪ͢Δɽզʑ͸֓೦ؒʹݱΕΔੑ࣭ͱͯ͠ ҎԼͷ 2 ͭͷԾઆΛཱͯͨɽ ʢ 1 ʣ ໊ࢺରʹ෇༩͞ΕΔৗࣝू߹͕ྨࣅ͍ͯͨ͠ ৔߹ɼͦͷ໊ࢺର͸ྨࣅͨ֓͠೦Λ࣋ͭɽ ʢ 2 ʣ ໊ࢺ a ͱ໊ࢺ b ͕ྨࣅ͓͠Γɼ໊͔ͭࢺ b ͱ ໊ࢺ c ΋ྨࣅ͍ͯ͠Δ৔߹͸ɼ໊ࢺ a ͱ໊ࢺ c ΋·ͨ ྨࣅ໊ͨ͠ࢺʢ=֓೦ʣͰ͋Δɽ Ծઆ (1) ΑΓɼ֓೦ಉ࢜ͷྨࣅ౓͸ͦͷ֓೦ಉ࢜ͷ ࣋ͭ༻ݴू߹ͷྨࣅ౓ͰଌΕΔ͜ͱʹͳΔɽߋʹɼ܎ 提案手法はベースラインと比較して軒並み高い精度　→　スコア関数によらず高　　　　　い精度が得られる　→　一般的な類似度計算手法として有用である．概念間の類似度計算には， Jaccarad係数（Jac），Simpson係数（Simp），重み付きJaccard係数（WJac）を用いた．類似度計算におけるノイズを抑えるために，解析対象となる概念同士が持つ共通した常識集合のうち，それぞれにおいて最も頻度の低い用言以下の用言集合を削除する. その後，概念同士が類似している場合，両者の他概念との類似度群が相関を持つことを利用し，両者の相関を類似度として計算する． ද 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ ʹ-͋Δ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ Λ-ੜ͖ൈ͘ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢ Λ-ม͑Δ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ Ͱ-ى͜Δ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢ ʹ-޿ΊΔ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ ʹ-ඞཁ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ ϥΠϯͱൺֱͯ͠ߴ͍ਫ਼౓ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ʹ Jaccard ܎਺Λ༻͍ͨ৔߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ Δɽ͜ͷ͜ͱ͔ΒɼఏҊख๏ͷํ໊͕ࢺʹରͯ͠ΑΓ ৗࣝͱͯ͠૬Ԡ͍͠༻ݴΛ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ Ͱ͖ͨɽ͜ͷ݁Ռ͸ɼຊख๏͸໊ࢺʹର͢Δৗࣝू߹ ΛूΊΒΕΔ͚ͩͰ͸ͳ͘ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ ༗༻Ͱ͋Δ͜ͱΛ͍ࣔͯ͠Δɽ ද 2: ໊ࢺಉ࢜ͷྨࣅ౓ͷධՁ݁Ռ Jac Simp WJac ϕʔεϥΠϯ 1 ave 0.443 0.326 0.378 max 0.451 0.335 0.376 ϕʔεϥΠϯ 2 ave 0.480 0.442 0.371 max 0.481 0.446 0.364 ఏҊख๏ ave 0.607 0.499 0.582 max 0.591 0.461 0.558 ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 世の中 1: ໊ࢺʹରͯ͠෇༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿੈͷத ໊ࢺɿಓ࿏ ϕʔεϥΠϯ 2 ఏҊख๏ ϕʔεϥΠϯ 1 ϕʔεϥΠϯ 2 ఏҊख๏ ʹ-ͳΔ Λ-ੜ͖ൈ͘ ͕-෼அ ͕-෼அ ͕-෼அ ʹ-͋Δ Ͱ-ى͜Δ ʹ-ؔ࿈ ʹ-ؔ࿈ Λ-૸Δ Λ-ੜ͖ൈ͘ ʹ-ଘࡏ Λ-૸Δ Λ-૸Δ ʹ-໘͢ Λ-ม͑Δ ʹ-޿ΊΔ ʹ-໘͢ ʹ-໘͢ Λ-ڬΉ ʹ-͍Δ ʹ-ඞཁ Λ-࢖͏ Λ-࢖͏ Λ-௚ਐ Ͱ-ى͜Δ ʹ-ૹΓग़͢ Λ-ڬΉ Λ-ڬΉ ͔Β-ग़ೖΓ ʹ-ଘࡏ ͷ-໾ʹཱͭ Λ-௚ਐ Λ-௚ਐ ʹ-઀͢ ʹ-޿ΊΔ ʹ-໾ཱͭ Λ-ར༻ Λ-ར༻ Λ-ԣஅ ʹ-ग़Δ ʹ-ߩݙ ͔Β-ग़ೖΓ ͔Β-ग़ೖΓ Λ-౉Δ ʹ-ඞཁ Λ-ಈ͔͢ ʹ-͋Δ ʹ-઀͢ ͕-੔උ ΛऔΔ͜ͱ͕ࣔ͞Εͨɽಛ ߹ʹ࠷ߴͷਫ਼౓Λग़͍ͯ͠ ͷํ໊͕ࢺʹରͯ͠ΑΓ ෇༩ग़དྷ͍ͯΔ͜ͱ͕֬ೝ ͸໊ࢺʹର͢Δৗࣝू߹ ɼྨࣅ౓ܭࢉख๏ͱͯ͠΋ Δɽ ࣅ౓ͷධՁ݁Ռ Jac Simp WJac .443 0.326 0.378 .451 0.335 0.376 .480 0.442 0.371 .481 0.446 0.364 607 0.499 0.582 591 0.461 0.558 ࢖༻ͨ͠ݴޠࢿݯٴͼπʔϧ ʲ1ʳ നҪ ་ɼେࢁ ๕࢙ɼ஑ݪ ޛɼٶ࡚ ਖ਼߂ɼԣඌ তஉɼ “ ೔ຊޠޠኮେܥʹ͍ͭͯ”ɼ৘ใॲཧݚڀใࠂ.IMɼvol.98ɼ no.106ɼpp.47-52ɼ1998. ʲ2ʳ ޻౻ ୓ɼլ୔ लਓɼ“Web ೔ຊޠ N άϥϜ ୈҰ൛”ɼݴޠ ࢿݯڠձɽ ʲ3ʳ ޻౻ ୓ɼদຊ ༟࣏ɼ“νϟϯΩϯάͷஈ֊ద༻ʹΑΔ೔ຊޠ ܎Γड͚ղੳ”ɼvol.43ɼno.6ɼpp.1834–1842ɼ2002ɽ ࢀߟจݙ [1] K. Ahrens, S.F. Chung, and C.R. Huang. Concep- tual metaphors: Ontology-based representation and cor- pora driven mapping principles. In Proceedings of the ACL 2003 workshop on Lexicon and figurative language, Vol. 14, pp. 36–42. Association for Computational Linguis- tics, 2003. [2] M. Hagiwara, Y. Ogawa, and K. Toyama. A comparative study on effective context selection for distributional sim- 道路概念に対し付与される常識の例概念間に類似度の付与

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
100% Ψ Ϯ χ ϔ τ σ Χϥ ϤϦ Ϛσ ܭ ܗ༰ ײ֮ɾײ৘ มԽ ಈ࡞ ໨త എܠ ಈࢺҙຯྨܕͷᐆດੑղফʹ޲͚ͨ֨ϑϨʔϜ৘ใͱͷؔ࿈ௐࠪ ಈࢺͷ ͭͷҙຯྨܕ <> தࢁঊɼࢁຊ࿨ӳɽ༻ݯͷ৽͍͠ҙຯྨܕʕ࡞༻ੑ༻ݴͱܗঢ়ੑ༻ݴʕɽݴޠॲཧֶձୈ ճ೥࣍େձൃද࿦จूɼQQɼɽ ಈ࡞ ٬؍తʹ؍ଌऀ͕ଊ͑Δ͜ͱͷग़ དྷΔӡಈͰɼ ͦͷӡಈ͕ऴྃ͢Δͱ ӡಈঢ়ଶʹ໭Γɼ ݁Ռঢ়ଶΛද͞ͳ ͍ಈࢺɽ ྫʣ ӭ͙ɼ ৯΂Δ มԽ ओମʹݱΕΔӡಈͷ݁Ռঢ়ଶΛද ͢ಈࢺɽ ओମ͕ҙࢤΛ࣋ͨͣ݁Ռͷ ΈΛද͠ɼ ͔ͭӡಈ͕ऴྃͯ͠΋ӡ ಈલͷঢ়ଶʹ͸໭Βͳ͍දݱɽ ྫʣ ס͘ɼ ࢮ͵ ײ֮ɾײ৘ ײ֮ث׭ͷ׆ಈ΍ɼ ಄೴΍৺ͷಈ͖ ͳͲΛද͢஌৘ҙɽ ྫʣ ݟ͑Δɼ ײ͡Δ ܗ༰ ਓ΍෺ͷੑ࣭ɼ ܗɼ ଘࡏɼ ؔ܎Λද͢ දݱɽ ྫʣ ༏ΕΔɼ ҟͳΔ தࢁΒ <> ͸༻ݴͷܗଶతͳ෼ྨʢಈࢺͱܗ༰ࢺʣͱҙຯతͳ෼ྨ͕Ұக͠ ͍ͯͳ͍໰୊ʹର͠ɼҙຯతͳ෼ྨ ʮ࡞༻ੑ༻ݴʯ ͱ ʮܗঢ়ੑ༻ݴʯ ΛఏҊɽ ͞ Βʹɼܗଶతͳ෼ྨͱҙຯతͳ෼ྨͷதؒ֓೦ͱݴ͑Δ ͭͷҙຯྨܕΛ ఆٛɼ*1" ࣙॻதͷಈࢺ දݱʹରͯ͠औΓಘΔҙຯྨܕީิΛਓख Ͱ෇༩ɽ ಈࢺͷଟٛੑʹΑͬͯෳ਺ͷҙຯྨܕ͕෇༩͞Εͨಈࢺʹରͯ͠ɼจ຺৘ ใ͔ΒҙຯྨܕͷᐆດੑΛղফ͢Δɽ ɹྫʣ ɹίοϓΛਫͰຬͨ͢ˠಈ࡞ɹ৚݅Λຬͨ͢ˠܗ༰ ҙຯྨܕͷҧ͍ʹΑͬͯಈࢺͷจதͰͷ࢖ΘΕํ͕ҟͳΔͱԾఆɼࣗಈਪ ఆͷͨΊͷ༧උௐࠪΛߦ͏ɽ ௐࠪ಺༰ɾ݁Ռ ֤ද૚֨ΛऔΔಈࢺͷҙຯྨܕʹ܏޲͕͋Γɼ ෳ਺ͷҙຯྨܕ͕෇༩͞Ε ͍ͨͯΔಈࢺ͕จதʹ͓͍ͯͲͷҙຯྨܕʹͳΔ͔͸Ұ༷ͳ֬཰Ͱ͋Δ ͱԾఆ͠ɼ ҙຯྨܕ͝ͱʹಈࢺͷ਺Λಉ਺ʹἧ͑ΔΑ͏αϯϓϦϯάͨ͠ ্Ͱද૚֨͝ͱͷҙຯྨܕͷग़ݱස౓Λௐ΂ͨɽ ද૚֨ͷස౓ ߲ͷछྨ ද૚֨͝ͱʹͦͷҙຯྨܕΛ࣋ͭಈࢺʹ͔͠औΒΕͳ͍߲Λௐ΂ͨɽ ͜ ͷࡍɼ ߲ͷ໊ࢺΛ൚Խ͢ΔͨΊʹɼ ೔ຊޠޠኮେܥͷ໊ࢺҙຯଐੑΛར༻ ͨ͠ɽ ͦͷ݁ՌҎԼͷΑ͏ͳҙຯྨܕݻ༗ͷද૚֨ͱ໊ࢺҙຯଐੑͷϖ Ξ͕ಘΒΕͨɽ ʢओ؍ʹΑΔҰ෦ൈਮʣ ୯Ұͷҙຯྨܕ͕෇༩͞Εͨಈࢺ දݱΛର৅ʹɼ ژ౎େֶ֨ϑϨʔϜΛ༻͍֤ͯʑͷҙຯྨܕ͕෇༩͞Εͨಈࢺ͕औΔද૚͓֨Αͼ߲Λௐ΂ͨɽ ˠΨɾτ֨ΛऔΔಈࢺ͸ܗ༰ɼ Ϯɾ ϔɾΧϥɾϤϦ֨ΛऔΔಈࢺ͸ಈ ࡞ͷׂ߹͕ߴ͍ɽ มԽͱײ֮ɾײ ৘Λಛ௃෇͚Δද૚֨͸ස౓৘ใ ͚ͩͰ͸ಘΒΕͳ͔ͬͨɽ ྫʣ ಈ࡞ɹΨ֨ ந৅ɼ Ϯ֨ ࣄ৅ มԽɹϔ֨ ײ֮ɼ Ϛσ֨ ܗ ײ֮ɾײ৘ɹϤϦ֨ ࣄɼ ߦҝ ܗ༰ɹϚσ ಛ௃ɼ ϤϦ֨ ܗ ಈ࡞ มԽ ײ֮ɾײ৘ ܗ༰ ҙຯྨܕݻ༗ͷ ද૚֨ ໊ࢺҙຯଐੑϖΞ਺

機械学習を用いたニ格深層格の自動付与の検討

普通名詞換言辞書の構築背景国語辞典やシソーラスを用いた換言は多く行われている人が行う換言では、シソーラスや国語辞典等の言語資源では獲得出来ない知識も用いている目的完全に手作業で普通名詞についての換言辞書の構築用言等換言辞書と合わせた換言辞書をクエリ拡張に用いて有用性を示す普通名詞換言辞書の構築
JUMANの形態素辞書の普通名詞約1万7千語について、代表表記を換言対象として換言を行う換言先の内容語は2～3語以内に収める多語義であった場合は複数対とする語義はJUMANの形態素辞書のカテゴリに従う換言しない場合がある「上」：簡単な語にできない、「羅」：意味が分からない約1万7千語について換言作業を行い、約1万6千語の換言対を得た例）「学校存在」換言辞書「学校いる」 WordNet 「学校いる」「学校ある」「学院いる」「学院ある」「学園いる」「学園ある」元のクエリでとれた文の内容語と拡張してとれた文の内容語で類似度計算を行う元クエリで獲得した文数：140,604文換言辞書による拡張で獲得した文数：110,237文 WordNetによる拡張で獲得した文数：110,151文元クエリの獲得文集合のJaccard係数で段階的に足切りを行い計算した結果および元クエリでの獲得文数が5文以下のものを除いた場合の計算の結果を右図に示す 5文以下を除いた理由は、獲得文数が少ないクエリの影響を軽減するため換言辞書は日本語WordNet同義語データベースで拡張を行う場合と同等以上の効果があるカテゴリ代表表記換言結果人工物-金銭旅費/りょひ旅にかかる費用抽象物クラス/くらす階級組織・団体クラス/くらす集団場所-機能上/うえ人工物-その他羅/うすもの 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 ≧0.9 ≧0.8 ≧0.7 ≧0.6 ≧0.5 ≧0.4 ≧0.3 ≧0.2 ≧0.1 ≧0.0 換言辞書 jacc WordNet jacc 換言辞書 simp WordNet simp 6文以上換言辞書 jacc 6文以上 WordNet jacc 6文以上換言辞書 simp 6文以上 WordNet simp クエリ拡張による評価比較対象として日本語WordNet同義語データベース ver.1.0を用いて、換言辞書とWordNetの両方で見出し語となっている普通名詞とサ変名詞を一語づつ組み合わせたものをクエリとし、毎日新聞2年分の記事から文検索を行う

/PVO1BSBQISBTJOH#BTFEPOB7BSJFUZPG$POUFYUT *OQVU-PPLGPSUIFlBDDFTTzUPUIFBJSQPSU
0VUQVU-PPLGPSUIFlXBZzUPUIFBJSQPSU SFTUBVSBOU NBSLFU QVSQPTF USBOTGFS GFF XBZ CVT USBOTQPSUBUJPO EFMJWFSZ MPPLGPSUIF UPUIFBJSQPSU XBZUSBOTGFSGFF 5PTPSUCZUIFDPOUFYUTJNJMBSJUZ 5PHFOFSBUF BQSPQFS TFOUFODF 5PTFMFDU BTVJUBCMF QBSBQISBTF DPNNPO " # 5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPNNPODPOUFYUCFUXFFO"BOE# EJ⒎FSFODF " 5IFOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYUJO" 5/$5IFUPUBMOVNCFSPGEJ⒎FSFODFTPGUIFDPOUFYU common(original,candidate)× log( TNC difference(candidate) ) 4JNJMBSJUZ

14/09/22 NLP若若⼿手の会第9回シンポジウム •  খֶੜͷจষಡղࢧԉʹ޲͚ͨޠኮฏқԽ •  จ຺ͷछྨ਺ʹ஫໨͢Δͱߴਫ਼౓ʹ׵ݴͰ͖Δ<ֿݪ > – ର৅ޠͱީิޠ͕ڞ௨ʹ࣋ͭจ຺ͷछྨ਺͕ଟ͍
– ީิޠ͕࣋ͭจ຺ͷछྨ਺͕গͳ͍ Ծઆ ૬ؔͷڧ͞ ୯ޠͷ෼෍ ฏқͳޠ΄Ͳස౓͕ߴ͍ ڧ͍૬ؔͳ͠ ߴස౓ޠ͸ฏқ ௿ස౓͔ͭฏқͳޠ΋ଟ͍ ස౓͕ߴ͍΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔ͋Γ ස౓͕ߴ͍΄Ͳ จ຺ͷछྨ਺΋ଟ͍ ฏқͳޠ΄Ͳจ຺ͷछྨ਺͕ଟ͍ ڧ͍૬ؔͳ͠ จ຺ͷछྨ਺͕ଟ͍ޠ͸ฏқ จ຺͕গͳͯ͘΋ฏқͳޠ͸ଟ͍ ⾼高頻度度語は平易易なのか？

自然言語処理研究室研究概要(2014年)

自然言語処理研究室研究概要(2014年)