Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
常識表現となり得る用言の自動選定の検討
Search
自然言語処理研究室
March 31, 2013
Research
0
58
常識表現となり得る用言の自動選定の検討
真嘉比 愛, 山本和英. 常識表現となり得る用言の自動選定の検討. 言語処理学会第19回年次大会, pp.822-825 (2013.3)
自然言語処理研究室
March 31, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
350
SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
satai
3
250
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
410
Self-supervised audiovisual representation learning for remote sensing data
satai
3
230
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
420
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.6k
数理最適化に基づく制御
mickey_kubo
5
680
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
7
1.1k
Transparency to sustain open science infrastructure - Printemps Couperin
mlarrieu
1
190
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
110
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
330
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
260
Featured
See All Featured
KATA
mclloyd
30
14k
Bash Introduction
62gerente
613
210k
Optimizing for Happiness
mojombo
379
70k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Code Review Best Practice
trishagee
69
19k
Speed Design
sergeychernyshev
32
1k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Adopting Sorbet at Scale
ufuk
77
9.5k
The Cult of Friendly URLs
andyhume
79
6.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
830
Transcript
常識表現となり得る用言の 自動選定の検討 真嘉比 愛,山本 和英 長岡技術科学大学 電気系
研究の概要 • 常識知識ベース構築にあたり,常識として適 切な用言の選定方法を提案 – 名詞と共起する用言の異なり数に着目 – 用言の出現頻度上位N件毎に,名詞に対する削 除用言を決定
– ベースラインと比較して,適切な用言が付与され ていることを確認 • [課題] 共起する用言の少ない名詞に対して の常識付与方法
研究の目的 • 自然言語処理で利用可能な常識知識ベースを構築 名詞と共起する用言 → 常識と定義 ・
動詞 ・ 形容詞 ・ サ変名詞 名詞“犬”が持つ常識 動詞 吠える しつける 走る サ変名詞 散歩,病気,訓練,飼育 形容詞 かわいい たのしい いとしい
既存知識ベースとの違い 既存の 上位オントロジー e.g. SUMO,
OpenCyc 利点: 厳密に定義された常識 を利用できる 欠点: 実際の語彙表現との乖 離が激しい 各Conceptに対し, 様々な関係で結 ばれる語や文を 付与 e.g. ConceptNet 利点: 自然言語処理のタス クに適用しやすい 欠点: 大半が人手で集めら れているため,網羅性が低 い
常識がもつ性質 次の3つの性質を仮定: 1. 用言aと名詞nとの共起頻度が高いほど,用 言aは名詞nの常識である可能性が高い 2. どのような名詞とも共起する用言aは,常識
として不適切 3. 用言aが名詞nの常識として適切か否かは, その名詞と共起する用言の異なり数に依存 する
常識の自動選定 Step.1 • Web日本語Nグラム中で共起する名詞と用言のペ アを抽出 Step.2 • 共起する用言の異なり数が多い順に名詞をソート • 上位N件毎に用言の出現分布を調査 Step.3 • 出現名詞数が多い用言を常識として不適切とみな し削除
名詞と用言のペアを抽出 • Web日本語Nグラム – 200億文中から,出現頻度20回以上の文を抽出 – 7グラム総数: 570,204,252個 •
抽出した用言と名詞のペア – 605,363,630対 (異なり数: 29,434,191対) • 名詞の異なり数: 655,038語 • 用言の異なり数: 26,455語
名詞と共起する用言の異なり数 上位 N 件における用言の出現分布 出現名詞数が多い 出現名詞数が少ない 用言の出現名詞数 (N=1000) 用言の異なり数
名詞と共起する用言の異なり数 上位 N 件における用言の出現分布 Nの増加に伴い, 出現名詞数の多い 用言が少なくなる
用言の出現名詞数 (N=10000) 用言の異なり数
用言の出現分布に基づく 削除範囲の決定 出現名詞数が多い場合,用言の異なり数が加速度的に増加 =その範囲内の用言を除外の対象とする
Nの変化に伴う削除用言数の変化 削除される用言数は階段状に変化 グラフの特異点から, 名詞ごとの削除用言数を決定 (N=700,1100,1600, 2500,3600) Nの値は1000〜4500まで100刻みに変化
各名詞に対する削除用言数 • 削除用言 – わかる,もつ,みる,なる,ない,とる,できる,つく,しる,くる,おもう, おおい,いる,いう,ある,良い,入る,でる,つくる,つかう,きく,かく, おこなう,紹介,よい,ゆく,たつ,たかい,おる,いい,関係,やる,か ける
1: ໊֤ࢺʹର͢Δআ༻ݴ (N=ڞى͢Δ༻ݴͷ ͳΓ) ରͱͳΔ໊ࢺͷൣғ আ N≤700 427 700<N≤1,100 267 1,100<N≤1,600 143 1,600<N≤2,500 73 ͦΕҎ֎ 33 ྫ͑ɼN=1,000 ͷ໊ࢺʹ͍ͭͯ 227 ݸͷ༻ݴ͕ আରͱͳΔɽͨͩ͠ N=3,600 ͷࡍʹআ͞ΕΔ ݸͷ༻ݴɼରͱͳΔ໊ࢺΛબͳ͍༻ݴ͕ଟ 4 4.1 ͢Δɽ (1) (2) (3) N=3600における 33個の用言は,対 象となる名詞を選 ばない =常識として不適切
各名詞に対する常識の付与 • 名詞nに対する用言aを,Harman正規化した TF値で重み付け TF(a,n) = log 2 (n a,n
+1) log 2 ( n k,n k ∑ ) 以下の3つのbaselineと比較 ・ 用言は削除せず,Harman正規化したTFで重み付けした場合 ・ TF-‐IDFに則って重み付けした場合 ・ N≦700で削除される用言をすべて削除した場合 :名詞 :用言 :名詞に対する 用言の出現回数 n a n a,n
名詞に付与される用言の例 (1/2) ද 2: ໊ࢺʹରͯ͠༩͞ΕΔ༻ݴͷҧ͍ ໊ࢺɿ͍͵ baseline1 baseline2 baseline3 ఏҊख๏
baseline1 ͔͏ ͔͏ ۬Θͳ͍ ࢄา ೖֶ ͳΔ Ұॹ ࣂΘͳ͍ ͚ͭ͠Δ ڭҭ ͍Δ ੜ׆ ͔Έ͜Ζ͢ පؾ ͋Δ ͋Δ ൢച ͑ͳ͍ ͭΕΔ ͳΔ ੜ׆ ͨͷ͍͠ ༀࡴ ͘Β͢ ଔۀ ΈΔ ͍͢ ܨཹ ܇࿅ तۀ ͳ͍ Θ͔Δ ܇࿅ ΄͑Δ डݧ ͍͏ ొ ͚ͤ͜Δ ͔Θ͍͍ ͔Α͏ Ұॹ େ͖͍ ͔·ͳ͍ հޢ ֶश Ͱ͖Δ ͔Μ͕͑Δ ࢀ ࣂҭ ࢦಋ
名詞に付与される用言の例 (2/2) → 提案手法は,常識として適切な用言が付与されている ༩͞ΕΔ༻ݴͷҧ͍ (είΞॱ্Ґ 10 ݅) ໊ࢺɿখֶߍ ఏҊख๏
baseline1 baseline2 baseline3 ఏҊख๏ ࢄา ೖֶ बֶ ೖֶ ͚ͭ͠Δ ڭҭ ೖֶ ܇ಋ ڭҭ පؾ ͋Δ ଐ Ί͟Ίͳ͍ ଔۀ ͭΕΔ ͳΔ ࢀ؍ ͔͍͞͠ तۀ ͘Β͢ ଔۀ څ৯ Ճݮআ डݧ ܇࿅ तۀ डݧ ͦͩͭ ͔Α͏ ΄͑Δ डݧ तۀ ՎΘ͢ ֶश ͔Θ͍͍ ͔Α͏ ୲ Γ͞ͳ͍ ࢦಋ հޢ ֶश ଔۀ ͷͼΏ͘ ґཔ ࣂҭ ࢦಋ ͔Α͏ ࣮ݧ बֶ
付与失敗例について • 文中で名詞と共起しても,ほとんど関係がない – 名詞に係っている用言のみを利用 • 接尾辞的な使われ方をする名詞(e.g.月)
• 曖昧性のある名詞 – 文中で共起する他名詞との関係性を考慮 • 名詞同士の関係性を定義する名詞(e.g. 原因) – 常識を付与する対象として適切かどうか議論する必 要がある → 常識を付与する対象の名詞をどのように 制限していくか