Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
素性の相対性による分布類似度計算
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2010
Research
1
150
素性の相対性による分布類似度計算
朝倉 剛史, 山本 和英. 素性の相対性による分布類似度計算. 言語処理学会第16回年次大会, pp.688-691 (2010.3)
自然言語処理研究室
March 31, 2010
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
520
データサイエンス12_分類.pdf
jnlp
0
360
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
150
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
140
自然言語処理研究室 研究概要(2015年)
jnlp
0
220
Other Decks in Research
See All in Research
20年前に50代だった人たちの今
hysmrk
0
160
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
190
[Devfest Incheon 2025] 모두를 위한 친절한 언어모델(LLM) 학습 가이드
beomi
2
1.5k
存立危機事態の再検討
jimboken
0
250
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
360
When Learned Data Structures Meet Computer Vision
matsui_528
1
3.8k
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
360
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.6k
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
3
420
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
330
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
720
説明可能な機械学習と数理最適化
kelicht
2
1k
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.8k
Docker and Python
trallard
47
3.8k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
60
42k
SEO for Brand Visibility & Recognition
aleyda
0
4.3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.4k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
97
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
130
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.4k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
素性の相対性による 分布類似度計算 長岡技術科学大学 朝倉剛史 山本和英 1
発表の流れ 2 1.研究の背景 2.既存研究とその問題 3.提案手法の説明 4.実験及び考察 5.まとめ
研究の背景 電子文書の増加に伴い、 機械処理の必要性が高まっている。 文書の分類、話題抽出などのため、 単語の類似性を求めたい。 単語の類似度計算の必要性が高まっている。 3 1.研究の背景
類似度計算 (1) シソーラスを用いた手法 (2) コーパスを用いた手法 →近年コーパスを用いた手法に注目 ⇒分布類似度 『醤油』 『味噌』 ⇒ 類似度高い 『醤油』 『石』 ⇒ 類似度低い
意味的な類似性を求める 4 1.研究の背景
分布類似度とは? 文書内での単語の使われ方を比較 5 単語の係り先などを素性とする。 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」
「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・ 1.研究の背景 素性選択の必要性!
発表の流れ 6 1.研究の背景 2.既存研究とその問題 3.提案手法の説明 4.実験及び考察 5.まとめ
▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・ 既存研究の素性選択
7 2.既存研究とその問題 各単語の素性について、単語の特徴を強く 表している要素以外は一律に除外[相澤(08)]。
問題点 ▪『醤油』 「の:香り」「の:原料」「を:製造」 「の:道」「を:投げる」 ・・・ ▪『味噌』 「の:香り」「の:原料」「を:製造」 「から:行く」「を:投げる」・・・ ▪『石』 「を:投げる」「を:蹴る」「の:色」「の:紙」「を:ゴミ」・・・
2単語間で共通して特徴を強く表さない要素 ⇒類似度計算に有効 8 2.既存研究とその問題 除外される 有効な情報まで除外されてしまう
既存手法:単語の特徴を強く表すかどうか 提案手法:特徴を表す度合いが近いかどうか 提案手法 比較対象の単語の素性を用いて 相対的に素性を取捨選択する 。 9 2.既存研究とその問題 2単語間で共通して特徴を強く表さない要素 の獲得が可能。
発表の流れ 1.研究の背景 2.既存研究とその問題 3.提案手法の説明 4.実験及び考察 5.まとめ 10
システム全体の流れ 11 3.提案手法の説明 コーパス 単語と その素性 単語の素性を 自動収集 集めた素性の 足切り
素性の特徴量 を求める シソーラス 単語と その素性 特徴量を考慮した 素性選択 類義語 集合 関数を用いた 類似度計算 1 2 3 4 5
例)「お金が必要」 「EUに加盟」 (1)単語の素性を自動収集 コーパスより収集した、以下のような定型表現 を用いる[Lin(98)]。 12 3.提案手法の説明 例えば、『お金』の共起要素として「が:必要」が 得られる。全ての単語wについて、共起要素を 収集し、素性を作成する。
(2)集めた素性の足切り あきらかなノイズなどは、足切りしておく。 共起要素の出現頻度を用いて、相互情報量 (MI)が閾値βに満たないものは、除外する。 13 3.提案手法の説明 閾値βは評価セットによって異なり、経験的 に決める[相澤(08)]。
(3)素性の特徴量を求める 特徴量=共起要素が単語wの特徴を表す度合い 単語wの類義語集合を使用する。 ▪例:『少年』の類義語集合 →「子供」「少女」「児童」「女の子」「青少年」 その類義語集合の中で共通する共起要素ほど、特徴 量を高くする[Zhitomirsky-Geffet and Dagan(09)]。 14
3.提案手法の説明
(4)特徴量を考慮した素性選択 ▪『醤油』 「の:香り(1.0)」「の:原料(0.9)」「を:製造(0.8)」 「の:道(0.4)」「を:投げる(0.1)」・・・ ▪『味噌』 「の:香り(1.0)」「の:原料(0.8)」「を:製造(0.7)」 「から:行く(0.4)」「を:投げる(0.1)」・・・ 15 3.提案手法の説明 共通している要素について特徴量の差が大き
ければ除外し、小さければ除外しない。 ※数字は特徴量
(5)関数を用いた類似度計算 素性の重なりを見る関数である以下の関数 を使用する。 これらの関数を相加平均した値を類似度と する[柴田ら(09)]。 16 3.提案手法の説明
発表の流れ 1.研究の背景 2.既存研究とその問題 3.提案手法の説明 4.実験及び考察 5.まとめ 17
評価方法 4.実験及び考察 18 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 IC:LSI IC:太陽電池 IC:カード
IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 高 低 2組の類義語ペア(「強+中」「中+弱」「弱+非」) を類似度計算した結果で2値分類する。
「強」 評価方法イメージ 「 強 」 類 義 語 ペ ア
集 合 「 中 」 類 義 語 ペ ア 集 合 判定閾値 高 低 19 4.実験及び考察 類義語ペア 類 似 度 「強+中」の2値分類 「中」
実験 (1)柴田らの手法 相互情報量による足切りのみ (2)Zhitomirsky-Geffet and Daganの手法 特徴量を求め、その値で一律に除外 (3)本手法 特徴量を用いて素性を相対的に取捨選択 4.実験及び考察
20 実験は3手法を比較した。
実験条件 • 使用したコーパス 日本経済新聞全記事データーベース 1990-2004年度版 • 使用した単語数 ※共起要素数が20以上 40,678語 21
4.実験及び考察
実験結果 評価セット 柴田ら Z-G & D 本手法 「強+中」 0.702 0.791
0.797 「中+弱」 0.748 0.771 0.773 「弱+非」 0.838 0.789 0.840 すべての評価セットにおいて、比較手法の精度 を上回った。 →有効性を確認 4.実験及び考察 22 ※数値はF値
改善例 「強」類義語ペア 『鉄板:鉄筋』 「中」類義語ペア 『合成樹脂:セメント』 柴田ら 0.103 0.265 Z-G &
D 0.096 0.111 本手法 0.216 0.143 4.実験及び考察 23 本手法では適正な類似度水準を実現できた。 ※数値は類似度 評価セット「強+中」での一例
考察 • 低頻度ペアが誤りの中に多く分布していた。 ⇒超大規模コーパスを用いたり、素性を 補完するような手法が求められる。 4.実験及び考察 24 今回用いた特徴量では、精度を維持しながら 削減できる量は、最大約98%に上った。 ⇒類似度計算に必要な素性は非常に限ら
れている。
今後の課題 • 2単語間の素性の共通していない部分にお いては、相対性を用いた素性選択が行えて いない。 →2単語間のみならず、対象の類義語集合 の素性と比べるなどの工夫が求められる。 4.実験及び考察 25
対象とする単語の範囲を広くする。
発表の流れ 1.研究の背景 2.既存研究とその問題 3.提案手法の説明 4.実験及び考察 5.まとめ 26
まとめ • 分布類似度における従来の素性選択では、必要 な素性まで除外されてしまう可能性がある。 • 素性の相対性を考慮した、新しい素性選択手法 を提案した。 • 比較対象の単語の素性と共通する要素について 特徴量の差を考慮した。
• 既存手法を上回る精度であり、有効性を示した。 5.まとめ 27
発表は以上です。 ありがとうございました。 28
評価セットのイメージ
各類義語ペアの例 「強」類義語 「中」類義語 「弱」類義語 「非」類義語 JAL:NTT NTT:銀行 NTT:国立大学 NTT:導入 IC:LSI
IC:太陽電池 IC:カード IC:国土庁 アジア:ヨーロッパ アジア:アメリカ アジア:我が国 アジア:システム アニメ:映画 アニメ:紙芝居 アニメ:SF アニメ:清酒 居酒屋:パブ 居酒屋:コンビニ 居酒屋:駅 居酒屋:地名 関西:四国 関西:アジア 関西:首都圏 関西:事前 生活費:交際費 生活費:物価 生活費:家賃 生活費:東日本 米国:イギリス 米国:アフリカ 米国:フランス人 米国:企業
足切りのための閾値 • 相互情報量で足切りをする場合、閾値は 経験的に決める。 閾値を変化させながら 足切り後の精度を測 る。 各評価セットにおいて、 最適な閾値を求める
本手法の実験結果(1/3) 「強+中」セットにおける閾値とF値の関係。 重みとは特徴量を指す
本手法の実験結果(2/3) 「中+弱」セットにおける閾値とF値の関係。 重みとは特徴量を指す
本手法の実験結果(3/3) 「弱+非」セットにおける閾値とF値の関係。 重みとは特徴量を指す
改善例 「強」類義語ペア 『鉄板:鉄筋』 「中」類義語ペア 『合成樹脂:セメント』 柴田ら 0.1031 0.2652 Z-G &
D 0.0958 0.1111 本手法 0.2160 0.1430 4.実験及び考察 23 本手法では適正な類似度水準を実現できた。 ※数値は類似度 評価セット「強+中」での一例
改善例 「強」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 鉄板(112):鉄筋(96) 15 0.1170 柴田ら
鉄板(106):鉄筋(86) 12 0.1031 Z-G & D 鉄板(8):鉄筋(8) 1 0.0958 本手法 鉄板(26):鉄筋(21) 6 0.2160 「中」類義語 単語(共起要素数)ペア 共通する要素数 類似度 足切り無し 合成樹脂(156):セメント(238) 71 0.3375 柴田ら 合成樹脂(120):セメント(173) 43 0.2652 Z-G & D 合成樹脂(13):セメント(6) 1 0.1111 本手法 合成樹脂(61):セメント(40) 8 0.1430
F値の計算式