Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
大規模言語モデルを用いた意味分析による辞書記述への応用
Search
Yasuhiro Kondo
November 19, 2023
1
1.4k
大規模言語モデルを用いた意味分析による辞書記述への応用
2023年11月18日 近藤泰弘
語彙・辞書研究会シンポジウム「生成AI・大規模言語モデルの現状と日本語の辞書」発表スライド
Yasuhiro Kondo
November 19, 2023
Tweet
Share
More Decks by Yasuhiro Kondo
See All by Yasuhiro Kondo
AIによる古典語・古典文学研究の方法について
yhkondo
0
130
『源氏物語』の引き歌をベクトル検索によって検出する方法
yhkondo
0
55
大規模言語モデルの持つ言語知識とコミュニケーション
yhkondo
0
38
古典語の係り結びと情報構造
yhkondo
0
79
『百人一首』の歌風は何か?
yhkondo
0
71
ChatGPTは何を生成しているのか
yhkondo
0
76
日本語研究から見たChatGPT
yhkondo
0
750
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Code Review Best Practice
trishagee
65
17k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Agile that works and the tools we love
rasmusluckow
328
21k
Code Reviewing Like a Champion
maltzj
521
39k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
What's in a price? How to price your products and services
michaelherold
243
12k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Transcript
大規模言語モデルを 用いた意味分析によ る辞書記述への応用 近藤泰弘(青山学院大学) 第64回 ޠኮɾ辞書研究会 2023年11月18日 `
[email protected]
発表の内容 0 はじめに 1 埋め込みベクトルについて 2 埋め込みベクトルの能力 3 単語ベクトルの可視化 4
ベクトル表現の階層化 5 ベクトル表現にしたシソーラス 6 今後の課題
0. はじめに
意味の扱い 単語の意味は捉えにくいものなので、言語 研究・辞書記述の上で古くから様様な工夫 がされてきた。 分布仮説・埋め込み表現 Z・ハリス「分布仮説」 埋め込み表現 分類体辞書・シソーラス 『倭名類聚抄』『色葉字類抄』 『節用集』『分類語彙表』
服部四郎・国広哲弥「意義素」 日本語WordNet(ネットワーク) 意義素・WordNet
ロジェ・シソーラス(1854再版) PLAN OF CLASSIFICATION 1 ABSTRACT RELATIONS (抽象的関係) 2 SPACE(空間)
3 MATTER(事物) 4 INTELLECT(知恵) 5 VOLITION(意志) 6 AFFECTIONS(感情)
分類語彙表(1964初版) 抽象的関係・人間活動(精神)と いう順番は、ロジェの影響がある が、「体・用・相」を1次分類に したのは特徴的である。これは、 増補改訂版でも踏襲されている。 日本語の「意味分類」で何が1次 分類として適当なのかは、本当の ところはわからない。
意義素の説明(国広1965) 弁別的特徴による分類は 、客観性があるとも言え るが、そもそもこの特徴 だけで必要十分といえる 根拠がない。 ただ、この記述方法は、 今後の参考になる。次に 述べるベクトル的な表現 となっている。
意味記述には、現在のところ「シソーラス」 「意義素」などの方法があるが、いずれにせ よ、意味をより客観的に扱うことができれば 、辞書記述の方法論も変わってくるはず。 →「分布仮説」の再登場
1. 埋め込みベクトル について
共起行列の考え方(6次元) 高い 長い 登る 流れる 頂上 橋 山 [ 1
0 1 0 1 0 ] 川 [ 0 1 0 1 0 1 ] 山 [101010] 川 [010101] (ベクトル表現) 丘 [101000 ] 「川」より「山」に近い (分散表現・埋め込み表現、などとも)
単語頻度など TF−IDFなど 深層学習 word2vec, FastText など。3層 程度の浅いニューラルネットワ ークを用いて、共起情報を元に 、ベクトルを得ることができる。 トランスフォーマー
SentenceBERT、GPTなどの、新型の深層学習 によるベクトル生成。非常に多くの階層をもった ネットワークとアテンション機構によるため、性 能が高い。 その他のベク トル生成
トランスフォーマ—によるベクトル • SentenceBERT(エンコーダーを用いてベクトルを得る) • GPT(デコーダーを用いてベクトルを得る) • 同じトランスフォーマーでも得られるベクトルの性質が やや異なるが、今回は多くのテキストからデータを得て いるGPTのベクトル生成を用いる。 現在最も高性能なの
はOpenAIの提供するもの。非常に微細なニュアンスを多 言語に持つ。
OpenAIの埋め込みベクトル • OpenAIの提供するtext-embedding-ada-002というモデル を用いる。OpenAIのクラウドからAPIとしてアクセスで きる。単語・文について、1536次元のベクトルを得られ る。GPT3相当の数十~数百億パラメタモデルを利用して いるものと思われる。実質的にChatGPTの意味辞書であ るとみなして大きくは違わない。
OpenAIの埋め込みベクトル {"title": "1", "body": "¥u5e74¥u306e¥u3046¥u3061¥u306b¥u6625¥u306f¥u6765¥u306b¥ u3051¥u308a¥u3072¥u3068¥u3068¥u305b¥u3092¥u53bb¥u5e74¥u3068¥u3084¥u30 44¥u306f¥u3080¥u4eca¥u5e74¥u3068¥u3084¥u3044¥u306f¥u3080", "embedding": [- 0.0017322878120467067,
-0.01955992728471756, 0.01636701636016369, 0.007083430420607328, 0.005423251539468765, 0.012832009233534336, -0.011832548305392265, - 0.01664874516427517, -0.018594004213809967, -0.013361925259232521, 0.014354678802192211, 0.005547345615923405, -0.009840333834290504, 0.009766547940671444, -0.0065032062120735645, -0.01993556320667267, 0.024657849222421646, -0.01984165422618389, , 0.011309340596199036, -0.0325193852186203, 0.017292693257331848, (以下略)
2. 埋め込みベクトルの能力
多言語能力(現代語と古典語) 質問文: 春の景色を見る 順位: 本文(コサイン類似度) 1: 春風は花のあたりをよきて吹け心づからやうつろふと見む (0.9169228780822233) 2: 見渡せば柳桜をこきまぜて都ぞ春の錦なりける
(0.9146490876612831) 3: 春ごとに花のさかりはありなめどあひ見むことは命なりけり (0.9128745447403608) 4: 春の色のいたりいたらぬ里はあらじ咲ける咲かざる花の見ゆらむ (0.9124381248283752) 5: 春霞色のちくさに見えつるはたなびく山の花の影かも (0.911274297283942)
多言語能力(英語と古典日本語) 質問文: I lament how quickly the seasons change 順位:
本文(コサイン類似度) 1: 秋風にあふ田の実こそ悲しけれわが身むなしくなりぬと思へば (0.8152505644733212) 2: 物ごとに秋ぞ悲しきもみぢつつ移ろひゆくを限りと思へば (0.8101851226217894) 3: 秋来ぬと目にはさやかに見えねども風の音にぞおどろかれぬる (0.8078393920033705) 4: おほかたの秋くるからにわが身こそ悲しきものと思ひ知りぬれ (0.8075361576183776) 5: 夕さればいとど干がたきわが袖に秋の露さへ置き添はりつつ (0.8066052282284499)
多言語能力(絵文字と古典日本語) 質問文: ☔ 順位: 本文(コサイン類似度) 1: 冬ながら空より花の散りくるは雲のあなたは春にやあるらむ (0.8145459921979219) 2: 雨降れど露ももらじを笠取の山はいかでかもみぢ染めけむ
(0.813934018579619) 3: 風吹けど所もさらぬ白雲は世を経て落つる水にぞありける (0.8138760060886582) 4: 雪とのみ降るだにあるをさくら花いかに散れとか風の吹くらむ (0.8117699011541112) 5: 風吹けば落つるもみぢ葉水きよみ散らぬかげさへ底に見えつつ (0.8115558733685146)
人間以上の抽象化能力 質問文: カメラ 順位: 本文(コサイン類似度) 1: 涙川なに水上を尋ねけむ物思ふ時のわが身なりけり (0.8099566991252107) 2: うばたまのわが黒髪やかはるらむ鏡の影に降れる白雪
(0.8092205559258623) 3: 雲晴れぬ浅間の山のあさましや人の心を見てこそやまめ (0.8090808874010651) 4: 年をへて花の鏡となる水はちりかかるをやくもるといふらむ (0.808340465836945) 5: 行く年の惜しくもあるかな真澄鏡見る影さへにくれぬと思へば (0.8061932929447349) 6: 色見えで移ろふものは世の中の人の心の花にぞありける (0.8039959198796928) 7: 秋の野になまめき立てる女郎花あなかしがまし花も一時 (0.8033866928888013)
3. 単語ベクトルの可視化 (主成分分析による次元圧縮)
手と足に関する単語(2次元XY軸に圧縮) 足 手 日本語 日本語以外 Y軸の意味 X 軸の意味
日本語の基礎語1000(軸がわかりにくい) 動詞 形容詞 名詞 接尾辞 等
4 . ベクトル情報の階層化
PCAの次元ごとの特性 • 1次元では「本、第、点、市、間」などの形式的なものと、「起き る 、掛かる、得る」などの実質的動詞が、正負に分離される。 • 2次元では「来る、 出る」などの「動き」と、「中央、地域,曜日、 歴史」などの「実質的な名詞」が分離される。 •
3次元では、「作業、実施、活動」(名詞)と、「辛い、大きな、甘い 、思い」(形容詞など)が分離される。 • 4次元では「何時、今後、一昨日」(時間)とそうでないもの • 5次元では「鼻、髪、背中、花、虫」(身体・動物)とそうでないもの
PCAの次元ごとの特性 1 形式—実質 2 もの—うごき 3 もの—さま 4 もの—とき 5
もの—身体 6 かたち—時間 7 心理—地理 8 単位—自己 9 人称—空間 10 家屋—身体
PCAの2次元 (X)と 3次元 (Y) の取り出し さま(相) もの・こと(体) うごき(用) (体) (用)
(体/用) (相)
もの・こと 軸の値で、グループ内部も決まってくる さま うごき 状態性名詞 動作性名詞 さま もの・こと Y 軸
5. ベクトル表現のシソーラス
多次元ベクトルシソーラス "body": "車", "pca_embedding": [ -0.018940224238679613, (形式・実質) -0.030544183990459547, (うごき) -0.016728742278582412,
(さま) -0.05516813838116531, (とき・前後) 0.12781263473692778, (からだ・植物) -0.05270995502143154, (曜日) 0.08267572121057036, -0.0046889980652777405, 0.03343771227201657, -0.07776536060298282, (以下略)
シソーラス(ツリー・ベクトルは等価だが、 ベクトルの方が拡張性が高い) (ツリー形式) 1 動物 ├── 1 哺乳類 │ ├──1犬
│ └──2猫 └── 2 鳥 ├── 1 鶏 └── 2 鴨 (ベクトル形式) 動物: [1, 0, 0] 哺乳類: [1, 1, 0] 犬: [1, 1, 1] 猫: [1, 1, 2] 鳥: [1, 2, 0] 鶏: [1, 2, 1] 鴨: [1, 2, 2]
ベクトルシソーラスの構想 小さい: [0 0 0 1 0] 狩る: [0 0
0 0 1] 動物: [1 0 0 0 0] 哺乳類: [1 1 0 0 0] 犬: [1 1 1 0 0] 子犬: [1 1 1 1 0] 猟犬: [1 1 1 0 1] 猫: [1 1 2 0 0] 子猫: [1 1 2 1 0]
6. 今後の課題
1. ベクトルの次元圧縮の方法(t-SNE, UMAP, NMF, ICA等)の試行 2. 上位語・下位語の取得方法の工夫。ベクト ルのノルム(長さ)の利用などが考えられ る。 3.
ローカルマルチリンガルLLMの利用(埋め 込みの取得方法が異なる。OpenAIのものは 、デコーダーだが、ローカルで動くBERT 系のものはエンコーダーである。) 4. PCAの結果からのベクトルの逆分析
5. 辞書の記述の標準化・正規化 日本語の「意味」の分類とはなにか? 埋め込みベクトル ( 共起情報)の観察からは、 • 実質語と形式語(助数詞・接頭辞・接尾辞) • 動き(用)と、もの・こと(体)
• さま(相)と、もの・こと(体) • 時間と行為 • 身体と社会 などが重要なポイント( 他言語 との比較が必要・シンタクスか意味か?)